디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

수천만원 드는 AI 성능 평가... 이제 몇백만원으로 해결 가능하다

aimatters갤로그로 이동합니다. 2026.01.19 14:50:05
조회 44 추천 0 댓글 0


구글 딥마인드 연구진이 AI 성능을 평가하는 새로운 방법을 개발했다. 해당 논문에 따르면, 기존에는 AI 모델 하나를 제대로 평가하려면 수천만 원이 들었지만, 이 방법을 쓰면 비용을 10분의 1 수준으로 줄일 수 있다. 비결은 간단하다. 모든 시험을 다 보는 대신, 중요한 시험만 골라서 보는 것이다. 



AI 평가, 왜 이렇게 돈이 많이 들까? 


요즘 AI는 점점 똑똑해지고 있다. 챗GPT 같은 대규모 언어모델은 수학 문제도 풀고, 프로그래밍도 하고, 질문에 답변도 한다. 이렇게 여러 가지 일을 잘하는지 확인하려면 그만큼 많은 시험을 봐야 한다. 

문제는 비용이다. AI 모델의 종합 성능을 평가하는 HELM이라는 시스템으로 모델 하나를 완전히 평가하면 수천 달러, 한국 돈으로 수백만 원에서 수천만 원이 든다. 이렇게 비싼 이유는 뭘까? 평가해야 할 작업이 너무 많고, 작업마다 여러 번 테스트해야 정확한 결과가 나오기 때문이다. 

게임으로 AI를 평가할 때도 마찬가지다. 옛날 아타리 게임으로 AI를 평가하는 경우, 하나가 아닌 50개가 넘는 게임을 해야 한다. 게임마다 수천 번씩 플레이해서 평균 점수를 내야 하니 시간과 컴퓨터 자원이 엄청나게 든다. 연구진은 "AI가 여러 일을 잘하는지 확인하려면 평가 항목이 많아지는데, 이 모든 걸 다 평가하면 자원이 낭비된다"고 지적했다. 



똑똑한 평가 방법의 핵심? 필요한 것만 골라서 테스트 


연구진이 제안한 방법은 기존 방식과 완전히 다르다. 기존에는 미리 준비된 모든 시험을 다 봤다면, 새 방법은 AI가 어떤 시험을 볼지 스스로 선택한다. 마치 학생의 실력을 파악하기 위해 모든 과목 시험을 다 보는 대신, 몇 개 과목만 전략적으로 골라서 보는 것과 비슷하다. 

구체적으로 이렇게 진행된다. 매번 평가할 때마다 프로그램이 "어떤 작업을 테스트할까?"와 "어떤 AI 모델 두 개를 비교할까?"를 결정한다. 선택한 작업에서 두 모델의 점수를 확인하고, 이 정보로 전체 순위를 업데이트한다. 이 과정을 반복하면서 점점 정확한 순위를 찾아간다. 

연구진은 성능을 측정하는 새로운 기준도 만들었다. 단순히 순위가 정확한지만 보는 게 아니라, 상위권 모델을 제대로 찾아내는지도 함께 본다. 실제로는 1등, 2등, 3등 모델만 알면 되는 경우가 많기 때문이다. 예를 들어 최고 성능 모델 하나만 찾는 게 목표라면 나머지 순위는 크게 중요하지 않다. 



체스 등급 방식이 인공 데이터에서 우수, 새 방법은 실제 데이터에서 2배 앞서 


연구진은 16가지 다른 평가 방법을 비교했다. 여기에는 체스 선수 실력을 매기는 데 쓰이는 Elo 방식, 투표 이론을 응용한 방법, 게임 이론을 활용한 방법, 그리고 최근 개발된 SCO(소프트 콘도르세 최적화)라는 방법 등이 포함됐다. 

먼저 인공적으로 만든 테스트 데이터로 실험했다. AI 모델 8개와 작업 50개로 구성된 환경에서, 작업들이 비슷한 경향을 보일 때는 가장 단순한 방법들이 초반에 빠르게 좋은 결과를 냈다. 하지만 전반적으로는 Elo 방식이 꾸준히 신뢰할 만한 선택이었다. 반대로 작업들이 서로 많이 다를 때는 대표적인 작업들만 골라서 집중하는 방법이 다른 방법들을 크게 앞질렀다. 

실제 아타리 게임 데이터로 실험했을 때는 결과가 달랐다. 8개 AI 모델과 57개 아타리 게임으로 테스트한 결과, SCO라는 새 방법이 가장 좋았다. 특히 SCO는 Elo 방식보다 오차가 절반 정도밖에 안 됐다. 흥미롭게도 인공 데이터에서 좋았던 단순한 방법들은 실제 데이터에서는 가장 나쁜 성능을 보였다. 이는 단순히 점수를 평균 내는 방식이 실제 상황에서는 적합하지 않을 수 있다는 뜻이다. 

연구진은 복사본 모델이 있을 때 얼마나 정확한지도 테스트했다. 원래 8개 모델에 각각의 복사본 8개를 추가해 총 16개로 실험한 결과, 모든 방법에서 오차가 늘어났지만 일부 방법들은 여전히 괜찮은 성능을 유지했다. 



평가 방법 하나로 AI 개발 비용 크게 줄인다 


이번 연구는 AI 평가 방식을 바꿀 수 있다는 점에서 중요하다. 특히 세 가지 실용적인 의미가 있다. 

첫째, 어떤 평가 방법을 쓸지는 상황에 따라 달라야 한다. 인공 데이터 실험에서는 Elo가 꾸준히 좋았지만, 실제 아타리 데이터에서는 SCO가 훨씬 나았다. 이는 평가 대상에 맞는 방법을 골라야 한다는 뜻이다. 작업들이 비슷한 패턴을 보이면 Elo나 단순 평균이 효율적이지만, 작업들이 제각각이면 대표 작업을 선별하는 방법이 더 효과적이다. 

둘째, 비용을 크게 줄일 수 있다. 이 방법을 쓰면 필요한 테스트 횟수를 대폭 줄일 수 있다. 예를 들어 상위 3개 모델만 찾으려면 2000번도 안 되는 테스트로 거의 완벽한 결과를 얻을 수 있었다. 이는 모든 조합을 다 테스트하는 것보다 훨씬 효율적이다. 현재 AI 모델 평가에 수천만 원이 드는 상황에서, 이런 효율성 향상은 상당한 비용 절감으로 이어진다. 

셋째, 실시간 처리와 일괄 처리 방식 중 어느 것이 나은지는 상황에 따라 다르다. 인공 데이터에서는 평균을 이용한 방법이 한꺼번에 처리하는 방식보다 빨랐지만, 아타리 실험에서는 반대였다. 실시간 처리는 계산이 간단하다는 장점이 있지만, 데이터 특성에 따라 성능이 달라질 수 있다. 따라서 평가 시스템을 만들 때 계산 효율과 정확도 사이의 균형을 잘 맞춰야 한다. 

이번 연구는 AI 평가를 효율적으로 하는 기초를 제공했지만, 앞으로 더 연구할 부분도 있다. 특히 더 똑똑한 샘플링 방법, 불확실성을 고려한 선택, 작업 간 관계를 활용한 샘플링 등이 추가로 필요하다. 매우 복잡한 질문의 경우 연구진은 별도의 심층 연구 기능 사용을 권장한다. 



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 


Q1. 똑똑한 평가 방법이란 뭔가요? 

A. AI 모델을 평가할 때 미리 정해진 모든 테스트를 하는 대신, 프로그램이 매번 어떤 테스트를 할지 스스로 선택하는 방식입니다. 학생 실력을 파악하기 위해 모든 과목 시험을 다 보는 대신, 핵심 과목 몇 개만 골라서 보는 것과 비슷합니다. 이렇게 하면 테스트 횟수를 줄이면서도 정확한 순위를 알 수 있어 시간과 비용을 아낄 수 있습니다. 

Q2. Elo 방식은 뭐고 왜 AI 평가에 좋은가요? 

A. Elo는 원래 체스 선수의 실력을 등급으로 매기기 위해 만든 방법입니다. 두 선수가 대결한 결과를 바탕으로 각자의 등급을 계산합니다. AI 평가에서도 두 모델의 성능을 비교하는 식으로 활용할 수 있으며, 이번 연구에서 Elo는 인공 데이터 환경에서 꾸준히 좋은 성능을 보였습니다. 

Q3. 이 연구가 실제로 어떤 도움이 되나요? 

A. 이 연구는 AI 모델 평가 비용을 크게 줄일 수 있는 방법을 제시합니다. 현재 대규모 언어모델 하나를 제대로 평가하는 데 수백만 원에서 수천만 원이 들지만, 이 방법을 쓰면 필요한 테스트 횟수를 줄여 비용을 10분의 1 수준으로 절감할 수 있습니다. 이는 특히 예산이 적은 연구팀이나 스타트업에 큰 도움이 될 것입니다. 



해당 기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 


논문명: Active Evaluation of General Agents: Problem Definition and Comparison of Baseline Algorithms 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 해외 유명인들과 있어도 기가 전혀 죽지 않을 것 같은 스타는? 운영자 26/02/09 - -
이슈 [디시人터뷰] '따로 또 같이' 피어난 걸그룹 tripleS 운영자 26/02/10 - -
2060 앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오 aimatters갤로그로 이동합니다. 02.12 38 0
2059 "개인 컴퓨터로 초거대 AI 학습 가능해진다"... 12배 빠른 신기술 등장  aimatters갤로그로 이동합니다. 02.12 68 0
2058 AI가 제안서부터 재무보고서까지 '완성 파일'로 뚝딱… 중국 GLM-5 충격 [4] aimatters갤로그로 이동합니다. 02.12 1074 6
2057 한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다 aimatters갤로그로 이동합니다. 02.12 29 0
2056 앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성 aimatters갤로그로 이동합니다. 02.12 31 0
2055 요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지" aimatters갤로그로 이동합니다. 02.12 32 0
2054 AI가 의식을 가졌다고? 몰트북 실험이 폭로한 충격적 진실 [6] aimatters갤로그로 이동합니다. 02.11 2502 9
2053 아이소모픽랩스, 15년 걸린 발견 몇 초 만에… 알파폴드3 뛰어넘는 AI 신약 엔진 공개 aimatters갤로그로 이동합니다. 02.11 50 0
2052 "한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결 aimatters갤로그로 이동합니다. 02.11 54 0
2051 앤트로픽 '코워크', 윈도우 지원 시작… 맥OS와 동일 기능 제공 aimatters갤로그로 이동합니다. 02.11 27 0
2050 오픈AI, 챗GPT에 광고 도입… 무료·저가 사용자 대상 테스트 시작 aimatters갤로그로 이동합니다. 02.11 49 0
2049 커서, 강화학습 20배 확대한 'Composer 1.5' 공개… "속도와 성능 균형 맞췄다" aimatters갤로그로 이동합니다. 02.11 34 0
2048 "우주 방사선 속에서도 오류 96% 차단"…위성 AI 칩의 비밀 aimatters갤로그로 이동합니다. 02.11 37 0
2047 BMW·벤츠 AI 비서, 해커 손에 차량 제어권 넘긴다  aimatters갤로그로 이동합니다. 02.11 477 1
2046 2025년 학술 논문, 전년 대비 가짜 인용 81% 급증... AI 에이전트가 원인 aimatters갤로그로 이동합니다. 02.11 472 3
2045 챗GPT 앱 사용 시간 1년 만에 8배 폭증…한국인 AI 활용 급증 aimatters갤로그로 이동합니다. 02.11 37 0
2044 메타 AI, 신모델 '아보카도'와 브라우저 에이전트 출시 준비 포착 aimatters갤로그로 이동합니다. 02.10 38 0
2043 오픈클로 창시자, "앱의 80%가 사라질 것" aimatters갤로그로 이동합니다. 02.10 64 0
2042 샘 알트만 "챗GPT 월간 성장률 10% 돌파"... 오픈AI, 1000억 달러 투자 유치 막바지 [14] aimatters갤로그로 이동합니다. 02.10 974 0
2041 2만 달러 주고 AI한테 맡겼더니… 2주 만에 10만 줄 프로그램 완성 aimatters갤로그로 이동합니다. 02.09 116 0
2040 카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산 [14] aimatters갤로그로 이동합니다. 02.09 2777 6
2039 인스타그램 창업자, 개발자는 이제 코드 안 짠다..."앤트로픽 코드 100% AI가 작성" aimatters갤로그로 이동합니다. 02.09 103 0
2038 메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 aimatters갤로그로 이동합니다. 02.09 58 1
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 213 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 84 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 128 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 72 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 116 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1778 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 156 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 773 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 111 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 62 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 77 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 33 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 68 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 67 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1646 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 84 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 156 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 50 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 36 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 86 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 125 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1318 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 3013 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 443 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 79 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 77 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1064 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2