디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI 평가의 역설... 기술 발전 아닌 '관심 끌기' 경쟁으로 변질됐다

aimatters갤로그로 이동합니다. 2026.01.05 18:14:41
조회 40 추천 0 댓글 0


AI 업계에 새로운 평가 문화가 자리 잡고 있다. 영국 맨체스터 대학교 샘 힌드(Sam Hind) 연구원이 발표한 논문에 따르면, 구글, 오픈AI 같은 주요 기업들이 신규 AI 모델을 발표할 때 기술적 성능보다 'LM아레나' 같은 사용자 투표 플랫폼에서의 순위를 더 강조하는 현상이 나타나고 있다. 2025년 5월 구글의 데미스 하사비스가 신규 AI 모델 발표에서 'LM아레나 리더보드 1위'를 주요 성과로 내세운 것이 대표적이다. 이러한 현상이 AI 개발을 실제 문제 해결보다 '관심 끌기' 경쟁으로 왜곡하고 있다는 지적이 나온다.



구글이 자랑한 'LM아레나 1위', AI 평가가 인기 투표로 바뀌었다

2025년 5월 구글 행사에서 데미스 하사비스는 새 AI 모델 '제미나이 2.5 프로'를 소개하며 'LM아레나 리더보드' 모든 순위에서 1위를 차지했다고 발표했다. 이는 AI 개발이 기술 발전보다 '순위 경쟁'으로 변하고 있음을 보여준다.

LM아레나는 'AI 모델을 평가하는 중립적이고 공개된 플랫폼'으로, 지금까지 300만 건 이상의 투표를 수집했다. 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 좋은지 선택하면, 투표 후 어떤 AI였는지 공개되고 순위표가 만들어진다.

UC버클리가 주도한 LM아레나는 2023년 5월 시작해 2025년 4월 회사로 전환했으며, 5월에는 6억 달러(약 8,687억 원) 가치를 인정받았다. 9월에는 기업 대상 유료 평가 서비스를 시작했다. 현재 텍스트, 웹 개발, 이미지 등 8개 분야에서 AI들이 경쟁한다.



기존 시험은 한계, 전문가 평가는 현실적으로 불가능

LM아레나가 등장한 이유는 기존 평가 방식의 한계 때문이다. 연구진은 2023년 자체 AI 모델을 만들면서 "AI 챗봇이 발전함에 따라 현재의 공개 벤치마크로는 충분하지 않다"고 판단했다. 실제로 전문가 수준 시험 GPQA에서 AI 점수가 2023년 31%에서 2025년 87%로 급상승했지만, 연구진은 "사용자가 챗봇의 유용성을 인식하는 것과 기존 벤치마크 기준 사이에는 근본적 불일치가 있다"고 지적했다.

전문가 평가도 현실적으로 어려웠다. 공동 창립자 이온 스토이카는 "전문가들에게 평가를 부탁했지만 거의 모두 시간이 없다고 거절했다"고 말했다. 또 다른 창립자 아나스타시오스 앤젤로풀로스는 "세상은 전문가가 모든 것의 최종 판단자가 되는 것에 반대하는 방향으로 움직이고 있다"며 "박사 학위 없이도 가치 있는 의견을 가질 수 있다"고 강조했다. 연구진은 한때 AI로 AI를 평가하는 방식을 검토했다. 확장성과 설명 가능성이란 장점이 있었지만, 긴 답변을 선호하는 편향과 수학·추론 문제의 한계가 드러나 일반 사용자 평가로 전환했다.





공정성을 위협하는 세 가지 문제

아레나화의 결과는 '아레나 게이밍', 즉 AI를 오직 순위 올리기 목적으로 최적화하는 현상이다. 이 논문 저자를 포함한 AI 평가 연구자들은 세 가지 주요 문제를 지적한다.

첫째, 맞춤형 비교 문제다. LM아레나 새 버전은 사용자가 특정 용도를 설명하면 두 익명 모델의 성능을 비교해주는 방식을 도입했다.

둘째, 우대 특혜다. 연구에 따르면 구글, 오픈AI, 메타, 아마존 같은 대형 개발사는 여러 제출물을 비공개로 테스트할 수 있다. 또한 독점 모델 개발사는 훨씬 더 많은 테스트 기회를 받는다. 구글과 오픈AI는 LM아레나 전체 테스트의 각각 19.2%와 20.4%를 차지한다. 대형 개발사가 다른 업체보다 상당한 특혜를 받는 셈이다.

셋째, 독립성 훼손이다. 가장 극단적 사례는 오픈AI가 수학 벤치마크 '프론티어매스' 개발 자금을 지원하면서도 이를 숨긴 경우다. 오픈AI의 o3 모델은 이 시험에서 25.3%를 달성했는데, 다른 모델들은 2%도 넘지 못했다. 나중에 오픈AI가 AI 평가용 수학 문제 300개 제작을 의뢰했고, 홀드아웃 세트를 제외하고 문제와 답에 접근할 수 있었다는 게 밝혀졌다. 오픈AI가 시험 의뢰자이자 응시자라는 점은 명백한 부정행위다.

LM아레나 개발자들도 한계를 인식한다. "우리 사용자는 주로 LLM 애호가와 연구자들로 구성될 것"이며 "이는 편향된 분포를 초래할 뿐 아니라, 치열한 경쟁 덕분에 평가 과정을 조작하려는 시도"로 이어질 것으로 본다.



관심 끌기 경쟁이 AI 발전을 왜곡한다

논문 저자는 AI 혁신이 '관심 끌기' 경쟁으로 변하면서 세 가지 문제가 생긴다고 경고한다.

첫째, 점진적 개선에만 매달리게 된다. 벤치마크와 리더보드는 시간이 지나면서 순위가 조금씩 바뀌는데, 이런 작은 변화가 마치 의미 있는 발전인 것처럼 보이게 만든다. 결국 개발자들은 실제로 유용한 모델을 만드는 대신 선두 모델의 점수를 조금이라도 앞서는 데만 집중하게 된다.

둘째, 복잡한 현실을 지나치게 단순화한다. AI 업계에서 관심을 끄는 것은 해당 분야의 본질적 가치가 아니라 특정 모델이나 경쟁의 화제성이다. 이 때문에 복잡한 현실 세계의 문제들이 단순한 숫자와 토큰으로 환원되는 현상이 가속화되고 있다.

셋째, 사용자 선호 수집이 산업의 핵심 전략이 됐다. 신문이 발행 부수를, TV가 시청률을 중시하듯, AI 산업도 관심을 측정할 지표가 필요했다. LM아레나는 AI 평가를 전문 연구자 영역에서 일반 사용자 영역으로 대폭 확장했다. 이제 사용자의 관심을 끌고 모으는 것이 AI 산업의 주요 목표가 됐으며, 이는 AI 기술을 무한정 '확장'하려는 산업 전체의 집착을 보여준다.

아레나 방식을 통해 AI 모델의 가치를 실제 작업 환경이나 사용 맥락과 무관하게 하나의 숫자로 결정할 수 있게 됐다. 하지만 이런 평가는 결국 아레나에서 끊임없이 쌓이는 사용자 투표에만 의존한다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. LM아레나는 어떻게 AI를 평가하나요?

A: 사용자가 같은 질문을 두 익명 AI에게 하고 어느 답변이 더 나은지 선택합니다. 투표 후 AI 정체가 공개되고, 투표가 쌓여 브래들리-테리 통계 모델로 점수가 계산되며 순위표가 만들어집니다.

Q2. 아레나 게이밍이란 무엇이고 왜 문제인가요?

A: AI를 실제 유용성보다 아레나 순위만 올리려고 최적화하는 현상입니다. 대형 기업들이 비공개로 더 많이 테스트하거나, 오픈AI처럼 벤치마크 개발에 자금을 대면서 숨긴 것이 문제입니다. 공정한 경쟁 원칙을 무너뜨리고 AI 연구의 실제 가치를 왜곡합니다.

Q3. AI 평가의 아레나화가 미치는 영향은 무엇인가요?

A: 세 가지 영향이 있습니다. 첫째, 실제 문제 해결보다 순위를 쫓는 점진적 개선이 강화됩니다. 둘째, 복잡한 현실을 단순한 토큰으로 축소하는 현상이 가속화됩니다. 셋째, 사용자 선호 표현 수집이 AI 산업의 핵심 전략이 되면서 선호 표현의 중요성이 깊어집니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Gaming the Arena: AI Model Evaluation and the Viral Capture of Attention 

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 해외 유명인들과 있어도 기가 전혀 죽지 않을 것 같은 스타는? 운영자 26/02/09 - -
2060 앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오 aimatters갤로그로 이동합니다. 02.12 43 0
2059 "개인 컴퓨터로 초거대 AI 학습 가능해진다"... 12배 빠른 신기술 등장  aimatters갤로그로 이동합니다. 02.12 73 0
2058 AI가 제안서부터 재무보고서까지 '완성 파일'로 뚝딱… 중국 GLM-5 충격 [4] aimatters갤로그로 이동합니다. 02.12 1094 6
2057 한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다 aimatters갤로그로 이동합니다. 02.12 31 0
2056 앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성 aimatters갤로그로 이동합니다. 02.12 35 0
2055 요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지" aimatters갤로그로 이동합니다. 02.12 36 0
2054 AI가 의식을 가졌다고? 몰트북 실험이 폭로한 충격적 진실 [6] aimatters갤로그로 이동합니다. 02.11 2521 9
2053 아이소모픽랩스, 15년 걸린 발견 몇 초 만에… 알파폴드3 뛰어넘는 AI 신약 엔진 공개 aimatters갤로그로 이동합니다. 02.11 51 0
2052 "한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결 aimatters갤로그로 이동합니다. 02.11 57 0
2051 앤트로픽 '코워크', 윈도우 지원 시작… 맥OS와 동일 기능 제공 aimatters갤로그로 이동합니다. 02.11 29 0
2050 오픈AI, 챗GPT에 광고 도입… 무료·저가 사용자 대상 테스트 시작 aimatters갤로그로 이동합니다. 02.11 51 0
2049 커서, 강화학습 20배 확대한 'Composer 1.5' 공개… "속도와 성능 균형 맞췄다" aimatters갤로그로 이동합니다. 02.11 36 0
2048 "우주 방사선 속에서도 오류 96% 차단"…위성 AI 칩의 비밀 aimatters갤로그로 이동합니다. 02.11 40 0
2047 BMW·벤츠 AI 비서, 해커 손에 차량 제어권 넘긴다  aimatters갤로그로 이동합니다. 02.11 482 1
2046 2025년 학술 논문, 전년 대비 가짜 인용 81% 급증... AI 에이전트가 원인 aimatters갤로그로 이동합니다. 02.11 476 3
2045 챗GPT 앱 사용 시간 1년 만에 8배 폭증…한국인 AI 활용 급증 aimatters갤로그로 이동합니다. 02.11 39 0
2044 메타 AI, 신모델 '아보카도'와 브라우저 에이전트 출시 준비 포착 aimatters갤로그로 이동합니다. 02.10 39 0
2043 오픈클로 창시자, "앱의 80%가 사라질 것" aimatters갤로그로 이동합니다. 02.10 66 0
2042 샘 알트만 "챗GPT 월간 성장률 10% 돌파"... 오픈AI, 1000억 달러 투자 유치 막바지 [14] aimatters갤로그로 이동합니다. 02.10 976 0
2041 2만 달러 주고 AI한테 맡겼더니… 2주 만에 10만 줄 프로그램 완성 aimatters갤로그로 이동합니다. 02.09 116 0
2040 카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산 [14] aimatters갤로그로 이동합니다. 02.09 2791 6
2039 인스타그램 창업자, 개발자는 이제 코드 안 짠다..."앤트로픽 코드 100% AI가 작성" aimatters갤로그로 이동합니다. 02.09 103 0
2038 메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 aimatters갤로그로 이동합니다. 02.09 63 1
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 214 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 84 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 128 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 73 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 116 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1780 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 160 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 773 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 111 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 62 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 77 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 33 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 68 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 70 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1650 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 86 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 158 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 50 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 36 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 87 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 127 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1321 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 3019 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 455 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 79 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 77 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1065 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2