"기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] "기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장

ㅇㅇ(182.230) 2024.04.15 10:58:34

조회 1701 추천 13 댓글 4

https://www.aitimes.com/news/articleView.html?idxno=158785

AI타임스

인공지능(AI) 모델의 성능을 평가하는 '벤치마크'가 변하고 있다. 수년간 사용한 기존 벤치마크의 효용성이 떨어졌다는 지적에 이어, 최근에는 급속도로 발전한 모델에 맞춘 새로운 평가 수단이 등장하고 있다. 파이낸셜 타임스는 10일(현지시간) AI 개발 속도가 급격하게 빨라지며 평가 수단이 이를 따라가지 못하고 있다고 지적했다. 이에 따르면 AI 모델은 최근 1년간 급격하게 성능이 향상하고 있으며, 이에 따라 새로운 모델이 등장할 때마다 기존 모델을 앞질렀다는 발표가 따르고 있다.실제로 구글은 지난 1월 '제미나이 1.0'을 선보이며

www.aitimes.com

7ce88871bd8707f739ef8eec47ee756c56aa14d317bf51d8421d35a9cbdff1813a1f

인공지능(AI) 모델의 성능을 평가하는 '벤치마크'가 변하고 있다. 수년간 사용한 기존 벤치마크의 효용성이 떨어졌다는 지적에 이어, 최근에는 급속도로 발전한 모델에 맞춘 새로운 평가 수단이 등장하고 있다.

파이낸셜 타임스는 10일(현지시간) AI 개발 속도가 급격하게 빨라지며 평가 수단이 이를 따라가지 못하고 있다고 지적했다.

이에 따르면 AI 모델은 최근 1년간 급격하게 성능이 향상하고 있으며, 이에 따라 새로운 모델이 등장할 때마다 기존 모델을 앞질렀다는 발표가 따르고 있다.

실제로 구글은 지난 1월 '제미나이 1.0'을 선보이며, 벤치마크에서 오픈AI의 'GPT-4'를 대부분 능가했다고 발표했다. 이어 3월 초에는 앤트로픽이 '클로드 3'를 출시하며 GPT-4는 물론 제미나이까지 앞섰다고 밝혔다.

지난주에는 같은 일이 2차례나 발생했다. 오픈AI는 12일 GPT-4 업그레이드 버전을 발표하며 나머지 두 모델을 벤치마크에서 능가했다고 공개했으며, 같은 날에는 xAI가 첫 멀티모달모델(LMM) '그록-1.5V'를 공개하며 기존 'GPT-4V'와 클로드 3, 제미나이 1.5 프로 등 LMM을 일부 능가했다고 전했다.

오픈 소스에서는 이런 현상이 더욱 심하다. 허깅페이스의 오픈 LLM 리더보드에서 1위를 차지한 모델이 세계적인 관심을 받게 됨에 따라, 이제는 기업들이 정상을 두고 쟁탈전을 벌이고 있다. 국내의 업스테이지나 투디지트, 모레, 솔트룩스 같은 기업들도 참가, 정상을 차지한 바 있다.

이에 대해 제시 도지 앨런 AI 연구소 과학자는 "AI 업계가 평가 위기에 도달했다"라고 단정했다.

그는 테크크런치와의 인터뷰에서 "기존 벤치마크는 단일 기능 평가에 좁게 초점이 맞춰져 있다"라며 "대부분은 AI 시스템이 주로 연구에만 사용됐고 실제 사용자가 많지 않았던 3년 이상 된 것"이라고 설명했다.

또 "사람들이 생성 AI를 사용하는 다양한 방법과는 동떨어져 있으며, 일부 벤치마크 항목은 원래 기능에 부합하는지도 의문"이라고 말했다. 그 대안으로 인간 참여를 높이는 방법도 제시했다. "올바른 길은 벤치마크와 인간 평가를 결합하는 것"이라며 "실제 사용자 쿼리로 응답이 얼마나 좋은지 평가해야 한다"라고 말했다.

에이단 고메스 코히어 CEO도 이에 동의했다. 그는 "공개 벤치마크에는 수명이 있다"라며 “모델을 최적화하거나 평가하는 데 몇년 동안은 유용했지만, 이제는 유효 기간이 몇달로 줄었다"라고 지적했다.

그 이유로 "기존 벤치마크를 완전히 능가할 수 있는 새로운 AI 시스템이 정기적으로 등장한다"라며 "모델이 향상됨에 따라 이런 평가는 더 이상 쓸모가 없게 된다"라고 밝혔다.

이에 따라 최근에는 새로운 벤치마크가 속속 등장하고 있다.

기존에는 모델의 🔼추론(ARC) 🔼상식(HellaSwag) 🔼언어이해력(MMLU) 🔼환각방지능력(TruthfulQA) 🔼수학적 추론(GSM8K) 🔼상식 추론(WinoGrade) 등 허깅페이스 ‘H6’ 지표가 대표적이었다. 여기에 🔼코딩 능력을 판단하는 휴먼 이밸(HumanEval) 🔼대화능력 지표 ‘MT-벤치(MT-bench)’ 🔼감성평가 지표 ‘EQ-벤치’ 🔼지시이행 능력 지표 ‘IF이밸(IFEval)’ 등이 주로 활용됐다.

7ce88871bd8707f739ef8eec45ee756afdfc6c57501900956d271e83bdd58f4e26

그러나 오픈AI는 최신 'GPT-4 터보'를 공개하며 🔼MATH(수학적 문제 해결 측정) 🔼GPQA(대학원 수준의 구글 증명 Q&A 벤치마크) 🔼DROP(단락에 대한 이산적 추론이 필요한 독해 벤치마크) 등의 항목을 추가했다.

또 멀티모달모델이 늘어나며 이제까지는 볼 수 없었던 새로운 타입의 새로운 벤치마크도 속속 등장하고 있다. 특히 지난 주말에는 메타와 xAI가 나란히 자체 개발한 LMM용 벤치마크 데이터셋을 공개했다.

우선 메타는 주변 환경 이해를 측정하는 도구로, 집과 사무실 등 180개 이상의 다양한 실제 환경에 대한 1600개 이상의 질문이 포함된 벤치마크 데이터셋 ‘오픈EQA(OpenEQA)’을 오픈 소스로 공개했다.

이어 xAI 역시 실제 공간 이해 기능을 평가하기 위해 개발한 '리얼월드Q&A'를 출시했다. 여기에는 700개 이상의 이미지와 이에 대한 질문과 답변이 포함돼 있다.

특히 두 회사는 AI 모델이 텍스트 위주의 학습을 뛰어넘어 물리적인 실제 세계를 이해하도록 하는 것이 AGI를 달성하는 새로운 방법이라고 강조했다.

이 밖에도 아예 인간이 직접 챗봇을 블라.인드 테스트하고 선호도를 평가하는 '챗봇 아레나(Chatbot Arena)'라는 LLM 리더보드도 빠르게 인기를 얻고 있다. 심지어 지난주 화제를 모은 미스트랄AI의 LLM '스트리트 파이터3' 대회도 게임 능력을 테스트하는 일종의 벤치마크라는 설명이다.

고정닉 4

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2856	설문	주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는?	운영자	24/04/29	-	-
461010	일반	한국에서 뺨 맞았나?	루미코드	04.30	151	0
461009	일반	ㅋㅋㅋㅋ	ㅂㅈㄷㅂㅈ(61.74)	04.30	81	0
461008	정보	20년간 산화물 반도체 난제 해결, 권위 있는 저널 네이처에 게재 [3]	ㅇㅇ(118.39)	04.30	205	2
461007	일반	오늘자 오픈AI 트윗 말장난 [15]	모브	04.30	2649	22
461006	일반	그냥 합성기 맞다 [1]	ㅇㅇ(223.38)	04.30	177	2
461004	일반	근데 니들은 뭘 하길래 [3]	ㅇㅇ(211.105)	04.30	232	0
461003	일반	장기기억, 다양한 감각, 스케일	ㅇㅇ(223.33)	04.30	102	0
461002	일반	샘 알트만 사기꾼	ㅇㅇ(58.78)	04.30	150	0
461001	일반	사전적 의미의, 인간이 구사하는 추론은 이런거잖아?	ㅇㅇ(223.33)	04.30	74	0
461000	일반	gpt4.5 확률은 아예없는거임?	ㅇㅇ(175.213)	04.30	119	0
460999	일반	2024년 gpt4.5 turbo 공개 [1]	Dazbee	04.30	456	1
460998	일반	신경망을 쓰면 다 된당께요~ 역전파만 있으면 확률 좃도 의미 없당께요~ [2]	언어모델	04.30	203	3
460997	일반	왠지 모든 것은 OAI의 의도대로 되는 거 같다 [3]	ㅇㅇ(211.235)	04.30	344	1
460995	일반	진짜 혁명이노	ㅇㅇ(125.183)	04.30	201	1
460994	일반	gpt 0430업데이트가 이거였구나	ㅇㅇ(121.172)	04.30	245	0
460993	일반	환각을 줄이려면 ai 에게 다변화된 데이터셋을 쥐어줘야 하나?	ㅇㅇ(223.33)	04.30	63	0
460991	일반	Gpt 새기능 ㅋㅋㅋㅂㅅ들 [1]	헬스토끼	04.30	496	3
460989	일반	나 이해가 안되는데 gpts로 구현 안되는 기능임?	ㅇㅇ	04.30	91	0
460987	일반	GPT 새 기능 떴네	이세이미야케	04.30	195	0
460986	일반	OpenAI 새 트윗 [2]	모브	04.30	435	1
460983	일반	세계가 까무라칠만한 믿기지않는 혁신 떴냐? [3]	ㅇㅇ	04.30	274	3
460982	AI창 AI창작	Suno 8비트 브금 뽑아왓서	ㅇㅇ(61.255)	04.30	81	1
460981	일반	OpenAI 개발자 플랫폼 새로운 기능 추가 [15]	ㅇㅇ(112.144)	04.30	2710	24
460979	일반	말하는 스타일이나 출력비슷한거봐서 gpt4 기반은 확실한듯	ㅇㅇ(49.142)	04.30	127	0
460978	일반	2니 4.5니 하는건 어디서 듣고 하는 얘기임? [1]	ㅇㅇ(223.62)	04.30	283	1
460977	일반	gpt2 한글 성능 야무지네	ㅇㅇ(125.183)	04.30	238	0
460975	일반	gpt4.5 나온다는데 분위기 왜이럼 [2]	ㅇㅇ(175.213)	04.30	313	0
460974	일반	왜 이름이 gpt2로 줄어든거임??	ㅇㅇ(61.105)	04.30	281	0
460973	일반	결국 실속은 없다는거네 [1]	ㅇㅇ(118.235)	04.30	171	1
460972	일반	gpt2가 처음으로 XY+YX=ZXZ 풀었네	ㅇㅇ(49.142)	04.30	332	5
460971	일반	안르쿤 이게 먼소리고? [4]	ㅇㅇ(117.20)	04.30	318	0
460970	일반	gpt2니 4.5니 자꾸 장난질하는거 불안하면 개추좀 [1]	ㅇㅇ(124.50)	04.30	309	11
460969	일반	gpt5는 일반인이 쓰기엔 너무 위험함으로	ㅇㅇ(125.183)	04.30	144	0
460968	일반	결국 GPT5가 아니라 다른 이름의 4.5라는거임? [2]	이세이미야케	04.30	300	0
460967	일반	gpt2-chatbot이 gpt4랑 똑같은결과 내놓는데 [2]	ㅇㅇ(49.142)	04.30	416	0
460966	일반	갑자기 분위기 급발진 오지네	ㅇㅇ(125.190)	04.30	205	1
460962	일반	chat.lmsys는 어떻게 유료버전을 공짜로 쓰게해줌? 돈은 누가냄?	ㅇㅇ(61.105)	04.30	116	0
460961	일반	뒤에서 ai 산업을 주도하는 빌게이츠	ㅇㅇ(116.120)	04.30	179	1
460960	일반	환각을 llm 잘못이라 할 수 있을까? [6]	ㅇㅇ(223.33)	04.30	166	1
460959	일반	gpt2-chatbot 성능 좀 치는데? [3]	ㅇㅇ(106.102)	04.30	485	3
460958	정보	가톨릭 '사제'가 AI라는 이유로 성직 박탈됐다 [6]	ㅇㅇ	04.30	301	1
460957	일반	길거리 돌아다니는 휴머노이드 덮쳐도 무죄지? [7]	ㅇㅇ(110.46)	04.30	216	0
460956	일반	환각 못없애면 ai가 똑똑하다고 절대 못느낄듯ㅇㅇ	ㅇㅇ(210.217)	04.30	78	2
460955	일반	얘들아 자라... [10]	ㅇㅇ(110.46)	04.30	317	1
460954	일반	자 사직서 내러 가즈아~~~! [1]	ㅇㅇ(211.197)	04.30	102	1
460953	일반	2시간뒤면 세상이뒤집어지겠네 [1]	ㅇㅇ(14.53)	04.30	182	1
460952	일반	gpt2-chatbot 써보셈 [6]	ㅇㅇ(1.225)	04.30	796	1
460951	일반	보스턴다이나믹스 신규영상 [14]	ㅇㅇ(125.183)	04.30	2344	21
460950	일반	오메가포인트 도달까지 2시간30분전.. [6]	KURO	04.30	232	3
460949	일반	새로운 모델이 gpt-2라는 얘기가 있네 [3]	ㅇㅇ(211.59)	04.30	540	2