디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] "기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장

ㅇㅇ(182.230) 2024.04.15 10:58:34
조회 1744 추천 13 댓글 4
														

https://www.aitimes.com/news/articleView.html?idxno=158785

 



7ce88871bd8707f739ef8eec47ee756c56aa14d317bf51d8421d35a9cbdff1813a1f



인공지능(AI) 모델의 성능을 평가하는 '벤치마크'가 변하고 있다. 수년간 사용한 기존 벤치마크의 효용성이 떨어졌다는 지적에 이어, 최근에는 급속도로 발전한 모델에 맞춘 새로운 평가 수단이 등장하고 있다. 


파이낸셜 타임스는 10일(현지시간) AI 개발 속도가 급격하게 빨라지며 평가 수단이 이를 따라가지 못하고 있다고 지적했다. 


이에 따르면 AI 모델은 최근 1년간 급격하게 성능이 향상하고 있으며, 이에 따라 새로운 모델이 등장할 때마다 기존 모델을 앞질렀다는 발표가 따르고 있다.


실제로 구글은 지난 1월 '제미나이 1.0'을 선보이며, 벤치마크에서 오픈AI의 'GPT-4'를 대부분 능가했다고 발표했다. 이어 3월 초에는 앤트로픽이 '클로드 3'를 출시하며 GPT-4는 물론 제미나이까지 앞섰다고 밝혔다.


지난주에는 같은 일이 2차례나 발생했다. 오픈AI는 12일 GPT-4 업그레이드 버전을 발표하며 나머지 두 모델을 벤치마크에서 능가했다고 공개했으며, 같은 날에는 xAI가 첫 멀티모달모델(LMM) '그록-1.5V'를 공개하며 기존 'GPT-4V'와 클로드 3, 제미나이 1.5 프로 등 LMM을 일부 능가했다고 전했다.


오픈 소스에서는 이런 현상이 더욱 심하다. 허깅페이스의 오픈 LLM 리더보드에서 1위를 차지한 모델이 세계적인 관심을 받게 됨에 따라, 이제는 기업들이 정상을 두고 쟁탈전을 벌이고 있다. 국내의 업스테이지나 투디지트, 모레, 솔트룩스 같은 기업들도 참가, 정상을 차지한 바 있다.


이에 대해 제시 도지 앨런 AI 연구소 과학자는 "AI 업계가 평가 위기에 도달했다"라고 단정했다.


그는 테크크런치와의 인터뷰에서 "기존 벤치마크는 단일 기능 평가에 좁게 초점이 맞춰져 있다"라며 "대부분은 AI 시스템이 주로 연구에만 사용됐고 실제 사용자가 많지 않았던 3년 이상 된 것"이라고 설명했다.


또 "사람들이 생성 AI를 사용하는 다양한 방법과는 동떨어져 있으며, 일부 벤치마크 항목은 원래 기능에 부합하는지도 의문"이라고 말했다. 그 대안으로 인간 참여를 높이는 방법도 제시했다. "올바른 길은 벤치마크와 인간 평가를 결합하는 것"이라며 "실제 사용자 쿼리로 응답이 얼마나 좋은지 평가해야 한다"라고 말했다.


에이단 고메스 코히어 CEO도 이에 동의했다. 그는 "공개 벤치마크에는 수명이 있다"라며 “모델을 최적화하거나 평가하는 데 몇년 동안은 유용했지만, 이제는 유효 기간이 몇달로 줄었다"라고 지적했다.


그 이유로 "기존 벤치마크를 완전히 능가할 수 있는 새로운 AI 시스템이 정기적으로 등장한다"라며 "모델이 향상됨에 따라 이런 평가는 더 이상 쓸모가 없게 된다"라고 밝혔다.


이에 따라 최근에는 새로운 벤치마크가 속속 등장하고 있다.


기존에는 모델의 🔼추론(ARC) 🔼상식(HellaSwag) 🔼언어이해력(MMLU) 🔼환각방지능력(TruthfulQA) 🔼수학적 추론(GSM8K) 🔼상식 추론(WinoGrade) 등 허깅페이스 ‘H6’ 지표가 대표적이었다. 여기에 🔼코딩 능력을 판단하는 휴먼 이밸(HumanEval) 🔼대화능력 지표 ‘MT-벤치(MT-bench)’ 🔼감성평가 지표 ‘EQ-벤치’ 🔼지시이행 능력 지표 ‘IF이밸(IFEval)’ 등이 주로 활용됐다.



7ce88871bd8707f739ef8eec45ee756afdfc6c57501900956d271e83bdd58f4e26



그러나 오픈AI는 최신 'GPT-4 터보'를 공개하며 🔼MATH(수학적 문제 해결 측정) 🔼GPQA(대학원 수준의 구글 증명 Q&A 벤치마크) 🔼DROP(단락에 대한 이산적 추론이 필요한 독해 벤치마크) 등의 항목을 추가했다.


또 멀티모달모델이 늘어나며 이제까지는 볼 수 없었던 새로운 타입의 새로운 벤치마크도 속속 등장하고 있다. 특히 지난 주말에는 메타와 xAI가 나란히 자체 개발한 LMM용 벤치마크 데이터셋을 공개했다.


우선 메타는 주변 환경 이해를 측정하는 도구로, 집과 사무실 등 180개 이상의 다양한 실제 환경에 대한 1600개 이상의 질문이 포함된 벤치마크 데이터셋 ‘오픈EQA(OpenEQA)’을 오픈 소스로 공개했다.


이어 xAI 역시 실제 공간 이해 기능을 평가하기 위해 개발한 '리얼월드Q&A'를 출시했다. 여기에는 700개 이상의 이미지와 이에 대한 질문과 답변이 포함돼 있다. 


특히 두 회사는 AI 모델이 텍스트 위주의 학습을 뛰어넘어 물리적인 실제 세계를 이해하도록 하는 것이 AGI를 달성하는 새로운 방법이라고 강조했다.


이 밖에도 아예 인간이 직접 챗봇을 블라.인드 테스트하고 선호도를 평가하는 '챗봇 아레나(Chatbot Arena)'라는 LLM 리더보드도 빠르게 인기를 얻고 있다. 심지어 지난주 화제를 모은 미스트랄AI의 LLM '스트리트 파이터3' 대회도 게임 능력을 테스트하는 일종의 벤치마크라는 설명이다.


자동등록방지

추천 비추천

13

고정닉 4

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
458785 일반 왜 '특이점이 온다'를 서점에서 팔죠..? [13] 떼껄룩해적단갤로그로 이동합니다. 04.22 3877 37
458759 일반 “K팝 이끌려 선택한 한국行, 하고 싶던 연구 맘껏” 뇌의 심장 제어 메 [8] 천재까마귀갤로그로 이동합니다. 04.22 1784 22
458758 정보/ 저커버그 "AI 학습 데이터보다 중요한 것은 피드백 루프" [4] ㅇㅇ(182.230) 04.22 1267 18
458703 일반 골빈해커 피셜 LLM의 미친 발전속도.jpg [10] lightvector갤로그로 이동합니다. 04.22 672 10
458659 정보/ 무스타파 술레이만, 인류를 위한 AI 발전 억제 주장 [9] 모브갤로그로 이동합니다. 04.22 648 19
458630 일반 선갤, 앰생몰이 거르고 인생 ㅈㄴ 고달픈 이유 [50] ㅇㅇ(125.133) 04.22 3141 32
458628 정보/ ollama 포스트 : 라마3은 그렇게 검열 심하지 않은 편 [9] ㅇㅇ­갤로그로 이동합니다. 04.22 1410 17
458627 일반 FFF 저 시발련은 전략 바꿈 [9] ㅇㅇ(123.100) 04.22 446 11
458583 일반 (루머) GPT5는 5~10배 강하며, 기존 벤치마크 무의미 [29] ㅇㅇ(123.100) 04.22 4046 31
458384 정보/ 힌튼 "뇌를 여전히 이해하지 못할 가능성" [24] ㅇㅇ(121.132) 04.21 3747 25
458424 정보/ 요슈아 벤지오 인터뷰 요약 [3] ㅇㅇ(220.83) 04.21 1528 22
458428 정보/ 주커버그 인터뷰 - Llama 3, 100억달러 모델을 오픈소싱한 이유 [13] 니지카엘갤로그로 이동합니다. 04.21 2434 27
458521 정보/ 中 AGI 도약 위한 하이브리드 광자 AI 칩 개발 [26] ㅇㅇ갤로그로 이동합니다. 04.22 1589 20
458518 정보/ 구글, 아마존 등, 조용히 AI 기대치를 낮추는 중 [6] ㅇㅇ(123.100) 04.22 2827 18
458383 일반 인공지능 찬양하는 노래 하나 만들어봤음 [6] ㅇㅇ(220.118) 04.21 1445 26
458365 일반 짤 하나 건졌다 [8] ㅇㅇ(1.11) 04.21 1997 26
458344 AI창 NAI)후방 경찰관 개허접 아코 [8] Samus갤로그로 이동합니다. 04.21 2006 29
458262 정보/ 영국 작가협회 "생성 AI로 번역가 1/3 실직...40%는 소득 감소" [17] ㅇㅇ(182.230) 04.21 2571 26
458231 정보/ 닉 보스트롬 "AI는 실존적 희망의 원천" [10] ㅇㅇ(125.191) 04.21 2713 31
458219 일반 얀르쿤 피셜 "오픈소스 하자고한건 맞는데 라마3 내가 직접만든건 아님" [22] ㅇㅇ(59.17) 04.21 3335 22
458194 정보/ 라마3 챗봇 아레나 근황.. [6] ㅇㅇ(123.100) 04.21 3487 23
458139 일반 이제 하다하다 야갤 유동 글을 믿네 [8] Samus갤로그로 이동합니다. 04.20 516 14
458112 정보/ 라마3 70b 초당 3000토큰 가능 [7] noosphere갤로그로 이동합니다. 04.20 2295 23
458089 정보/ (AI겨울)주커버그는 AGI가 멀었다고 생각합니다 [26] ㅇㅇ(123.100) 04.20 3972 25
458068 일반 403.. 이게 무슨 숫자인지 아시나요? [9] ㅇㅇ(59.3) 04.20 2779 31
458049 정보/ 이너코스모스, 우울증 치료하는 뇌 임플란트 출시...간단한 수술이 장점 [12] ㅇㅇ(182.230) 04.20 866 23
458019 정보/ 젠슨 황: 머지않은 미래 적절가격에 휴머노이드 보급 가능 [41] noosphere갤로그로 이동합니다. 04.20 3251 26
457991 정보/ 한국이 파운데이션 모델 '0'을 기록한 이유는 [15] ㅇㅇ(182.230) 04.20 2451 25
457974 일반 르쿤햄) 라마3 성능의 비결 [33] ㅇㅇ(121.133) 04.20 2834 28
457963 정보/ 안드레 카파시의 라마3 평가 [11] ㅇㅇ(182.230) 04.20 2260 26
457932 정보/ OpenAI 포럼 강연 - 민주적 인풋 [11] ㅁㄴㅇㄹ갤로그로 이동합니다. 04.20 296 14
457928 일반 agi 은근슬쩍 내려치기 하는 놈들이 보이네 [27] ㅇㅇ(1.237) 04.20 2689 24
457897 일반 AGI가 코앞이 아닌거 같은 이유 [78] ㅇㅇ(1.234) 04.20 4192 35
457875 일반 르쿤게이도 라마3 기여했다 [8] ㅇㅇ(123.100) 04.20 1715 23
457850 일반 정치충은 막는게 맞음 [29] ㅇㅇ(106.101) 04.20 1638 29
457839 일반 르쿤이 메타 LLM팀 아님 [7] ㅇㅇ(125.191) 04.20 1525 20
457752 일반 한 남자의 어록 모음 [37] agi2024갤로그로 이동합니다. 04.19 3144 53
457748 일반 ???: ㅋㅋ 고작 이딴걸로 좋아하네 [13] agi2024갤로그로 이동합니다. 04.19 3145 23
457691 일반 이미 로펌에서 GPT-4 로 변론서 작성중이라는데 ㅋㅋㅋㅋㅋ [13] ㅇㅇ(124.49) 04.19 2718 24
457690 일반 역시 르쿤이형이냐 [12] ㅇㅇ(59.11) 04.19 1974 56
457641 정보/ (오피셜) 라마3 곧 추가될 기능들 [15] ㅇㅇ(123.100) 04.19 2618 27
457620 일반 405B 짜리는 GPT-4 터보 걍 좆바르겠노 ㅋㅋ [8] ㅇㅇ(123.100) 04.19 2134 20
457615 일반 라마3 한국어로 쓰고 실망 ㄴㄴ [4] ㅇㅇ(123.100) 04.19 2230 19
457613 일반 챗봇아레나 라마3 성능 돌아버렸네 ㅋㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ(110.145) 04.19 2185 21
457608 정보/ 라마3 Chatbot arena 리더보드 순위 미쳤노ㅋㅋㅋ [4] ㅇㅇ(123.100) 04.19 1248 19
457522 정보/ MS '대화하는 얼굴' VASA-1 작동 영상 [6] ㅇㅇ갤로그로 이동합니다. 04.19 1201 22
457509 정보/ 오늘 있던 Oai 강연 + 앞로 있을 3개 [12] ㅁㄴㅇㄹ갤로그로 이동합니다. 04.19 1853 23
457496 일반 라마3 400b 성능은 gpt-4보다 훨씬 높을수도 [14] ㅇㅇ(110.145) 04.19 1666 19
457492 정보/ 학계 "딥러닝이 벽에 부딪히고 있습니다" [28] 특술람갤로그로 이동합니다. 04.19 846 13
457481 정보/ chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네 [17] ㅇㅇ갤로그로 이동합니다. 04.19 2298 24
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2