디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] "기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장

ㅇㅇ(182.230) 2024.04.15 10:58:34
조회 1742 추천 13 댓글 4
														

https://www.aitimes.com/news/articleView.html?idxno=158785

 



7ce88871bd8707f739ef8eec47ee756c56aa14d317bf51d8421d35a9cbdff1813a1f



인공지능(AI) 모델의 성능을 평가하는 '벤치마크'가 변하고 있다. 수년간 사용한 기존 벤치마크의 효용성이 떨어졌다는 지적에 이어, 최근에는 급속도로 발전한 모델에 맞춘 새로운 평가 수단이 등장하고 있다. 


파이낸셜 타임스는 10일(현지시간) AI 개발 속도가 급격하게 빨라지며 평가 수단이 이를 따라가지 못하고 있다고 지적했다. 


이에 따르면 AI 모델은 최근 1년간 급격하게 성능이 향상하고 있으며, 이에 따라 새로운 모델이 등장할 때마다 기존 모델을 앞질렀다는 발표가 따르고 있다.


실제로 구글은 지난 1월 '제미나이 1.0'을 선보이며, 벤치마크에서 오픈AI의 'GPT-4'를 대부분 능가했다고 발표했다. 이어 3월 초에는 앤트로픽이 '클로드 3'를 출시하며 GPT-4는 물론 제미나이까지 앞섰다고 밝혔다.


지난주에는 같은 일이 2차례나 발생했다. 오픈AI는 12일 GPT-4 업그레이드 버전을 발표하며 나머지 두 모델을 벤치마크에서 능가했다고 공개했으며, 같은 날에는 xAI가 첫 멀티모달모델(LMM) '그록-1.5V'를 공개하며 기존 'GPT-4V'와 클로드 3, 제미나이 1.5 프로 등 LMM을 일부 능가했다고 전했다.


오픈 소스에서는 이런 현상이 더욱 심하다. 허깅페이스의 오픈 LLM 리더보드에서 1위를 차지한 모델이 세계적인 관심을 받게 됨에 따라, 이제는 기업들이 정상을 두고 쟁탈전을 벌이고 있다. 국내의 업스테이지나 투디지트, 모레, 솔트룩스 같은 기업들도 참가, 정상을 차지한 바 있다.


이에 대해 제시 도지 앨런 AI 연구소 과학자는 "AI 업계가 평가 위기에 도달했다"라고 단정했다.


그는 테크크런치와의 인터뷰에서 "기존 벤치마크는 단일 기능 평가에 좁게 초점이 맞춰져 있다"라며 "대부분은 AI 시스템이 주로 연구에만 사용됐고 실제 사용자가 많지 않았던 3년 이상 된 것"이라고 설명했다.


또 "사람들이 생성 AI를 사용하는 다양한 방법과는 동떨어져 있으며, 일부 벤치마크 항목은 원래 기능에 부합하는지도 의문"이라고 말했다. 그 대안으로 인간 참여를 높이는 방법도 제시했다. "올바른 길은 벤치마크와 인간 평가를 결합하는 것"이라며 "실제 사용자 쿼리로 응답이 얼마나 좋은지 평가해야 한다"라고 말했다.


에이단 고메스 코히어 CEO도 이에 동의했다. 그는 "공개 벤치마크에는 수명이 있다"라며 “모델을 최적화하거나 평가하는 데 몇년 동안은 유용했지만, 이제는 유효 기간이 몇달로 줄었다"라고 지적했다.


그 이유로 "기존 벤치마크를 완전히 능가할 수 있는 새로운 AI 시스템이 정기적으로 등장한다"라며 "모델이 향상됨에 따라 이런 평가는 더 이상 쓸모가 없게 된다"라고 밝혔다.


이에 따라 최근에는 새로운 벤치마크가 속속 등장하고 있다.


기존에는 모델의 🔼추론(ARC) 🔼상식(HellaSwag) 🔼언어이해력(MMLU) 🔼환각방지능력(TruthfulQA) 🔼수학적 추론(GSM8K) 🔼상식 추론(WinoGrade) 등 허깅페이스 ‘H6’ 지표가 대표적이었다. 여기에 🔼코딩 능력을 판단하는 휴먼 이밸(HumanEval) 🔼대화능력 지표 ‘MT-벤치(MT-bench)’ 🔼감성평가 지표 ‘EQ-벤치’ 🔼지시이행 능력 지표 ‘IF이밸(IFEval)’ 등이 주로 활용됐다.



7ce88871bd8707f739ef8eec45ee756afdfc6c57501900956d271e83bdd58f4e26



그러나 오픈AI는 최신 'GPT-4 터보'를 공개하며 🔼MATH(수학적 문제 해결 측정) 🔼GPQA(대학원 수준의 구글 증명 Q&A 벤치마크) 🔼DROP(단락에 대한 이산적 추론이 필요한 독해 벤치마크) 등의 항목을 추가했다.


또 멀티모달모델이 늘어나며 이제까지는 볼 수 없었던 새로운 타입의 새로운 벤치마크도 속속 등장하고 있다. 특히 지난 주말에는 메타와 xAI가 나란히 자체 개발한 LMM용 벤치마크 데이터셋을 공개했다.


우선 메타는 주변 환경 이해를 측정하는 도구로, 집과 사무실 등 180개 이상의 다양한 실제 환경에 대한 1600개 이상의 질문이 포함된 벤치마크 데이터셋 ‘오픈EQA(OpenEQA)’을 오픈 소스로 공개했다.


이어 xAI 역시 실제 공간 이해 기능을 평가하기 위해 개발한 '리얼월드Q&A'를 출시했다. 여기에는 700개 이상의 이미지와 이에 대한 질문과 답변이 포함돼 있다. 


특히 두 회사는 AI 모델이 텍스트 위주의 학습을 뛰어넘어 물리적인 실제 세계를 이해하도록 하는 것이 AGI를 달성하는 새로운 방법이라고 강조했다.


이 밖에도 아예 인간이 직접 챗봇을 블라.인드 테스트하고 선호도를 평가하는 '챗봇 아레나(Chatbot Arena)'라는 LLM 리더보드도 빠르게 인기를 얻고 있다. 심지어 지난주 화제를 모은 미스트랄AI의 LLM '스트리트 파이터3' 대회도 게임 능력을 테스트하는 일종의 벤치마크라는 설명이다.


자동등록방지

추천 비추천

13

고정닉 4

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
473187 일반 개씨발좆뒤집어지는 2M 컨텍스트 입갤 ㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 78 0
473186 일반 2m 토큰ㄷㄷㄷ ㅇㅇ갤로그로 이동합니다. 05.15 41 0
473184 일반 지금 구글 욕하는애들 봐라 ㅇㅇ(175.213) 05.15 82 0
473183 일반 시작한지 10분이다 이놈들아 ㅇㅇ갤로그로 이동합니다. 05.15 41 0
473182 일반 흑인 왜 안나옴 ㅇㅇ(218.39) 05.15 27 1
473181 일반 오늘 하사비스 나온다고 하지 않았냐? ㅇㅇ갤로그로 이동합니다. 05.15 21 0
473180 일반 1.5프로 발표하고 한번도 안썼는데 [2] ㅇㅋ갤로그로 이동합니다. 05.15 111 0
473178 일반 개 병 신 같으면 개추 ㅋㅋㅋㅋㅋㅋㅋㅋ [1] 나미부갤로그로 이동합니다. 05.15 136 14
473177 일반 OAI님 그립읍니다.. [1] 이세이미야케갤로그로 이동합니다. 05.15 48 0
473175 일반 와 암것도 공개 안하려나 보네 ㅋㅋㅋ ㅇㅇ(119.77) 05.15 57 0
473174 일반 씨발 신모델 발표도 안할거면 이벤트 왜 처 연거야 이씨발새끼들 [2] ㅇㅇ(119.64) 05.15 101 0
473173 일반 뭐? 경험담? 짜치게ㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(211.213) 05.15 33 0
473172 일반 갤붕이는 폰 갈기전까진 제미니 써야한다고 아 ㅋㅋㅋ ㅇㅇ(121.128) 05.15 42 0
473170 일반 난 자러 갈랜다... [1] ramune갤로그로 이동합니다. 05.15 75 0
473168 일반 병신 1.5 프로 컨텍스트 어필 입갤 ㅋㅋㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 05.15 117 0
473167 일반 뭐 나온다 ㅇㅇ갤로그로 이동합니다. 05.15 34 0
473166 일반 진지하게 구글 발표 먼저보고 oai 발표봤으면 [2] 비닌갤로그로 이동합니다. 05.15 203 0
473165 일반 근데저새낀왜 코주부안경끼고잇음? ㅇㅇ갤로그로 이동합니다. 05.15 32 0
473164 일반 제미니 멀티모달 개씹뒤집어질것 ㅇㅇ갤로그로 이동합니다. 05.15 44 0
473163 일반 그래도신모델나오면 좋은거지 ㅇㅇ(14.53) 05.15 40 0
473162 일반 그래도 역경을 이기고 미국의 대기업에서 일하는 인도인들 나미부갤로그로 이동합니다. 05.15 47 1
473161 일반 우와! 마침 사진을 못 찾고 있었어요! ㅇㅇ(218.39) 05.15 51 0
473159 일반 루시 수영 존나 잘하는 거 같으면 개추 ㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 25 0
473157 일반 구글도 잘해서 ai발전 더 잘되면 좋은거아님? 왜이렇게 망하길 바라지 [7] ㅇㅇ(59.17) 05.15 157 1
473156 일반 순다르 oai보고 ㅈ된거 느꼈는데 취소할 수 없어서 나간거?ㅋㅋ ramune갤로그로 이동합니다. 05.15 69 0
473155 일반 제미니로 구글 포토 검색 가능 입갤 ㅇㅇ갤로그로 이동합니다. 05.15 62 0
473154 일반 오늘 구글 발표 요약.txt [1] 나미부갤로그로 이동합니다. 05.15 173 0
473153 일반 구글포토에 야짤 존나 저장해놨는데 [1] Moriae갤로그로 이동합니다. 05.15 123 0
473152 일반 씨발 oai 발표보고 실망이라 해서 미안하다.... 비닌갤로그로 이동합니다. 05.15 126 0
473151 일반 졸류ㅜㅜ ㅇㅇ갤로그로 이동합니다. 05.15 25 0
473149 일반 벌써부터 ㅈ망각이면 개추ㅋㅋ ff(223.38) 05.15 78 5
473148 일반 부 처님 오실거같으면 개추 ㅋㅋㅋㅋㅋㅋㅋㅋ 나미부갤로그로 이동합니다. 05.15 32 0
473147 일반 우리 제미니 연동 존나 잘했다도르 입갤 ㅇㅇ갤로그로 이동합니다. 05.15 32 0
473146 일반 구글 주가는 왜올라가는거냐 ? [4] 캬르룩갤로그로 이동합니다. 05.15 144 0
473145 일반 응 제미니 많이써 난 gpt 쌀게용 나미부갤로그로 이동합니다. 05.15 28 0
473143 일반 개발자 통계도 걍 허수임 ㅋㅋ ㅇㅇ(14.5) 05.15 53 0
473142 일반 제미니 벤치마크 개쩐다 어필 ㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 108 1
473141 일반 제미니 나온다!!!!!! ㅇㅇ갤로그로 이동합니다. 05.15 36 0
473140 일반 Millions more are joining virtually?? ㅇㅇ(61.73) 05.15 38 0
473139 일반 제미니 시대 입갤 ㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 55 0
473138 일반 좀 더 드라마틱하게 말해줘! ㅇㅇ(218.39) 05.15 27 0
473137 일반 원래 각본은 ㅇㅇ(14.5) 05.15 39 0
473135 일반 참고) 구글 발표 출시 루머 [1] ㅇㅇ(59.17) 05.15 183 2
473134 일반 카레향우회 입갤 ㅇㅇ(218.232) 05.15 15 0
473133 일반 1.5 울트라 아니면 피차이 탄핵좀 ㅇㅋ갤로그로 이동합니다. 05.15 27 0
473132 일반 쟤 왜 목소리에서 로봇음이 나냐? [2] 비닌갤로그로 이동합니다. 05.15 106 0
473131 일반 Gpt4o 오늘 새벽에 열렸던 구글쇼 요약해줘 나미부갤로그로 이동합니다. 05.15 61 0
473130 일반 인도지능 입갤 ㅋㅋㅋㅋㅋ TS망상갤로그로 이동합니다. 05.15 31 0
473129 일반 인도햄 ㅎㅇㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 23 0
473128 일반 1.5 울트라 정도 공개하려나 TS망상갤로그로 이동합니다. 05.15 31 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2