디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 새로운 언어모델 벤치마크 MMLU-Pro모바일에서 작성

특갤용갤로그로 이동합니다. 2024.05.15 13:59:13
조회 515 추천 16 댓글 15
														
0490f719b0816df220afd8b236ef203e4dd6966436f752


MMLU-Pro는 대규모 언어 모델의 성능을 더 엄격하게 평가하기 위한 강력하고 도전적인 데이터셋입니다. 12,000개의 복잡한 질문을 포함하고 있습니다.

1. MMLU-Pro의 새로운 점:
- 기존 MMLU는 4개의 선택지만 있었으나, MMLU-Pro는 10개의 선택지를 제공합니다. 이는 평가를 더 현실적이고 도전적으로 만듭니다.
- 기존 MMLU는 주로 지식 중심의 질문이었지만, MMLU-Pro는 문제의 난이도를 높이고 추론 중심의 문제를 추가했습니다.
- 선택지 증가로 모델 성능이 더 안정적이 되었으며, 예를 들어, Llama-2-7B의 성능 변동이 MMLU-Pro에서는 1% 이내인 반면, 기존 MMLU에서는 4-5%까지 변동할 수 있습니다.

https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro

 





자동등록방지

추천 비추천

16

고정닉 13

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7901 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3101] 특갤용갤로그로 이동합니다. 23.08.06 39255 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2539 2
363220 공지 선형글 삭제 기준 [7] 특갤용갤로그로 이동합니다. 23.10.14 7230 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 13342 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [51] 특갤용갤로그로 이동합니다. 23.11.07 8933 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8366 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 9146 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22732 33
484703 일반 이새끼 갑자기 존나 패고 싶은데 ㅇㅇ(58.29) 16:54 27 0
484702 일반 그냥 선형갤 링크를 공지로 알려주면 안 됨??? [2] 트라야누스(14.32) 16:50 46 0
484701 일반 gpt보고 커뮤하는 사람처럼 답하게 시킬려면 뭐라해야댐? [6] ㅇㅇ갤로그로 이동합니다. 16:50 44 0
484700 일반 메모리 관련은 국내 연구진 믿어도 됨 ㅇㅇ(115.20) 16:46 42 0
484699 일반 씨발 특이점? 꿈 깨라 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ [5] ㅇㅇ(119.201) 16:41 140 1
484698 일반 제미니 단순히 개추가 쓰이는 맥락만 아는 게 아니고 [2] ㅇㅇ(119.202) 16:38 55 0
484697 일반 6월달에 gpt5 출시발표하면서 존나게 투자하라고 하겠네 [1] ㅇㅇ(183.105) 16:38 82 0
484696 일반 와 씨발 클로드 이새끼 뭐냐???? [6] 비닌갤로그로 이동합니다. 16:34 133 0
484695 정보/ 올트먼, 오픈AI 일반 영리회사로 전환 검토 [3] ㅇㅇ(125.191) 16:34 136 2
484694 일반 얘들아 근데 [4] ㅇㅇ갤로그로 이동합니다. 16:32 40 0
484692 일반 gpt 원래 ㅄ임? [10] ㅇㅇ(14.54) 16:26 122 0
484690 일반 현존하는 최고의 한국어 번역 모델은 제미니다 [7] ㅇㅇ(119.202) 16:10 166 0
484689 일반 ai 번역이 얼마나 발전했는데 왜 안쓰는거야?? [8] ㅇㅇ갤로그로 이동합니다. 16:08 182 0
484688 일반 레딧 특갤은 여기보다 규모도 크면서 정보도 느리네 [8] ㅇㅇ(119.202) 16:04 203 0
484687 일반 클로드 이새끼 정신나갔냐? [6] 비닌갤로그로 이동합니다. 16:02 162 0
484686 일반 애플 siri ㄷㄷㄷ [1] ㅇㅇ(218.234) 15:53 152 1
484685 일반 gpt4o 코딩 성능은 기만임 [4] ㅇㅇ(218.144) 15:47 216 0
484684 일반 체감상 유튜브, 인터넷 글의 80~90% 가 [4] ㅇㅇ(221.167) 15:43 205 0
484683 일반 금이 수요도 많고 희소성도 있는데 그램당 천만원 씩 함? [4] 마늘고양이갤로그로 이동합니다. 15:42 128 2
484682 일반 ai studio 제한 왤케 조루 됐음? ㅇㅇ(61.82) 15:40 56 0
484680 일반 영화에 ai 많이 쓸거야 ㄷㄷ ㅇㅇ(218.234) 15:34 131 1
484678 역노화 역노화 시술 비용 100만원이면 적당한거임? [6] ㅇㅇ갤로그로 이동합니다. 15:26 149 0
484677 일반 드디어 1인 야애니 시대 오는거냐? [1] ㅇㅇ(182.230) 15:24 237 1
484676 일반 gpts 전부 4o로 바뀜 ㅇㅇ갤로그로 이동합니다. 15:21 201 0
484675 일반 AI가 버블에 관한 생각 (버블이.아닐수 있다) [2] 아벨두두갤로그로 이동합니다. 15:13 93 0
484674 역노화 역노화 기술은 결국 싸질수밖에 없는 구조임... ㅇㅇ갤로그로 이동합니다. 15:11 91 0
484673 일반 머스크 트윗에 답변한 얀르쿤 [1] ㅇㅇ(218.50) 15:06 179 1
484672 일반 모르겠고 모든걸 ai로 대체 못한다는건 맞을거 같음 [4] 세태야합갤로그로 이동합니다. 15:05 157 0
484671 일반 질문) 사만다보이스ai로 어디까지 가능한지 궁금 [1] 친근한게이브갤로그로 이동합니다. 15:02 109 0
484670 일반 역노화 비용이 낮아질수없는 이유 [8] ㅇㅇ갤로그로 이동합니다. 15:00 169 0
484669 일반 4+1=5 는 그만큼 gpt5 기대하지말라는거아님? [1] zzb갤로그로 이동합니다. 14:58 155 0
484668 일반 역노화 대체 언제 가능함? 가능성이 있긴한거임? [9] ㅇㅇ(218.50) 14:56 146 1
484667 일반 제미니 1.5 pro 언제까짐 무료임? [1] ㅇㅇ(1.209) 14:55 88 0
484666 일반 심심이의 모든 채팅내역이 현세대 AI에 학습되면 어케됨 [1] ㅇㅇ(1.237) 14:54 57 0
484665 일반 이정도면 애니업계에서 바로 적용 가능한 수준이네ㅇㅇ [15] ㅇㅇ(211.192) 14:54 382 6
484664 일반 인간 배아 유전자 편집이 세상을 어떻게 바꿀까 세태야합갤로그로 이동합니다. 14:47 35 0
484663 일반 보닌 mit 석학 의견에 동의한다 [3] ㅇㅇ갤로그로 이동합니다. 14:47 134 3
484662 일반 역노화 기술로 영생할 수 있는게 과연 행복한 것인가? [10] 샌드맨갤로그로 이동합니다. 14:43 118 0
484661 일반 컴공 4학년이 gpt4o가 also보다 좋은거아님? 이러는데 존나 어이네 [3] 세태야합갤로그로 이동합니다. 14:42 181 0
484660 일반 4o 토큰 결제랑 챗지피티4o랑 활용 뭐 어떻게 하란거임 이샛기들은? ㅇㅇ(106.247) 14:39 30 0
484659 일반 생각해봤는데 ai 버블 아니다. 아벨두두갤로그로 이동합니다. 14:38 71 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2