디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[🏆베스트] 여기서 다시 각 벤치마크가 뜻하는게 뭔지 알아보ja

특특이갤로그로 이동합니다. 2024.09.13 02:31:09
조회 3037 추천 28 댓글 20

7cea8270b48469f53bee96fd47986a3776d4f69de4f7cd6d8813af278b


7cea8270b48469f53bee98bf06d6040300a2d494a9b93bcd90


1. ML Benchmarks

이 섹션에서는 머신러닝 벤치마크로 기계 학습 모델의 문제 해결 능력을 평가합니다. 각 항목의 정확도는 'pass@1 accuracy'로 측정됩니다. 이는 모델이 첫 번째 시도에서 정답을 맞히는 비율입니다.

  • MATH: 수학 문제 해결 능력을 평가합니다. 복잡한 수학 문제에서 모델의 정확도를 측정합니다.

    • GPT-4: 60.3%
    • O1: 94.8%
  • MathVista (testmini): 수학 문제를 더 작고 간단한 테스트 세트로 평가하는 벤치마크입니다.

    • GPT-4: 63.8%
    • O1: 73.2%
  • MMMU (val): 여러 언어에서의 문제 해결 능력을 측정하는 벤치마크입니다.

    • GPT-4: 69.1%
    • O1: 78.1%
  • MMLU: “Massive Multitask Language Understanding” 벤치마크로, 다양한 영역에 걸친 문제 해결 능력을 평가합니다.

    • GPT-4: 88.0%
    • O1: 92.3%

2. PhD-Level Science Questions (GPQA Diamond)

이 섹션은 박사 수준의 과학 문제에서 모델의 성능을 평가합니다. ‘pass@1 accuracy’는 모델이 박사급 수준의 문제를 첫 번째 시도에서 해결할 수 있는지를 나타냅니다.

  • Chemistry (화학): 박사 수준의 화학 문제를 평가합니다.

    • GPT-4: 40.2%
    • O1: 64.7%
  • Physics (물리학): 박사 수준의 물리학 문제 해결 능력을 평가합니다.

    • GPT-4: 59.5%
    • O1: 92.8%
  • Biology (생물학): 박사 수준의 생물학 문제 해결 성능을 평가합니다.

    • GPT-4: 61.6%
    • O1: 69.2%

3. Exams

시험 항목에서는 실제 학문적 시험에서 모델이 얼마나 높은 성과를 보이는지 평가합니다.

  • AP English Language: 고등학교에서 대학교 수준의 영어 작문 및 분석 시험입니다.

    • GPT-4: 58.0%
    • O1: 58.0%
  • AP Physics 2: 고등학교 AP 물리 2 시험입니다.

    • GPT-4: 63.0%
    • O1: 81.0%
  • AP English Literature: 문학 분석 능력을 평가하는 시험입니다.

    • GPT-4: 64.7%
    • O1: 68.0%
  • LSAT: 법학적 사고력 평가 시험입니다.

    • GPT-4: 69.5%
    • O1: 95.6%
  • AP Calculus: 미적분학 시험입니다.

    • GPT-4: 71.3%
    • O1: 83.3%
  • AP Chemistry: 고등학교 수준의 화학 시험입니다.

    • GPT-4: 76.0%
    • O1: 89.0%
  • SAT EBRW: SAT 읽기와 글쓰기 부분입니다.

    • GPT-4: 92.8%
    • O1: 94.4%

4. MMLU Categories

MMLU 벤치마크에서 다양한 학문적 범주에 걸친 문제 해결 능력을 평가한 것입니다.

  • Global Facts (전 세계적인 사실): 세계적인 상식과 사실에 대한 문제입니다.

    • GPT-4: 65.1%
    • O1: 78.4%
  • College Chemistry (대학 화학): 대학 수준의 화학 문제입니다.

    • GPT-4: 68.9%
    • O1: 78.1%
  • College Mathematics (대학 수학): 대학 수준의 수학 문제입니다.

    • GPT-4: 75.2%
    • O1: 98.1%
  • Professional Law (법률): 법률 관련 문제입니다.

    • GPT-4: 75.6%
    • O1: 85.0%
  • Public Relations (홍보학): 홍보학 관련 문제입니다.

    • GPT-4: 75.0%
    • O1: 80.7%
  • Econometrics (계량경제학): 계량경제학 문제입니다.

    • GPT-4: 78.8%
    • O1: 87.1%
  • Formal Logic (형식 논리): 형식 논리 문제입니다.

    • GPT-4: 79.8%
    • O1: 97.0%

5. Competition Math (AIME 2024)

AIME(American Invitational Mathematics Examination)는 미국에서 열리는 고난도 수학 경시대회입니다.

  • GPT-4: 13.4%
  • O1 프리뷰: 56.7%
  • O1: 83.3%

6. Competition Code (CodeForces)

CodeForces는 프로그래밍 대회 플랫폼입니다.

  • GPT-4: 11.0%
  • O1 프리뷰: 62.0%
  • O1: 89.0%

7. PhD-Level Science Questions (GPQA Diamond, 전문가 비교)

박사 수준의 과학 문제를 다루며, 사람 전문가와 성능을 비교한 것입니다.

  • GPT-4: 56.1%
  • O1 프리뷰: 78.3%
  • O1: 78.0%
  • 전문가: 69.7%



특이점 오냐?


자동등록방지

추천 비추천

28

고정닉 16

댓글 영역

전체 댓글 0
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
- 설문 시대를 잘 타고나서 뜬 것 같은 스타는? 운영자 26/02/16 - -
571617 공지 뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250818) [3] ㅇㅇ갤로그로 이동합니다. 24.11.23 96141 90
833898 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [5] ㅇㅇ갤로그로 이동합니다. 25.09.10 132900 15
571620 공지 본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다. ㅇㅇ갤로그로 이동합니다. 24.11.23 15618 24
572292 공지 직업 비하, 조롱 글 30일 차단됩니다. [1] ㅇㅇ갤로그로 이동합니다. 24.11.24 15097 15
977647 일반 특이점 후에도 서열질을 하겠지 ㅇㅇ갤로그로 이동합니다. 15:32 6 0
977646 일반 학벌 까지 마라 없어 보인다 ㅇㅇ(58.127) 15:32 19 0
977645 일반 근데 학벌 자체 영향력은 낮아지는게 팩트지만 [1] POKUDONS갤로그로 이동합니다. 15:32 24 0
977644 일반 석박 의미 있냐고 하는 애들이 있네.. ㅇㅇ(183.99) 15:32 18 0
977643 일반 서울대는 링크드인 프로필만 걸어놔도 ㅇㅇ갤로그로 이동합니다. 15:31 41 0
977642 일반 오늘은 뭐 별 소식 없나 ☆재귀개선☆갤로그로 이동합니다. 15:31 9 0
977641 일반 뭐야 오픈클로 제작자 OAI 갔네 [9] 사신짱갤로그로 이동합니다. 15:30 82 0
977640 일반 사실 학벌충들에게 느끼는감정은 동정심뿐임 [2] ㅇㅇ(14.52) 15:29 63 0
977639 일반 서울대 친구한테 앞으로 학벌 의미없어질거라 하니깐 걍 웃던데 [3] ㅇㅇ(211.193) 15:29 91 0
977638 일반 시댄스 무검열 버전 있을까? ㅇㅇ갤로그로 이동합니다. 15:29 14 0
977637 일반 춤은 ai 영상이 더 잘할걸? [1] ㅇㅇ(61.34) 15:29 16 0
977636 일반 제미나이는 확실히 제끼고 클로드 vs 키미 [6] 공화국수비대갤로그로 이동합니다. 15:29 43 0
977635 일반 씨댄스2.0 기술이 그러면 등장인물을 바꿀 수 있다는 거야? [4] ㅇㅇ갤로그로 이동합니다. 15:28 42 0
977634 일반 약간 히키끼리 어울리는 앱 만들고싶은데 어렵냐 [6] ㅇㅇ갤로그로 이동합니다. 15:27 45 0
977633 일반 자자 여러분 추천 눌러주세요 POKUDONS갤로그로 이동합니다. 15:27 22 0
977604 일반 에단 몰릭 새 트윗 [8] ㅇㅇ갤로그로 이동합니다. 15:04 340 10
977632 일반 아직도 학벌 얘기를 하노 ㅋㅋ ㅇㅇ(211.48) 15:27 51 0
977540 일반 오픈 클로 창시자 이거 ㅈㄴ 멋지네 [7] ㅇㅇ갤로그로 이동합니다. 14:02 928 7
977631 일반 자율주행도 임시개념이고 워프나오면 자율주행도 소멸함 [1] ㅇㅇ(115.41) 15:25 32 0
977630 일반 챗GPT, 제미나이. 누가 더 자연어 처리가 좋다고 보시나요? [1] ㅇㅇ(211.38) 15:25 36 0
977629 일반 Claude Claw 도 생겼음. [4] ㅇㅇ(61.82) 15:24 114 0
977627 일반 요즘 석박 의미있냐 [2] ㅇㅇ(119.214) 15:23 87 0
977626 일반 물결표 들어가면 취소선 나오는건 못 고치나 [3] u2em갤로그로 이동합니다. 15:22 53 0
977625 일반 내가 20년2월 졸업이었고 20년 12월에 첫취업했는데 공화국수비대갤로그로 이동합니다. 15:22 46 0
977623 일반 자율주행 상용화되면 자전거 붐 올까 [7] 신화망상갤로그로 이동합니다. 15:21 66 0
977622 일반 형들 부모님 ai는 어떤거 해드리면 될까요? [8] 특이점공시생갤로그로 이동합니다. 15:21 76 0
977621 일반 [페르소나(gems) 제작중..] 유동(Yudong) / 조언구함 [3] KFree갤로그로 이동합니다. 15:20 79 2
977619 일반 씹덕업계는 아직도 구시대적이다 [7] ㅇㅇ(116.34) 15:19 116 0
977618 일반 요새 취준시장이 역대급 헬이디보니 학벌 중요성 더 올라간듯 [1] 공화국수비대갤로그로 이동합니다. 15:18 118 1
977617 일반 밑에 글처럼 저런 주장이 훨씬 좋다 [5] ㅇㅇ갤로그로 이동합니다. 15:17 139 0
977616 일반 코덱스 5.3 존나 굴리니까 겁나 느려졌는데 [10] ㅇㅇ갤로그로 이동합니다. 15:15 178 0
977615 일반 난 딸숭이짓 물어보러 왔다가 gpt대란때 한개 삿는데 [1] ㅇㅇ(121.189) 15:14 124 0
977614 일반 보싼똥은 시발 [1] 모래늑대검둥이.갤로그로 이동합니다. 15:11 172 1
977613 일반 아니 시발 이거 왜 진짜임 [1] ㅇㅇ(211.107) 15:10 213 1
977612 일반 너넨 AI 처음접한게 언제냐 [12] ㅇㅇ갤로그로 이동합니다. 15:10 156 0
977611 일반 키미 써보고 있는데 키미가 제미나이보다는 나은듯? [2] 공화국수비대갤로그로 이동합니다. 15:09 65 0
977608 일반 제미나이 프로 이거 왤케 좋음? [3] ㅇㅇ(180.92) 15:07 218 1
977606 일반 출시 루머는 다 루머야 ㅇㅇ(122.45) 15:04 80 1
977605 일반 속보) 개리마커스 고점갱신 [3] ㅇㅇ갤로그로 이동합니다. 15:04 241 3
977603 일반 특이점시대 오면 학벌은 더 중요해짐 [19] ㅇㅇ갤로그로 이동합니다. 15:03 362 2
977602 일반 gpt ui ux는 [1] 딩둘딩갤로그로 이동합니다. 15:02 62 0
977601 일반 카이스트 다니는 애가 요즘은 카이스트가 학벌최고봉이라는데 [3] ㅇㅇ(119.214) 15:02 184 0
977600 일반 머슴포커..드디어 정식출시... [11] ㅇㅇ갤로그로 이동합니다. 15:02 264 0
977598 일반 통계는 pro 확장으로도 딸려서 안되네ㅋ ㅇㅇ(119.66) 15:02 74 0
977597 일반 우리동네 당근 되팔렘 등장ㅋㅋㅋ [5] ㅇㅇ(112.168) 15:00 338 1
977596 일반 gpt 대신 ui 구현하려면 짱개모델써라. [1] ㅇㅇ(222.121) 14:59 84 0
977595 일반 생리현상은 [6] 레이븐(118.219) 14:59 124 0
977594 일반 리멤버 커뮤니티 요 며칠 학벌로 불타네 [8] 공화국수비대갤로그로 이동합니다. 14:56 321 0
977593 일반 이럴떄 누가 신박한 아이디어쫌 내보라니까? [13] ㅇㅇ갤로그로 이동합니다. 14:54 218 0
977592 일반 llm 경쟁에서 승자나오면 디스토피아 시작임? [2] 슈슈우갤로그로 이동합니다. 14:54 87 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2