디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 오늘 공개된 벤치 종합 gpt4o vs 클로드3 성능차모바일에서 작성

ㅇㅇ갤로그로 이동합니다. 2024.05.14 21:33:54
조회 800 추천 5 댓글 0
														
7ced8076b5826af73eee98a518d6040311a04c08f6d861599eae

7ced8076b5826af73eec98bf06d604039d094731ea9b99c0a534

7ced8076b5826af73ee698bf06d6040363536ad8beb7526c2eb8



이 3개 벤치 결과로 gpt4o에게 성능차를 알려달라고 함

GPT-4o consistently outperforms Claude 3 Opus across various benchmarks. Here's the comparison of their scores from the provided images:

1. **MMLU (%):**
   - GPT-4o: 88.7
   - Claude 3 Opus: 86.1
   - Difference: 88.7 - 86.1 = 2.6

2. **GPA (%):**
   - GPT-4o: 53.6
   - Claude 3 Opus: 48.0
   - Difference: 53.6 - 48.0 = 5.6

3. **MATH (%):**
   - GPT-4o: 76.6
   - Claude 3 Opus: 58.5
   - Difference: 76.6 - 58.5 = 18.1

4. **HumanEval (%):**
   - GPT-4o: 90.2
   - Claude 3 Opus: 71.9
   - Difference: 90.2 - 71.9 = 18.3

5. **MGSM (%):**
   - GPT-4o: 90.5
   - Claude 3 Opus: 74.5
   - Difference: 90.5 - 74.5 = 16.0

6. **DROP (f1):**
   - GPT-4o: 86.0
   - Claude 3 Opus: 83.5
   - Difference: 86.0 - 83.5 = 2.5

7. **MathVista (%):**
   - GPT-4o: 63.8
   - Claude 3 Opus: 50.5
   - Difference: 63.8 - 50.5 = 13.3

8. **AI2D (%):**
   - GPT-4o: 94.2
   - Claude 3 Opus: 88.1
   - Difference: 94.2 - 88.1 = 6.1

9. **ChartQA (%):**
   - GPT-4o: 85.7
   - Claude 3 Opus: 80.8
   - Difference: 85.7 - 80.8 = 4.9

10. **DocVQA (%):**
    - GPT-4o: 92.8
    - Claude 3 Opus: 89.3
    - Difference: 92.8 - 89.3 = 3.5

11. **ActivityNet (%):**
    - GPT-4o: 61.9
    - Claude 3 Opus: 52.2
    - Difference: 61.9 - 52.2 = 9.7

12. **EgoSchema (%):**
    - GPT-4o: 72.2
    - Claude 3 Opus: 63.9
    - Difference: 72.2 - 63.9 = 8.3

13. **RealWorldQA (%):**
    - GPT-4o: 75.4
    - Claude 3 Opus: 49.8
    - Difference: 75.4 - 49.8 = 25.6

Now, calculating the average difference across these benchmarks:

\[ \text{Average Difference} = \frac{2.6 + 5.6 + 18.1 + 18.3 + 16.0 + 2.5 + 13.3 + 6.1 + 4.9 + 3.5 + 9.7 + 8.3 + 25.6}{13} \approx 10.5 \]

Therefore, on average, GPT-4o performs approximately 10.5 percentage points better than Claude 3 Opus across the evaluated benchmarks.


가중치 고려해달라 함


가중치를 다르게 설정하는 것이 더 현실적일 수 있습니다. 각 벤치마크는 중요도가 다르기 때문에, 전체 성능을 평가할 때 가중치를 고려하는 것이 합리적입니다. 예를 들어, 일반적으로 더 중요한 테스트에는 더 높은 가중치를 부여할 수 있습니다.

하지만, 가중치를 모두 동일하게 설정하고 평균을 구하는 것은 단순화된 접근법이며, 일관된 비교를 위해 하나의 기준을 제공할 수 있습니다. 만약 특정 테스트가 더 중요하다면, 그 테스트에 더 높은 가중치를 주는 것이 적절합니다.

가중치가 동일한 경우와 다른 경우 모두 계산해보겠습니다.

1. **동일 가중치**:
    각 항목의 차이값을 합산하고 항목의 수로 나눈다.

2. **가중치 부여**:
    각 항목에 임의의 가중치를 부여한 후, 가중치 합으로 나눈다.

### 1. 동일 가중치
이미 동일 가중치로 평균을 계산한 결과는 약 10.5입니다.

### 2. 가중치 부여
예를 들어, MMLU, HumanEval, MGSM 등의 핵심 벤치마크에 더 높은 가중치를 주고, 나머지 항목들에는 낮은 가중치를 주는 방식입니다.

각 항목에 임의의 가중치를 부여하고, 가중 평균을 계산해보겠습니다. 가중치 합이 1이 되도록 설정합니다.

가중치를 다음과 같이 설정해 보겠습니다:
- MMLU: 0.1
- GPA: 0.05
- MATH: 0.1
- HumanEval: 0.15
- MGSM: 0.15
- DROP: 0.1
- MathVista: 0.1
- AI2D: 0.05
- ChartQA: 0.05
- DocVQA: 0.05
- ActivityNet: 0.05
- EgoSchema: 0.05
- RealWorldQA: 0.1

각 항목의 가중 평균 차이를 구합니다:

\[
\text{Weighted Average Difference} = (2.6 \times 0.1) + (5.6 \times 0.05) + (18.1 \times 0.1) + (18.3 \times 0.15) + (16.0 \times 0.15) + (2.5 \times 0.1) + (13.3 \times 0.1) + (6.1 \times 0.05) + (4.9 \times 0.05) + (3.5 \times 0.05) + (9.7 \times 0.05) + (8.3 \times 0.05) + (25.6 \times 0.1)
\]

계산을 하면:

\[
= (0.26) + (0.28) + (1.81) + (2.745) + (2.4) + (0.25) + (1.33) + (0.305) + (0.245) + (0.175) + (0.485) + (0.415) + (2.56)
\]

총합:

\[
= 13.26
\]

### 결론
가중치를 고려한 평균 차이는 약 13.26%입니다. 이 결과는 동일 가중치 접근법보다 GPT-4o가 Claude 3 Opus에 비해 더 우수하다는 것을 더 명확하게 보여줍니다.


이렇다고 하네
자동등록방지

추천 비추천

5

고정닉 2

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7872 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3098] 특갤용갤로그로 이동합니다. 23.08.06 39228 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2529 2
363220 공지 선형글 삭제 기준 [7] 특갤용갤로그로 이동합니다. 23.10.14 7219 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 13322 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [51] 특갤용갤로그로 이동합니다. 23.11.07 8924 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8352 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 9136 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22718 33
484506 일반 ai 정보 뉴스 볼때 주의할점 ㅇㅇ(49.142) 01:21 80 1
484505 일반 GPT-5, -6 나오면 진짜 정치를 거기 맡기는 국가 나올법함 [3] ㅇㅇ(14.5) 01:15 131 0
484504 일반 크롬 버벅거리는 현상에 대한 추측? [4] ㅇㅇ(14.5) 01:12 105 0
484503 일반 너넨 출01294산율에 대해선 어케 생각함 [12] ㅇㅇ(112.184) 01:10 117 0
484502 일반 OAI 최신기술이 애플 기간독점이면 어쩔꺼냐고? [2] ㅇㅇ(14.5) 01:08 77 0
484501 일반 근데생각해보니지금돈을벌어야됨 ㅇㅇ갤로그로 이동합니다. 01:05 74 0
484500 일반 애플 gpt 월 15만원 언더오버 ㅇㅇ갤로그로 이동합니다. 01:05 77 0
484499 일반 100조 파라미터까지 이제 얼마 안남았네 [4] ㅇㅇ(121.131) 00:53 165 0
484498 정보/ LLM은 고차원 정신 이론 작업에서 성인 인간의 성과 달성 ㅇㅇ(125.191) 00:50 135 7
484497 일반 Gpt5가 전세계에 혼란을 가져오길 기대중 [6] ㅇㅇ(58.29) 00:47 185 1
484496 정보/ OpenAI 이사회 헬렌 토너 주장 반박 [3] ㅇㅇ(125.191) 00:41 153 2
484495 일반 애플 시리에 gpt를 진짜 연결하긴 할 듯 ㅇㅇ갤로그로 이동합니다. 00:40 111 1
484494 일반 일리야는 언젠가는 복귀해야 할 듯 난난난갤로그로 이동합니다. 00:40 45 0
484493 일반 교과서 종이책 없애고 e북화 하는건 오바같은데 [5] ㅇㅇ갤로그로 이동합니다. 00:37 106 1
484492 일반 agi가 온다면 국제정치는 어떻게 될까 [2] ㅇㅇ갤로그로 이동합니다. 00:37 51 0
484491 일반 갠적으로 gpt5는 온보드이길 바랬는데 ㅋㅋ 난난난갤로그로 이동합니다. 00:34 93 0
484490 정보/ 산소 제거로 고품질 그래핀 샘플 개발 [1] ㅇㅇ갤로그로 이동합니다. 00:34 78 5
484489 정보/ 하비에르 차 "서울대 교수진 구성은 본질적으로 카르텔" [4] ㅇㅇ(125.191) 00:34 201 3
484488 일반 특이점 와 이 멋진 번듯한직장인들아ㅋㅋㅋㅋㅋㅋㅋ [3] 특갤용(106.101) 00:30 166 5
484487 일반 인류는 gpt5 이전과 이후로 나뉜다 [2] ㅇㅇ(118.235) 00:30 90 0
484486 역노화 혈당 강하제로 노화까지 치료… 세포 노화 늦춰 [4] ㅇㅇ갤로그로 이동합니다. 00:27 166 6
484485 일반 ai가 거품이라는 말의 진짜 속뜻 [1] ㅇㅇ갤로그로 이동합니다. 00:26 132 5
484484 일반 책이름 건의 "특이점은 언제오나" [1] 자애갤로그로 이동합니다. 00:25 34 0
484483 일반 ai가 물리적인 세계로 오기까지는 얼마나걸릴거같음 [10] ㅇㅇ갤로그로 이동합니다. 00:25 89 0
484482 일반 GPT-5가 루머대로 나온다면 엄청난 파급력이 있을거라봄 [2] ㅇㅇ(58.232) 00:22 191 0
484481 일반 오늘도 노동해방과 특이점을 향한 기도를 올립니다 [2] ㅇㅇ(219.240) 00:19 29 1
484480 일반 인공지능 웹사이트 같이 만들사람~ [1] aifilter갤로그로 이동합니다. 00:19 66 0
484478 일반 “4년 후 부터 종이 교과서 사라져“ 부산교육청 오피셜ㄷㄷ [3] 나는나다갤로그로 이동합니다. 00:13 215 1
484477 일반 gpt plus 구독했는데 디폴트가 3.5로 고정됨 이유가 뭐지? ㅇㅇ(222.96) 00:11 51 0
484475 일반 AI가 본격적으로 직업 대체를 시작할 때가 기대됨 [7] 이세이미야케갤로그로 이동합니다. 00:07 191 0
484474 일반 한국은 왜 반대로 가고 있냐 [4] ㅇㅇ(211.176) 00:07 161 0
484473 일반 갤이름 건의에 앞서 갤주의 3번째 책이름을 건의 [10] ㅇㅇ(223.38) 00:07 93 0
484472 일반 컴퓨터로 gpt랑 대화할때 자꾸 심하게 버벅거림 [3] ㅇㅇ갤로그로 이동합니다. 00:06 48 0
484471 일반 ai거품설 특 [3] ㅇㅇ(218.232) 00:00 115 2
484470 일반 솔직히 agi 2029년에만 와도 나는 만족함 [5] ㅇㅇ갤로그로 이동합니다. 05.30 132 0
484469 일반 1,2년안에 큰 변화는 없을 듯 [4] ㅇㅇ갤로그로 이동합니다. 05.30 165 3
484468 일반 갤이름 건의: 특이점이 늦는다 [4] ㅇㅇ(223.38) 05.30 119 2
484467 일반 지금 그럼 미드저니로 유의미한 결과물 내는 사례도 딱히 없는 거네? ㅇㅇ(211.176) 05.30 53 0
484466 일반 소득기본 언제 [2] ㅇㅇ(221.148) 05.30 127 1
484465 일반 실베에 AI 거품 이지랄 하는거 보니까 [1] ㅇㅇ(58.232) 05.30 173 0
484464 일반 특이점 와 이 시발 엠생백수새끼들아 ㅋㅋㅋㅋㅋㅋㅋ [4] ㅇㅇ(58.29) 05.30 233 4
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2