오늘 공개된 벤치 종합 gpt4o vs 클로드3 성능차 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[일반] 오늘 공개된 벤치 종합 gpt4o vs 클로드3 성능차모바일에서 작성

ㅇㅇ

2024.05.14 21:33:54

조회 864 추천 5 댓글 0

7ced8076b5826af73eee98a518d6040311a04c08f6d861599eae

7ced8076b5826af73eec98bf06d604039d094731ea9b99c0a534

7ced8076b5826af73ee698bf06d6040363536ad8beb7526c2eb8

이 3개 벤치 결과로 gpt4o에게 성능차를 알려달라고 함

GPT-4o consistently outperforms Claude 3 Opus across various benchmarks. Here's the comparison of their scores from the provided images:

1. **MMLU (%):**
   - GPT-4o: 88.7
   - Claude 3 Opus: 86.1
   - Difference: 88.7 - 86.1 = 2.6

2. **GPA (%):**
   - GPT-4o: 53.6
   - Claude 3 Opus: 48.0
   - Difference: 53.6 - 48.0 = 5.6

3. **MATH (%):**
   - GPT-4o: 76.6
   - Claude 3 Opus: 58.5
   - Difference: 76.6 - 58.5 = 18.1

4. **HumanEval (%):**
   - GPT-4o: 90.2
   - Claude 3 Opus: 71.9
   - Difference: 90.2 - 71.9 = 18.3

5. **MGSM (%):**
   - GPT-4o: 90.5
   - Claude 3 Opus: 74.5
   - Difference: 90.5 - 74.5 = 16.0

6. **DROP (f1):**
   - GPT-4o: 86.0
   - Claude 3 Opus: 83.5
   - Difference: 86.0 - 83.5 = 2.5

7. **MathVista (%):**
   - GPT-4o: 63.8
   - Claude 3 Opus: 50.5
   - Difference: 63.8 - 50.5 = 13.3

8. **AI2D (%):**
   - GPT-4o: 94.2
   - Claude 3 Opus: 88.1
   - Difference: 94.2 - 88.1 = 6.1

9. **ChartQA (%):**
   - GPT-4o: 85.7
   - Claude 3 Opus: 80.8
   - Difference: 85.7 - 80.8 = 4.9

10. **DocVQA (%):**
    - GPT-4o: 92.8
    - Claude 3 Opus: 89.3
    - Difference: 92.8 - 89.3 = 3.5

11. **ActivityNet (%):**
    - GPT-4o: 61.9
    - Claude 3 Opus: 52.2
    - Difference: 61.9 - 52.2 = 9.7

12. **EgoSchema (%):**
    - GPT-4o: 72.2
    - Claude 3 Opus: 63.9
    - Difference: 72.2 - 63.9 = 8.3

13. **RealWorldQA (%):**
    - GPT-4o: 75.4
    - Claude 3 Opus: 49.8
    - Difference: 75.4 - 49.8 = 25.6

Now, calculating the average difference across these benchmarks:

\[ \text{Average Difference} = \frac{2.6 + 5.6 + 18.1 + 18.3 + 16.0 + 2.5 + 13.3 + 6.1 + 4.9 + 3.5 + 9.7 + 8.3 + 25.6}{13} \approx 10.5 \]

Therefore, on average, GPT-4o performs approximately 10.5 percentage points better than Claude 3 Opus across the evaluated benchmarks.

가중치 고려해달라 함

가중치를 다르게 설정하는 것이 더 현실적일 수 있습니다. 각 벤치마크는 중요도가 다르기 때문에, 전체 성능을 평가할 때 가중치를 고려하는 것이 합리적입니다. 예를 들어, 일반적으로 더 중요한 테스트에는 더 높은 가중치를 부여할 수 있습니다.

하지만, 가중치를 모두 동일하게 설정하고 평균을 구하는 것은 단순화된 접근법이며, 일관된 비교를 위해 하나의 기준을 제공할 수 있습니다. 만약 특정 테스트가 더 중요하다면, 그 테스트에 더 높은 가중치를 주는 것이 적절합니다.

가중치가 동일한 경우와 다른 경우 모두 계산해보겠습니다.

1. **동일 가중치**:
    각 항목의 차이값을 합산하고 항목의 수로 나눈다.

2. **가중치 부여**:
    각 항목에 임의의 가중치를 부여한 후, 가중치 합으로 나눈다.

### 1. 동일 가중치
이미 동일 가중치로 평균을 계산한 결과는 약 10.5입니다.

### 2. 가중치 부여
예를 들어, MMLU, HumanEval, MGSM 등의 핵심 벤치마크에 더 높은 가중치를 주고, 나머지 항목들에는 낮은 가중치를 주는 방식입니다.

각 항목에 임의의 가중치를 부여하고, 가중 평균을 계산해보겠습니다. 가중치 합이 1이 되도록 설정합니다.

가중치를 다음과 같이 설정해 보겠습니다:
- MMLU: 0.1
- GPA: 0.05
- MATH: 0.1
- HumanEval: 0.15
- MGSM: 0.15
- DROP: 0.1
- MathVista: 0.1
- AI2D: 0.05
- ChartQA: 0.05
- DocVQA: 0.05
- ActivityNet: 0.05
- EgoSchema: 0.05
- RealWorldQA: 0.1

각 항목의 가중 평균 차이를 구합니다:

\[
\text{Weighted Average Difference} = (2.6 \times 0.1) + (5.6 \times 0.05) + (18.1 \times 0.1) + (18.3 \times 0.15) + (16.0 \times 0.15) + (2.5 \times 0.1) + (13.3 \times 0.1) + (6.1 \times 0.05) + (4.9 \times 0.05) + (3.5 \times 0.05) + (9.7 \times 0.05) + (8.3 \times 0.05) + (25.6 \times 0.1)
\]

계산을 하면:

\[
= (0.26) + (0.28) + (1.81) + (2.745) + (2.4) + (0.25) + (1.33) + (0.305) + (0.245) + (0.175) + (0.485) + (0.415) + (2.56)
\]

총합:

\[
= 13.26
\]

### 결론
가중치를 고려한 평균 차이는 약 13.26%입니다. 이 결과는 동일 가중치 접근법보다 GPT-4o가 Claude 3 Opus에 비해 더 우수하다는 것을 더 명확하게 보여줍니다.

이렇다고 하네

고정닉 2

원본 첨부파일 3본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2864	설문	비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는?	운영자	24/06/03	-	-
483586	일반	그럼 9월 5 확정이냐? [1]	ㅇㅋ	05.28	159	0
483585	일반	AI 여름이다 시발 ㅋㅋ [4]	ㅇㅇ(210.105)	05.28	374	3
483584	정보/ 정보/뉴스	최근 큰거 정보 정리 [4]	ㅇㅇ(210.105)	05.28	362	5
483583	일반	2024 closedai 행보 에상 ㅇㅅㅇ	ㅇㅇ(122.36)	05.28	128	1
483582	일반	인간 뇌신경망이 의외로 llm이랑 비슷한 원리로 작동한다면 [2]	ㅇㅇ(221.155)	05.28	103	0
483581	일반	4o 사용 예시 보면 흠그정돈가 싶음	ㅇㅇ	05.28	128	0
483580	정보/ 정보/뉴스	오랜만에 재밌게 읽은 논문(트랜스포머 계산문제 해결) [16]	ㅇㅇ(119.77)	05.28	2851	33
483579	일반	와 외계인이 첨에 tv 보면서 학습하는 거 생각나네 [1]	흑등고래	05.28	77	0
483578	일반	ai 안전론자 선형쭝쭝이들이 진짜 돈에 미친자들이에여 ㅇㅅㅇ	ㅇㅇ(122.36)	05.28	78	2
483577	일반	리들리 스콧 마지막 피날레 가자	ㅇㅇ(103.237)	05.28	63	0
483576	일반	큰거 떴는데 [26]	ㅇㅇ	05.28	5207	26
483575	일반	이 기사 ㅈㄴ 웃기네 ㅋㅋㅋ	달나라로켓	05.28	92	0
483574	일반	차단 드디어 풀렷네영 ㅇㅅㅇ [5]	ㅇㅇ(122.36)	05.28	185	0
483573	일반	저작권 무시할 수 있는 이유 [2]	ㅇㅇ(211.184)	05.28	154	0
483572	일반	ChatGPT를 통해서 완벽한 자막 번역기를 만들 수 있을까 [3]	허허헛헛	05.28	155	0
483571	일반	4o 그래서 멀티모달 완전체 언제 나옴	ㅇㅇ	05.28	91	0
483570	일반	그림쟁이들이 찡찡대는게 안 통하는 이유가 있었노	ㅇㅇ(115.139)	05.28	124	0
483569	일반	전생 확인할 수 있으면 확인해 보고 싶음. [8]	ㅇㅇ(103.237)	05.28	110	0
483568	일반	조금 덜 유명한 드라마 장면도 넣어봤는데 [11]	S&P	05.28	309	2
483567	일반	근데 작품 잘 맞추긴 하네 ㅋㅋ [5]	ㅇㅇ(103.237)	05.28	123	0
483566	일반	레커 팬으로서 좆발하라리 이새끼 재수없다 [5]	ㅇㅇ	05.28	186	3
483565	일반	신.JPG [2]	ㅇㅇ	05.28	202	0
483564	일반	초반도체 AI칩은 얼마나 쌈뽕한 물건일까 [3]	WhiskyDelta	05.28	125	0
483563	일반	GPT는 왜 구글링 할줄 모르냐? [1]	ㅇㅇ	05.28	113	0
483562	일반	특이점와도 불가능한 건 있죠 ㅇㅅㅇ [7]	ㅇㅇ(103.237)	05.28	170	0
483561	일반	장면하나 찍어주면 무슨영화인지 맞추네 [14]	S&P	05.28	375	3
483560	일반	과거로 시간여행 가능하지않음? [4]	ㅇㅇ(14.53)	05.28	207	0
483559	일반	다들 소리 멀티모달을 기대하지만 그림멀티모달도 [3]	도서관킬러	05.28	125	0
483558	일반	단일 신경망 그림 AI 나오기만 하면 ppt 만들 필요 없을 듯	ㅇㅇ(119.202)	05.28	92	0
483557	일반	gpt-4o가 말하는 ubi	천사다천사	05.28	96	0
483556	일반	시간 ㅈㄴ안가네 아	ㅇㅇ(14.53)	05.28	100	0
483554	일반	유입인데 기뵨소득은 왜 금지어임 [15]	ㅇㅇ(14.54)	05.28	336	1
483553	일반	Gpt5 d-10 [5]	헬스토끼	05.28	359	1
483552	일반	공룡팔을 장착하고 안드로이드와 사투를 벌이고싶다 [1]	ㅇㅇ(218.158)	05.28	43	0
483548	일반	과거여행은 관련한 말은 이게 가장 흥미로웠음 [6]	ㅁㅁ(175.201)	05.28	195	1
483547	일반	역노화는..무슨 개소리 지껄이지 말아라 애들라.. [7]	ㅇㅇ(118.235)	05.28	327	3
483546	토의	BCI로 기억을 읽을 수 있다 [7]	테이리	05.28	270	5
483545	일반	오픈ai. api로 빅데이터 분석중인데 [2]	자애	05.28	120	1
483544	일반	미드저니 올라오는거 보면 [2]	ㅇㅇ(218.154)	05.28	132	0
483542	일반	단일 신경망 보고옴 이제 그림쟁이들 좆된거임 [39]	ㅇㅇ(210.105)	05.28	741	3
483541	일반	호르몬 초기화에 대해 궁금한건데 [3]	ㅇㅇ	05.28	119	0
483540	일반	이건 진짜 속에서 천불이 난다 [5]	ㅇㅇ(117.20)	05.28	271	0
483539	일반	책상 높이 배꼽으로 하면 손목이 뜨는데 이거 맞음? [3]	fsdfsdfsed(121.178)	05.28	105	0
483538	일반	왜 유독 그림쟁이들이 ai에 반발이 심한지 깨달았음 [7]	ㅇㅇ(182.230)	05.28	302	2
483537	토의	완몰가 통 속의 뇌 질문 현실적으로 바꿔봄 [9]	테이리	05.28	256	1
483536	일반	솔담비 특이점은 온다 [10]	ㅇㅇ	05.28	203	0
483535	일반	미래로라도 가고싶은데 이것도 불가능임?? [5]	ㅇㅇ(61.97)	05.28	138	2
483534	일반	요한슨 미국 여론 어떻게 됨 [2]	ㅇㅇ	05.28	160	0
483533	일반	중국이 있어서 다행이다	ㅇㅇ(125.178)	05.28	86	0
483532	일반	완몰가 바라는 애들에게 질문 [4]	테이리	05.28	239	1