오늘 공개된 벤치 종합 gpt4o vs 클로드3 성능차 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[일반] 오늘 공개된 벤치 종합 gpt4o vs 클로드3 성능차모바일에서 작성

ㅇㅇ

2024.05.14 21:33:54

조회 800 추천 5 댓글 0

7ced8076b5826af73eee98a518d6040311a04c08f6d861599eae

7ced8076b5826af73eec98bf06d604039d094731ea9b99c0a534

7ced8076b5826af73ee698bf06d6040363536ad8beb7526c2eb8

이 3개 벤치 결과로 gpt4o에게 성능차를 알려달라고 함

GPT-4o consistently outperforms Claude 3 Opus across various benchmarks. Here's the comparison of their scores from the provided images:

1. **MMLU (%):**
   - GPT-4o: 88.7
   - Claude 3 Opus: 86.1
   - Difference: 88.7 - 86.1 = 2.6

2. **GPA (%):**
   - GPT-4o: 53.6
   - Claude 3 Opus: 48.0
   - Difference: 53.6 - 48.0 = 5.6

3. **MATH (%):**
   - GPT-4o: 76.6
   - Claude 3 Opus: 58.5
   - Difference: 76.6 - 58.5 = 18.1

4. **HumanEval (%):**
   - GPT-4o: 90.2
   - Claude 3 Opus: 71.9
   - Difference: 90.2 - 71.9 = 18.3

5. **MGSM (%):**
   - GPT-4o: 90.5
   - Claude 3 Opus: 74.5
   - Difference: 90.5 - 74.5 = 16.0

6. **DROP (f1):**
   - GPT-4o: 86.0
   - Claude 3 Opus: 83.5
   - Difference: 86.0 - 83.5 = 2.5

7. **MathVista (%):**
   - GPT-4o: 63.8
   - Claude 3 Opus: 50.5
   - Difference: 63.8 - 50.5 = 13.3

8. **AI2D (%):**
   - GPT-4o: 94.2
   - Claude 3 Opus: 88.1
   - Difference: 94.2 - 88.1 = 6.1

9. **ChartQA (%):**
   - GPT-4o: 85.7
   - Claude 3 Opus: 80.8
   - Difference: 85.7 - 80.8 = 4.9

10. **DocVQA (%):**
    - GPT-4o: 92.8
    - Claude 3 Opus: 89.3
    - Difference: 92.8 - 89.3 = 3.5

11. **ActivityNet (%):**
    - GPT-4o: 61.9
    - Claude 3 Opus: 52.2
    - Difference: 61.9 - 52.2 = 9.7

12. **EgoSchema (%):**
    - GPT-4o: 72.2
    - Claude 3 Opus: 63.9
    - Difference: 72.2 - 63.9 = 8.3

13. **RealWorldQA (%):**
    - GPT-4o: 75.4
    - Claude 3 Opus: 49.8
    - Difference: 75.4 - 49.8 = 25.6

Now, calculating the average difference across these benchmarks:

\[ \text{Average Difference} = \frac{2.6 + 5.6 + 18.1 + 18.3 + 16.0 + 2.5 + 13.3 + 6.1 + 4.9 + 3.5 + 9.7 + 8.3 + 25.6}{13} \approx 10.5 \]

Therefore, on average, GPT-4o performs approximately 10.5 percentage points better than Claude 3 Opus across the evaluated benchmarks.

가중치 고려해달라 함

가중치를 다르게 설정하는 것이 더 현실적일 수 있습니다. 각 벤치마크는 중요도가 다르기 때문에, 전체 성능을 평가할 때 가중치를 고려하는 것이 합리적입니다. 예를 들어, 일반적으로 더 중요한 테스트에는 더 높은 가중치를 부여할 수 있습니다.

하지만, 가중치를 모두 동일하게 설정하고 평균을 구하는 것은 단순화된 접근법이며, 일관된 비교를 위해 하나의 기준을 제공할 수 있습니다. 만약 특정 테스트가 더 중요하다면, 그 테스트에 더 높은 가중치를 주는 것이 적절합니다.

가중치가 동일한 경우와 다른 경우 모두 계산해보겠습니다.

1. **동일 가중치**:
    각 항목의 차이값을 합산하고 항목의 수로 나눈다.

2. **가중치 부여**:
    각 항목에 임의의 가중치를 부여한 후, 가중치 합으로 나눈다.

### 1. 동일 가중치
이미 동일 가중치로 평균을 계산한 결과는 약 10.5입니다.

### 2. 가중치 부여
예를 들어, MMLU, HumanEval, MGSM 등의 핵심 벤치마크에 더 높은 가중치를 주고, 나머지 항목들에는 낮은 가중치를 주는 방식입니다.

각 항목에 임의의 가중치를 부여하고, 가중 평균을 계산해보겠습니다. 가중치 합이 1이 되도록 설정합니다.

가중치를 다음과 같이 설정해 보겠습니다:
- MMLU: 0.1
- GPA: 0.05
- MATH: 0.1
- HumanEval: 0.15
- MGSM: 0.15
- DROP: 0.1
- MathVista: 0.1
- AI2D: 0.05
- ChartQA: 0.05
- DocVQA: 0.05
- ActivityNet: 0.05
- EgoSchema: 0.05
- RealWorldQA: 0.1

각 항목의 가중 평균 차이를 구합니다:

\[
\text{Weighted Average Difference} = (2.6 \times 0.1) + (5.6 \times 0.05) + (18.1 \times 0.1) + (18.3 \times 0.15) + (16.0 \times 0.15) + (2.5 \times 0.1) + (13.3 \times 0.1) + (6.1 \times 0.05) + (4.9 \times 0.05) + (3.5 \times 0.05) + (9.7 \times 0.05) + (8.3 \times 0.05) + (25.6 \times 0.1)
\]

계산을 하면:

\[
= (0.26) + (0.28) + (1.81) + (2.745) + (2.4) + (0.25) + (1.33) + (0.305) + (0.245) + (0.175) + (0.485) + (0.415) + (2.56)
\]

총합:

\[
= 13.26
\]

### 결론
가중치를 고려한 평균 차이는 약 13.26%입니다. 이 결과는 동일 가중치 접근법보다 GPT-4o가 Claude 3 Opus에 비해 더 우수하다는 것을 더 명확하게 보여줍니다.

이렇다고 하네

고정닉 2

원본 첨부파일 3본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2863	설문	시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는?	운영자	24/05/27	-	-
412470	공지	레이 커즈와일 신간 6월 25일 발매 [29]	모브	24.01.24	7872	32
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3098]	*특갤용*	23.08.06	39228	43
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1]	*부패하는유전자!!!*	24.03.06	2529	2
363220	공지	선형글 삭제 기준 [7]	*특갤용*	23.10.14	7219	24
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40]	ㅇㅇ(182.230)	23.11.11	13322	122
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [51]	*특갤용*	23.11.07	8924	79
385147	공지	구글의 AGI 분류 체계 [17]	ㅇㅇ	23.11.22	8352	31
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	9136	30
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	22718	33
484506	일반	ai 정보 뉴스 볼때 주의할점	ㅇㅇ(49.142)	01:21	80	1
484505	일반	GPT-5, -6 나오면 진짜 정치를 거기 맡기는 국가 나올법함 [3]	ㅇㅇ(14.5)	01:15	131	0
484504	일반	크롬 버벅거리는 현상에 대한 추측? [4]	ㅇㅇ(14.5)	01:12	105	0
484503	일반	너넨 출01294산율에 대해선 어케 생각함 [12]	ㅇㅇ(112.184)	01:10	117	0
484502	일반	OAI 최신기술이 애플 기간독점이면 어쩔꺼냐고? [2]	ㅇㅇ(14.5)	01:08	77	0
484501	일반	근데생각해보니지금돈을벌어야됨	ㅇㅇ	01:05	74	0
484500	일반	애플 gpt 월 15만원 언더오버	ㅇㅇ	01:05	77	0
484499	일반	100조 파라미터까지 이제 얼마 안남았네 [4]	ㅇㅇ(121.131)	00:53	165	0
484498	정보/ 정보/뉴스	LLM은 고차원 정신 이론 작업에서 성인 인간의 성과 달성	ㅇㅇ(125.191)	00:50	135	7
484497	일반	Gpt5가 전세계에 혼란을 가져오길 기대중 [6]	ㅇㅇ(58.29)	00:47	185	1
484496	정보/ 정보/뉴스	OpenAI 이사회 헬렌 토너 주장 반박 [3]	ㅇㅇ(125.191)	00:41	153	2
484495	일반	애플 시리에 gpt를 진짜 연결하긴 할 듯	ㅇㅇ	00:40	111	1
484494	일반	일리야는 언젠가는 복귀해야 할 듯	난난난	00:40	45	0
484493	일반	교과서 종이책 없애고 e북화 하는건 오바같은데 [5]	ㅇㅇ	00:37	106	1
484492	일반	agi가 온다면 국제정치는 어떻게 될까 [2]	ㅇㅇ	00:37	51	0
484491	일반	갠적으로 gpt5는 온보드이길 바랬는데 ㅋㅋ	난난난	00:34	93	0
484490	정보/ 정보/뉴스	산소 제거로 고품질 그래핀 샘플 개발 [1]	ㅇㅇ	00:34	78	5
484489	정보/ 정보/뉴스	하비에르 차 "서울대 교수진 구성은 본질적으로 카르텔" [4]	ㅇㅇ(125.191)	00:34	201	3
484488	일반	특이점 와 이 멋진 번듯한직장인들아ㅋㅋㅋㅋㅋㅋㅋ [3]	특갤용(106.101)	00:30	166	5
484487	일반	인류는 gpt5 이전과 이후로 나뉜다 [2]	ㅇㅇ(118.235)	00:30	90	0
484486	역노화	혈당 강하제로 노화까지 치료… 세포 노화 늦춰 [4]	ㅇㅇ	00:27	166	6
484485	일반	ai가 거품이라는 말의 진짜 속뜻 [1]	ㅇㅇ	00:26	132	5
484484	일반	책이름 건의 "특이점은 언제오나" [1]	자애	00:25	34	0
484483	일반	ai가 물리적인 세계로 오기까지는 얼마나걸릴거같음 [10]	ㅇㅇ	00:25	89	0
484482	일반	GPT-5가 루머대로 나온다면 엄청난 파급력이 있을거라봄 [2]	ㅇㅇ(58.232)	00:22	191	0
484481	일반	오늘도 노동해방과 특이점을 향한 기도를 올립니다 [2]	ㅇㅇ(219.240)	00:19	29	1
484480	일반	인공지능 웹사이트 같이 만들사람~ [1]	aifilter	00:19	66	0
484478	일반	“4년 후 부터 종이 교과서 사라져“ 부산교육청 오피셜ㄷㄷ [3]	나는나다	00:13	215	1
484477	일반	gpt plus 구독했는데 디폴트가 3.5로 고정됨 이유가 뭐지?	ㅇㅇ(222.96)	00:11	51	0
484475	일반	AI가 본격적으로 직업 대체를 시작할 때가 기대됨 [7]	이세이미야케	00:07	191	0
484474	일반	한국은 왜 반대로 가고 있냐 [4]	ㅇㅇ(211.176)	00:07	161	0
484473	일반	갤이름 건의에 앞서 갤주의 3번째 책이름을 건의 [10]	ㅇㅇ(223.38)	00:07	93	0
484472	일반	컴퓨터로 gpt랑 대화할때 자꾸 심하게 버벅거림 [3]	ㅇㅇ	00:06	48	0
484471	일반	ai거품설 특 [3]	ㅇㅇ(218.232)	00:00	115	2
484470	일반	솔직히 agi 2029년에만 와도 나는 만족함 [5]	ㅇㅇ	05.30	132	0
484469	일반	1,2년안에 큰 변화는 없을 듯 [4]	ㅇㅇ	05.30	165	3
484468	일반	갤이름 건의: 특이점이 늦는다 [4]	ㅇㅇ(223.38)	05.30	119	2
484467	일반	지금 그럼 미드저니로 유의미한 결과물 내는 사례도 딱히 없는 거네?	ㅇㅇ(211.176)	05.30	53	0
484466	일반	소득기본 언제 [2]	ㅇㅇ(221.148)	05.30	127	1
484465	일반	실베에 AI 거품 이지랄 하는거 보니까 [1]	ㅇㅇ(58.232)	05.30	173	0
484464	일반	특이점 와 이 시발 엠생백수새끼들아 ㅋㅋㅋㅋㅋㅋㅋ [4]	ㅇㅇ(58.29)	05.30	233	4