디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 오늘 공개된 벤치 종합 gpt4o vs 클로드3 성능차모바일에서 작성

ㅇㅇ갤로그로 이동합니다. 2024.05.14 21:33:54
조회 864 추천 5 댓글 0
														
7ced8076b5826af73eee98a518d6040311a04c08f6d861599eae

7ced8076b5826af73eec98bf06d604039d094731ea9b99c0a534

7ced8076b5826af73ee698bf06d6040363536ad8beb7526c2eb8



이 3개 벤치 결과로 gpt4o에게 성능차를 알려달라고 함

GPT-4o consistently outperforms Claude 3 Opus across various benchmarks. Here's the comparison of their scores from the provided images:

1. **MMLU (%):**
   - GPT-4o: 88.7
   - Claude 3 Opus: 86.1
   - Difference: 88.7 - 86.1 = 2.6

2. **GPA (%):**
   - GPT-4o: 53.6
   - Claude 3 Opus: 48.0
   - Difference: 53.6 - 48.0 = 5.6

3. **MATH (%):**
   - GPT-4o: 76.6
   - Claude 3 Opus: 58.5
   - Difference: 76.6 - 58.5 = 18.1

4. **HumanEval (%):**
   - GPT-4o: 90.2
   - Claude 3 Opus: 71.9
   - Difference: 90.2 - 71.9 = 18.3

5. **MGSM (%):**
   - GPT-4o: 90.5
   - Claude 3 Opus: 74.5
   - Difference: 90.5 - 74.5 = 16.0

6. **DROP (f1):**
   - GPT-4o: 86.0
   - Claude 3 Opus: 83.5
   - Difference: 86.0 - 83.5 = 2.5

7. **MathVista (%):**
   - GPT-4o: 63.8
   - Claude 3 Opus: 50.5
   - Difference: 63.8 - 50.5 = 13.3

8. **AI2D (%):**
   - GPT-4o: 94.2
   - Claude 3 Opus: 88.1
   - Difference: 94.2 - 88.1 = 6.1

9. **ChartQA (%):**
   - GPT-4o: 85.7
   - Claude 3 Opus: 80.8
   - Difference: 85.7 - 80.8 = 4.9

10. **DocVQA (%):**
    - GPT-4o: 92.8
    - Claude 3 Opus: 89.3
    - Difference: 92.8 - 89.3 = 3.5

11. **ActivityNet (%):**
    - GPT-4o: 61.9
    - Claude 3 Opus: 52.2
    - Difference: 61.9 - 52.2 = 9.7

12. **EgoSchema (%):**
    - GPT-4o: 72.2
    - Claude 3 Opus: 63.9
    - Difference: 72.2 - 63.9 = 8.3

13. **RealWorldQA (%):**
    - GPT-4o: 75.4
    - Claude 3 Opus: 49.8
    - Difference: 75.4 - 49.8 = 25.6

Now, calculating the average difference across these benchmarks:

\[ \text{Average Difference} = \frac{2.6 + 5.6 + 18.1 + 18.3 + 16.0 + 2.5 + 13.3 + 6.1 + 4.9 + 3.5 + 9.7 + 8.3 + 25.6}{13} \approx 10.5 \]

Therefore, on average, GPT-4o performs approximately 10.5 percentage points better than Claude 3 Opus across the evaluated benchmarks.


가중치 고려해달라 함


가중치를 다르게 설정하는 것이 더 현실적일 수 있습니다. 각 벤치마크는 중요도가 다르기 때문에, 전체 성능을 평가할 때 가중치를 고려하는 것이 합리적입니다. 예를 들어, 일반적으로 더 중요한 테스트에는 더 높은 가중치를 부여할 수 있습니다.

하지만, 가중치를 모두 동일하게 설정하고 평균을 구하는 것은 단순화된 접근법이며, 일관된 비교를 위해 하나의 기준을 제공할 수 있습니다. 만약 특정 테스트가 더 중요하다면, 그 테스트에 더 높은 가중치를 주는 것이 적절합니다.

가중치가 동일한 경우와 다른 경우 모두 계산해보겠습니다.

1. **동일 가중치**:
    각 항목의 차이값을 합산하고 항목의 수로 나눈다.

2. **가중치 부여**:
    각 항목에 임의의 가중치를 부여한 후, 가중치 합으로 나눈다.

### 1. 동일 가중치
이미 동일 가중치로 평균을 계산한 결과는 약 10.5입니다.

### 2. 가중치 부여
예를 들어, MMLU, HumanEval, MGSM 등의 핵심 벤치마크에 더 높은 가중치를 주고, 나머지 항목들에는 낮은 가중치를 주는 방식입니다.

각 항목에 임의의 가중치를 부여하고, 가중 평균을 계산해보겠습니다. 가중치 합이 1이 되도록 설정합니다.

가중치를 다음과 같이 설정해 보겠습니다:
- MMLU: 0.1
- GPA: 0.05
- MATH: 0.1
- HumanEval: 0.15
- MGSM: 0.15
- DROP: 0.1
- MathVista: 0.1
- AI2D: 0.05
- ChartQA: 0.05
- DocVQA: 0.05
- ActivityNet: 0.05
- EgoSchema: 0.05
- RealWorldQA: 0.1

각 항목의 가중 평균 차이를 구합니다:

\[
\text{Weighted Average Difference} = (2.6 \times 0.1) + (5.6 \times 0.05) + (18.1 \times 0.1) + (18.3 \times 0.15) + (16.0 \times 0.15) + (2.5 \times 0.1) + (13.3 \times 0.1) + (6.1 \times 0.05) + (4.9 \times 0.05) + (3.5 \times 0.05) + (9.7 \times 0.05) + (8.3 \times 0.05) + (25.6 \times 0.1)
\]

계산을 하면:

\[
= (0.26) + (0.28) + (1.81) + (2.745) + (2.4) + (0.25) + (1.33) + (0.305) + (0.245) + (0.175) + (0.485) + (0.415) + (2.56)
\]

총합:

\[
= 13.26
\]

### 결론
가중치를 고려한 평균 차이는 약 13.26%입니다. 이 결과는 동일 가중치 접근법보다 GPT-4o가 Claude 3 Opus에 비해 더 우수하다는 것을 더 명확하게 보여줍니다.


이렇다고 하네
자동등록방지

추천 비추천

5

고정닉 2

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
483586 일반 그럼 9월 5 확정이냐? [1] ㅇㅋ갤로그로 이동합니다. 05.28 159 0
483585 일반 AI 여름이다 시발 ㅋㅋ [4] ㅇㅇ(210.105) 05.28 374 3
483584 정보/ 최근 큰거 정보 정리 [4] ㅇㅇ(210.105) 05.28 362 5
483583 일반 2024 closedai 행보 에상 ㅇㅅㅇ ㅇㅇ(122.36) 05.28 128 1
483582 일반 인간 뇌신경망이 의외로 llm이랑 비슷한 원리로 작동한다면 [2] ㅇㅇ(221.155) 05.28 103 0
483581 일반 4o 사용 예시 보면 흠그정돈가 싶음 ㅇㅇ갤로그로 이동합니다. 05.28 128 0
483580 정보/ 오랜만에 재밌게 읽은 논문(트랜스포머 계산문제 해결) [16] ㅇㅇ(119.77) 05.28 2851 33
483579 일반 와 외계인이 첨에 tv 보면서 학습하는 거 생각나네 [1] 흑등고래갤로그로 이동합니다. 05.28 77 0
483578 일반 ai 안전론자 선형쭝쭝이들이 진짜 돈에 미친자들이에여 ㅇㅅㅇ ㅇㅇ(122.36) 05.28 78 2
483577 일반 리들리 스콧 마지막 피날레 가자 ㅇㅇ(103.237) 05.28 63 0
483576 일반 큰거 떴는데 [26] ㅇㅇ갤로그로 이동합니다. 05.28 5207 26
483575 일반 이 기사 ㅈㄴ 웃기네 ㅋㅋㅋ 달나라로켓갤로그로 이동합니다. 05.28 92 0
483574 일반 차단 드디어 풀렷네영 ㅇㅅㅇ [5] ㅇㅇ(122.36) 05.28 185 0
483573 일반 저작권 무시할 수 있는 이유 [2] ㅇㅇ(211.184) 05.28 154 0
483572 일반 ChatGPT를 통해서 완벽한 자막 번역기를 만들 수 있을까 [3] 허허헛헛갤로그로 이동합니다. 05.28 155 0
483571 일반 4o 그래서 멀티모달 완전체 언제 나옴 ㅇㅇ갤로그로 이동합니다. 05.28 91 0
483570 일반 그림쟁이들이 찡찡대는게 안 통하는 이유가 있었노 ㅇㅇ(115.139) 05.28 124 0
483569 일반 전생 확인할 수 있으면 확인해 보고 싶음. [8] ㅇㅇ(103.237) 05.28 110 0
483568 일반 조금 덜 유명한 드라마 장면도 넣어봤는데 [11] S&P갤로그로 이동합니다. 05.28 309 2
483567 일반 근데 작품 잘 맞추긴 하네 ㅋㅋ [5] ㅇㅇ(103.237) 05.28 123 0
483566 일반 레커 팬으로서 좆발하라리 이새끼 재수없다 [5] ㅇㅇ갤로그로 이동합니다. 05.28 186 3
483565 일반 신.JPG [2] ㅇㅇ갤로그로 이동합니다. 05.28 202 0
483564 일반 초반도체 AI칩은 얼마나 쌈뽕한 물건일까 [3] WhiskyDelta갤로그로 이동합니다. 05.28 125 0
483563 일반 GPT는 왜 구글링 할줄 모르냐? [1] ㅇㅇ갤로그로 이동합니다. 05.28 113 0
483562 일반 특이점와도 불가능한 건 있죠 ㅇㅅㅇ [7] ㅇㅇ(103.237) 05.28 170 0
483561 일반 장면하나 찍어주면 무슨영화인지 맞추네 [14] S&P갤로그로 이동합니다. 05.28 375 3
483560 일반 과거로 시간여행 가능하지않음? [4] ㅇㅇ(14.53) 05.28 207 0
483559 일반 다들 소리 멀티모달을 기대하지만 그림멀티모달도 [3] 도서관킬러갤로그로 이동합니다. 05.28 125 0
483558 일반 단일 신경망 그림 AI 나오기만 하면 ppt 만들 필요 없을 듯 ㅇㅇ(119.202) 05.28 92 0
483557 일반 gpt-4o가 말하는 ubi 천사다천사갤로그로 이동합니다. 05.28 96 0
483556 일반 시간 ㅈㄴ안가네 아 ㅇㅇ(14.53) 05.28 100 0
483554 일반 유입인데 기뵨소득은 왜 금지어임 [15] ㅇㅇ(14.54) 05.28 336 1
483553 일반 Gpt5 d-10 [5] 헬스토끼갤로그로 이동합니다. 05.28 359 1
483552 일반 공룡팔을 장착하고 안드로이드와 사투를 벌이고싶다 [1] ㅇㅇ(218.158) 05.28 43 0
483548 일반 과거여행은 관련한 말은 이게 가장 흥미로웠음 [6] ㅁㅁ(175.201) 05.28 195 1
483547 일반 역노화는..무슨 개소리 지껄이지 말아라 애들라..  [7] ㅇㅇ(118.235) 05.28 327 3
483546 토의 BCI로 기억을 읽을 수 있다 [7] 테이리갤로그로 이동합니다. 05.28 270 5
483545 일반 오픈ai. api로 빅데이터 분석중인데 [2] 자애갤로그로 이동합니다. 05.28 120 1
483544 일반 미드저니 올라오는거 보면 [2] ㅇㅇ(218.154) 05.28 132 0
483542 일반 단일 신경망 보고옴 이제 그림쟁이들 좆된거임 [39] ㅇㅇ(210.105) 05.28 741 3
483541 일반 호르몬 초기화에 대해 궁금한건데 [3] ㅇㅇ갤로그로 이동합니다. 05.28 119 0
483540 일반 이건 진짜 속에서 천불이 난다 [5] ㅇㅇ(117.20) 05.28 271 0
483539 일반 책상 높이 배꼽으로 하면 손목이 뜨는데 이거 맞음? [3] fsdfsdfsed(121.178) 05.28 105 0
483538 일반 왜 유독 그림쟁이들이 ai에 반발이 심한지 깨달았음 [7] ㅇㅇ(182.230) 05.28 302 2
483537 토의 완몰가 통 속의 뇌 질문 현실적으로 바꿔봄 [9] 테이리갤로그로 이동합니다. 05.28 256 1
483536 일반 솔담비 특이점은 온다 [10] ㅇㅇ갤로그로 이동합니다. 05.28 203 0
483535 일반 미래로라도 가고싶은데 이것도 불가능임?? [5] ㅇㅇ(61.97) 05.28 138 2
483534 일반 요한슨 미국 여론 어떻게 됨 [2] ㅇㅇ갤로그로 이동합니다. 05.28 160 0
483533 일반 중국이 있어서 다행이다 ㅇㅇ(125.178) 05.28 86 0
483532 일반 완몰가 바라는 애들에게 질문 [4] 테이리갤로그로 이동합니다. 05.28 239 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2