디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 4o-mini 성능 비교

ㅇㅇ(58.224) 2024.07.19 16:10:17
조회 7479 추천 38 댓글 16
														

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737444ae19726dff2a3d0ab11ef7576ba740d31a022ca5


우선 동급은 Gemini 1.5 Flash, Claude3 Haiku 다고 보면 됨. 전반적인 답 퀄리티는 Flash에 아주 근소하게 앞섬.



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737444ad195b7fbabdb343a841b76028f6ddbe593794af

출력 속도가 4o mini가 나오기 전만해도 Gemini 1.5 Flash 혼자 Haiku, 4o 압살하고 있었는데 구글을 따돌린 걸 확인할 수 있음. 굳이 꾸역꾸역 아주 근소하게 이김. 이것만 봐도 OpenAI가 얼마나 구글이 앞서는 꼴을 못보는지 알 수 있는듯 ㅋㅋㅋㅋ



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737444ad19597ababdb343a841b76028f6dabc50344d02

이번에 가장 중요한 부분이 여기. 백만토큰당 달러가 과연 경쟁사들에 비해 4o mini가 얼마나 싼지가 앞으로 에이전트화 하는데 중요하기 때문임. 아시다시피 에이전트는 토큰을 많이 잡아먹고 내부 모델을 여럿 돌릴수록 지능이 높아지기 때문에 이 부분을 얼마나 깔끔하게 잘 처리하느냐가 미래 에이전트의 성능을 좌우함. 라마3 8b 짜리가 싸긴하지만 퀄리티 쪽에서 64라 신경쓰지 말자. 제미나이 1.5 flash가 0.5 달러인데 0.3 달러로 낮춤. 이걸 퍼센트로 치면 2/5, 40%를 개선한거지만 큰 차이를 벌렸다고 보기는 애매함.


중간 종합하면


  • 퀄리티 : mini 85 vs Flash 84. 1점 차이로 mini 승(..)
  • 스피드 : mini 166 vs Flash 165. 1점 차이로 mini 승(...)
  • 가격 : mini 0.3 vs Flash 0.5. 0.2$/1M tokens 차이로 mini 승



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737445a21915e19eb893693d8d64918c988a34c9e0d3a461

이번엔 퀄리티 - 스피드 차트임. 퀄리티는 전반적인 성능, 스피드는 초당 뱉는 토큰 수임. 즉 오른쪽 위로 갈수록 좋은 모델. 초록색 부분의 오른쪽 위 구석으로 갈수록 좋은 모델이란 뜻임.

4o-mini가 아주아주 근소하게 퀄, 스피드 양쪽에서 flash 이김.



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737442a919088d4be7dd50f0c8f71bbc41d632af02883fde

그럼 성능은 구체적으로 어떤가. 챗봇아레나는 아직 통계에 잡히지 않아서 위 두 벤치로 살펴봄. MMLU로 추론, 지식보면 4o-mini가 82%, gemini 1.5 flash가 79%임. 3% 차이 승. 코딩은 humanEval 벤치로 보긴하는데, 이 벤치는 요즘 오염이 심해서 훈련단계에서 간접학습한다는 이슈가 있음. 그래도 가장 유명한 코딩 벤치니까 보자. mini 87.2 flash 84.1. 3.1 차이 승



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737442af19187d476da19caf91dba03e19c1554937584d

그럼 치타는 정말 끝난 것인가. 아님. 컨텍스트창에서는 그야말로 모든 모델을 압살하고 계심. flash가 백만토큰, mini는 128k. 여기에 하사비스가 강조한 Astra 데모동영상 첨부함.


https://youtu.be/nXVvvRhiGjI?si=YkI3lqb0g2x0pctU

 



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737442ac192b0569e921462adaf89d0a7f1cfb13de8898c5


어차피 첨부해도 데모영상 안볼꺼니까 글로 써줌. 이렇게 폰 들고다니면서 수분간 자유롭게 이야기하고 묻고 답해주는 멀티모달 시연영상임. 포인트는 후반에 있음. 

Q: "어? 근데 나 안경 어디에 뒀는지 까먹음. 알려줘" 

Astra: "그거 방금 책상위 사과 옆에 있었음"

이제 얘네들은 동영상 내에서 컨텍스트창을 어마어마하게 늘리고 있음. 하사비스는 얼마전 인터뷰에서 조만간 1,2시간 영화 전체도 컨텍스트 창으로 집어넣을거라고 함.



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737443ab19357fc4ca01af486dc5d3f674647bce459c0857

y축은 성능, x축은 컨텍스트창임. 오른쪽 위로갈수록 좋음. 플래시는 가운데쯤 백만토큰, 83.9에 있고 4o-mini는 잘 안보일까봐 커서로 올려서 캡쳐함. 왼쪽에 짱박혀있음. 128k, 85.3임. 성능은 근소하게 앞서는데 컨텍스트창에서 상대가 안됨.



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4707446a8195818686d69f4d7bb2413b6702009ff0694d83b


그럼 컨텍스트를 더 길게 뽑으면 되는거 아니냐? 할 수 있겠는데 버클리, 스탠포드, 사마야 ai가 합작한 작년 7월 논문에 따르면 단순히 길게 뽑다간 성능저하 일어날 수 있다고 함. 그래서 요즘은 이쪽 경쟁이 그닥 치열하지 않은 것. 그래도 하사비스는 자신있게 밀고 가고 있음. OAI는 아직 128k면 충분하다고 판단하는 것 같음.



ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737443a81955fc79f59418a666d47d126b7abac0add7b4


이 차트가 가장 중요한 부분. 성능-가격이고 초록색부분, 그중에서도 왼쪽 위로 갈수록 좋은 모델이라고 보면됨. 초록색 부분의 왼쪽아래에 뭉쳐있는 3개 보이지. 검은색, 초록색, 파란색. 그게 경량화 3형제임. 4o-mini, 1.5 Flash, 라마3 70b. 얘들은 얘들끼리 경쟁함. 아주아주 근소하게 앞선 정도.


저기 위에 검은색 점이 4o, 갈색 점이 3.5 소넷, 초록색 점이 Gemini 1.5 프로임. 얘들은 얘들끼리 경쟁함. 성능은 4o가 제일 앞서고 있는데 가격이 좀 비싸서 오른쪽으로 밀려있는 상태임.


결과적으로 정리하면

  • 4o-mini는 flash를 아주아주 근소하게 이겼기 때문에 뭐죠? flash가 더 나은데요 하는 논란은 계속 있을 예정
  • flash 0.5$/백만토큰 -> mini 0.3$/백만토큰
  • 컨텍스트창에서는 구글이 앞섬
  • 경량화는 경량화끼리. 본 게임은 본 게임끼리 따로 경쟁함
  • 다음주 나올 라마3 400b가 본 게임에 새로 뛰어들거임



자동등록방지

추천 비추천

38

고정닉 19

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
3004 설문 소속 연예인 논란에 잘 대응하지 못하는 것 같은 소속사는? 운영자 25/04/21 - -
571617 공지 뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250308) ㅇㅇ갤로그로 이동합니다. 24.11.23 31085 42
609935 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [5] ㅇㅇ갤로그로 이동합니다. 25.01.18 12510 27
571620 공지 본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다. ㅇㅇ갤로그로 이동합니다. 24.11.23 5352 15
572292 공지 직업 비하, 조롱 글 30일 차단됩니다. ㅇㅇ갤로그로 이동합니다. 24.11.24 4657 6
710157 일반 바이브코딩 해볼라는데 아이디어좀... 코막힘갤로그로 이동합니다. 10:42 2 0
710156 일반 딴거보다 일본어 번역은 진짜 특이점 온거같긴 함 ㅇㅇ ㅇㅇ(125.137) 10:42 12 1
710155 일반 구글 신모델 곧 같긴한데 [1] ㅇㅇ(121.178) 10:40 27 1
710154 일반 데미스 하사비스가 요새 하는 게임 [3] ㅇㅇ(121.178) 10:33 98 2
710153 일반 특이점 오면 부작용 없는 정신과 약 나올까 Kalz☆갤로그로 이동합니다. 10:33 16 0
710152 일반 4o가 럭키 심심이가 아닌이유ㄹㅇ [1] ㅇㅇ갤로그로 이동합니다. 10:31 44 0
710151 일반 좀 마이너한 일본영화나 미국영화같은거 영어나 일본어 자막 번역해서보려면 [1] ㅇㅇ(125.137) 10:30 18 0
710150 일반 gemini 2.5로 오디오 텍스트 받아쓰기 하려면 뭐 어떻게해야함? ㅇㅇ(125.137) 10:29 19 0
710149 정보/ [다시보기] 일리야 수츠케버(SSI) 최근 타임라인 [3] ㅇㅇ(121.178) 10:27 88 3
710148 일반 o3는 멍청하거나 쓸 줄 모르면, 제대로 이용을 못한다는 느낌일까? [2] ㅇㅇ(125.241) 10:27 94 1
710147 정보/ 후지쯔·리켄, 256큐비트 초전도 양자컴퓨터 공개 ㅇㅇ­갤로그로 이동합니다. 10:24 24 3
710146 일반 ai로 인한 자유의 보급 기원 2일차 유동에거(122.44) 10:22 9 0
710145 일반 제미니가 제일 기억력 좋은거 같음 [2] ㅇㅇ(116.212) 10:19 43 0
710144 일반 [속보]中, 소금 배터리 충격, 드릴로 뚫거나 전기톱으로 잘라도 불 안 [8] ㅇㅇ(182.211) 10:11 195 2
710143 일반 아레나 구글 모델들 무슨 뜻일까? ㅇㅇ(122.36) 10:08 51 0
710142 일반 나만 Veo2가 소라(Sora)보다 영상 퀄 떨어짐? ㅇㅇ갤로그로 이동합니다. 09:57 66 0
710141 일반 내인생에 가장 큰 영향력을 준 두가지 패러다임 [3] ㅇㅇ갤로그로 이동합니다. 09:53 249 2
710140 일반 난 컴터에 인공지능 설치하는게 악성코드 설치하는거 같아서 [5] <:)~갤로그로 이동합니다. 09:46 189 0
710139 일반 근데 4o같은 가성비 모델들 성능 좋아지는건 매우 긍정적임 ㅇㅇ(124.146) 09:46 87 1
710138 일반 알트만 4o가 너무 예스맨이라는 지적에 고치겠다 방울이갤로그로 이동합니다. 09:44 183 0
710137 일반 원래 Browser Use mcp가 api사용량 많음?? (ㅈ됌) [6] ailover갤로그로 이동합니다. 09:43 120 0
710136 일반 gpt4o 만 계속 업데이트하는 이유가 뭐임? [1] chatgpt4o갤로그로 이동합니다. 09:38 184 0
710135 일반 챗gpt 그림 이런거 할 때 너무 좋다 [2] 방울이갤로그로 이동합니다. 09:34 237 1
710134 일반 GPT 4o가 현시점 1황인 이유 근거있음 [6] ㅇㅇ(59.23) 09:28 360 2
710133 일반 젬마의 콩쿨리쉬 발음 봐라 [2] ㅇㅇ(112.161) 09:27 136 0
710132 일반 최고의 항노화는 운동과 식단이네 [9] ㅇㅇ(183.101) 09:19 227 0
710131 일반 밑에 아니메 글 보고 바로 젬황한테 그리게 해봄 [3] ㅇㅇ(125.140) 09:17 187 0
710130 일반 GPT 아니메 이미지도 엄청 잘그리네 [3] 비오는날의개구리갤로그로 이동합니다. 09:12 302 1
710129 일반 갤럭시에 추가된 제미나이 2.0 플래시네? [4] ㅇㅇ갤로그로 이동합니다. 09:01 227 0
710128 정보/ lmarena에 등장한 새로운 구글 모델 "sunstrike" [3] 초존도초갤로그로 이동합니다. 09:00 429 6
710127 일반 이 정도면 4o가 gpt5 아닌가 [2] ㅇㅇ(222.107) 08:57 294 0
710126 일반 ais 보니까 잼민이 RLHF하는 것 같더라 [1] ㅇㅇ(125.247) 08:55 128 0
710125 일반 Oai = 4O깎는장인 [2] ㅇㅇ갤로그로 이동합니다. 08:52 334 1
710124 정보/ 알트만 "GPT-4o를 업데이트했습니다!" [6] 초존도초갤로그로 이동합니다. 08:51 819 15
710123 정보/ 샘 알트만은 GPT-4o의 성능을 향상시켰다고 알림 티바트바트갤로그로 이동합니다. 08:50 272 6
710122 일반 구글이 시장 장악할 수 있는 아이디어가 떠오름 [6] ㅇㅇ갤로그로 이동합니다. 08:49 196 1
710121 일반 O3 환각 왜 이러냐 [3] ㅇㅇ(220.65) 08:40 200 0
710120 일반 4.5도 수납했네 [1] ㅇㅇ(114.205) 08:37 198 0
710119 일반 챗지피티 3번째 버턴 뭔가요? 천재(59.4) 08:33 88 0
710117 일반 근데 2.5 프로 가격이 말이 되나 [4] ㅇㅇ갤로그로 이동합니다. 08:21 364 0
710116 일반 제미니 자꾸 현 대통령 바이든이라고 할때마다 개패고 싶네 ㅋㅋ [2] ㅇㅇ(211.62) 08:10 206 3
710115 일반 Ais 사용자 늘어난 거 걱정이긴하네 [2] ㅇㅇ(218.152) 08:03 255 0
710114 일반 Openai 영주권못받은개발자 중국인이네 [5] 탈조선갤로그로 이동합니다. 08:00 323 2
710113 일반 갤럭시 이용자중 AI어시스턴트 GPT로 이용가능 [1] ㅇㅇ(1.240) 07:47 310 4
710112 일반 환각 더 심한걸 내놓고 3시간씩 안쓰면 뒤떨어진다는 좀 [2] ㅇㅇ갤로그로 이동합니다. 07:46 229 4
710111 일반 알트만, o3를 매일 3시간씩 쓰지 않으면 힘들 것 [9] 방울이갤로그로 이동합니다. 07:30 683 3
710110 일반 Gpt 이성하고 심층 리서치랑 뭔 차이야? [1] ㅇㅇ(112.156) 07:14 80 0
710109 일반 법률 ai에 대한 챗지피티의 대답 ㅇㅇ(124.49) 07:03 123 0
710108 일반 이새끼 이런말도 하네 [2] ㅇㅇ(58.29) 06:37 467 1
710107 일반 내 사용 용도에 따른 ai 추천좀 [6] ㅇㅇ갤로그로 이동합니다. 06:37 174 0
뉴스 한가인, 청순 던지고 힙걸 변신…“별걸 다 해봐” 디시트렌드 04.25
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2