4o-mini 성능 비교 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

" Don't Die "

매니저

sama(prince2317)

부매니저

퐁칸8(zxvw157) かみ(thank346…) VPN차단용(near1254) 카러닐(fasten97…) 디비휴(runny783…) DNA(hexase1) Asi(worship5…) et(evgz6v8f…)

개설일

2019-08-01

[일반] 4o-mini 성능 비교

ㅇㅇ(58.224) 2024.07.19 16:10:17

조회 7479 추천 38 댓글 16

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737444ae19726dff2a3d0ab11ef7576ba740d31a022ca5

우선 동급은 Gemini 1.5 Flash, Claude3 Haiku 다고 보면 됨. 전반적인 답 퀄리티는 Flash에 아주 근소하게 앞섬.

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737444ad195b7fbabdb343a841b76028f6ddbe593794af

출력 속도가 4o mini가 나오기 전만해도 Gemini 1.5 Flash 혼자 Haiku, 4o 압살하고 있었는데 구글을 따돌린 걸 확인할 수 있음. 굳이 꾸역꾸역 아주 근소하게 이김. 이것만 봐도 OpenAI가 얼마나 구글이 앞서는 꼴을 못보는지 알 수 있는듯 ㅋㅋㅋㅋ

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737444ad19597ababdb343a841b76028f6dabc50344d02

이번에 가장 중요한 부분이 여기. 백만토큰당 달러가 과연 경쟁사들에 비해 4o mini가 얼마나 싼지가 앞으로 에이전트화 하는데 중요하기 때문임. 아시다시피 에이전트는 토큰을 많이 잡아먹고 내부 모델을 여럿 돌릴수록 지능이 높아지기 때문에 이 부분을 얼마나 깔끔하게 잘 처리하느냐가 미래 에이전트의 성능을 좌우함. 라마3 8b 짜리가 싸긴하지만 퀄리티 쪽에서 64라 신경쓰지 말자. 제미나이 1.5 flash가 0.5 달러인데 0.3 달러로 낮춤. 이걸 퍼센트로 치면 2/5, 40%를 개선한거지만 큰 차이를 벌렸다고 보기는 애매함.

중간 종합하면

퀄리티 : mini 85 vs Flash 84. 1점 차이로 mini 승(..)
스피드 : mini 166 vs Flash 165. 1점 차이로 mini 승(...)
가격 : mini 0.3 vs Flash 0.5. 0.2$/1M tokens 차이로 mini 승

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737445a21915e19eb893693d8d64918c988a34c9e0d3a461

이번엔 퀄리티 - 스피드 차트임. 퀄리티는 전반적인 성능, 스피드는 초당 뱉는 토큰 수임. 즉 오른쪽 위로 갈수록 좋은 모델. 초록색 부분의 오른쪽 위 구석으로 갈수록 좋은 모델이란 뜻임.

4o-mini가 아주아주 근소하게 퀄, 스피드 양쪽에서 flash 이김.

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737442a919088d4be7dd50f0c8f71bbc41d632af02883fde

그럼 성능은 구체적으로 어떤가. 챗봇아레나는 아직 통계에 잡히지 않아서 위 두 벤치로 살펴봄. MMLU로 추론, 지식보면 4o-mini가 82%, gemini 1.5 flash가 79%임. 3% 차이 승. 코딩은 humanEval 벤치로 보긴하는데, 이 벤치는 요즘 오염이 심해서 훈련단계에서 간접학습한다는 이슈가 있음. 그래도 가장 유명한 코딩 벤치니까 보자. mini 87.2 flash 84.1. 3.1 차이 승

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737442af19187d476da19caf91dba03e19c1554937584d

그럼 치타는 정말 끝난 것인가. 아님. 컨텍스트창에서는 그야말로 모든 모델을 압살하고 계심. flash가 백만토큰, mini는 128k. 여기에 하사비스가 강조한 Astra 데모동영상 첨부함.

https://youtu.be/nXVvvRhiGjI?si=YkI3lqb0g2x0pctU

Project Astra: Our vision for the future of AI assistants

Introducing Project Astra. We created a demo in which a tester interacts with a prototype of AI agents supported by our multimodal foundation model, Gemini. ...

youtu.be

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737442ac192b0569e921462adaf89d0a7f1cfb13de8898c5

어차피 첨부해도 데모영상 안볼꺼니까 글로 써줌. 이렇게 폰 들고다니면서 수분간 자유롭게 이야기하고 묻고 답해주는 멀티모달 시연영상임. 포인트는 후반에 있음.

Q: "어? 근데 나 안경 어디에 뒀는지 까먹음. 알려줘"

Astra: "그거 방금 책상위 사과 옆에 있었음"

이제 얘네들은 동영상 내에서 컨텍스트창을 어마어마하게 늘리고 있음. 하사비스는 얼마전 인터뷰에서 조만간 1,2시간 영화 전체도 컨텍스트 창으로 집어넣을거라고 함.

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737443ab19357fc4ca01af486dc5d3f674647bce459c0857

y축은 성능, x축은 컨텍스트창임. 오른쪽 위로갈수록 좋음. 플래시는 가운데쯤 백만토큰, 83.9에 있고 4o-mini는 잘 안보일까봐 커서로 올려서 캡쳐함. 왼쪽에 짱박혀있음. 128k, 85.3임. 성능은 근소하게 앞서는데 컨텍스트창에서 상대가 안됨.

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4707446a8195818686d69f4d7bb2413b6702009ff0694d83b

그럼 컨텍스트를 더 길게 뽑으면 되는거 아니냐? 할 수 있겠는데 버클리, 스탠포드, 사마야 ai가 합작한 작년 7월 논문에 따르면 단순히 길게 뽑다간 성능저하 일어날 수 있다고 함. 그래서 요즘은 이쪽 경쟁이 그닥 치열하지 않은 것. 그래도 하사비스는 자신있게 밀고 가고 있음. OAI는 아직 128k면 충분하다고 판단하는 것 같음.

ac5939a70001b942813e33669735c1bcc2a977c21c773585f0dabed5e42e074dc2d2542d4ea3fd28c1a1c4737443a81955fc79f59418a666d47d126b7abac0add7b4

이 차트가 가장 중요한 부분. 성능-가격이고 초록색부분, 그중에서도 왼쪽 위로 갈수록 좋은 모델이라고 보면됨. 초록색 부분의 왼쪽아래에 뭉쳐있는 3개 보이지. 검은색, 초록색, 파란색. 그게 경량화 3형제임. 4o-mini, 1.5 Flash, 라마3 70b. 얘들은 얘들끼리 경쟁함. 아주아주 근소하게 앞선 정도.

저기 위에 검은색 점이 4o, 갈색 점이 3.5 소넷, 초록색 점이 Gemini 1.5 프로임. 얘들은 얘들끼리 경쟁함. 성능은 4o가 제일 앞서고 있는데 가격이 좀 비싸서 오른쪽으로 밀려있는 상태임.

결과적으로 정리하면

4o-mini는 flash를 아주아주 근소하게 이겼기 때문에 뭐죠? flash가 더 나은데요 하는 논란은 계속 있을 예정
flash 0.5$/백만토큰 -> mini 0.3$/백만토큰
컨텍스트창에서는 구글이 앞섬
경량화는 경량화끼리. 본 게임은 본 게임끼리 따로 경쟁함
다음주 나올 라마3 400b가 본 게임에 새로 뛰어들거임

고정닉 19

원본 첨부파일 10본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
3004	설문	소속 연예인 논란에 잘 대응하지 못하는 것 같은 소속사는?	운영자	25/04/21	-	-
571617	공지	뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250308)	ㅇㅇ	24.11.23	31085	42
609935	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [5]	ㅇㅇ	25.01.18	12510	27
571620	공지	본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다.	ㅇㅇ	24.11.23	5352	15
572292	공지	직업 비하, 조롱 글 30일 차단됩니다.	ㅇㅇ	24.11.24	4657	6
710157	일반	바이브코딩 해볼라는데 아이디어좀...	코막힘	10:42	2	0
710156	일반	딴거보다 일본어 번역은 진짜 특이점 온거같긴 함 ㅇㅇ	ㅇㅇ(125.137)	10:42	12	1
710155	일반	구글 신모델 곧 같긴한데 [1]	ㅇㅇ(121.178)	10:40	27	1
710154	일반	데미스 하사비스가 요새 하는 게임 [3]	ㅇㅇ(121.178)	10:33	98	2
710153	일반	특이점 오면 부작용 없는 정신과 약 나올까	Kalz☆	10:33	16	0
710152	일반	4o가 럭키 심심이가 아닌이유ㄹㅇ [1]	ㅇㅇ	10:31	44	0
710151	일반	좀 마이너한 일본영화나 미국영화같은거 영어나 일본어 자막 번역해서보려면 [1]	ㅇㅇ(125.137)	10:30	18	0
710150	일반	gemini 2.5로 오디오 텍스트 받아쓰기 하려면 뭐 어떻게해야함?	ㅇㅇ(125.137)	10:29	19	0
710149	정보/ 정보/뉴스	[다시보기] 일리야 수츠케버(SSI) 최근 타임라인 [3]	ㅇㅇ(121.178)	10:27	88	3
710148	일반	o3는 멍청하거나 쓸 줄 모르면, 제대로 이용을 못한다는 느낌일까? [2]	ㅇㅇ(125.241)	10:27	94	1
710147	정보/ 정보/뉴스	후지쯔·리켄, 256큐비트 초전도 양자컴퓨터 공개	ㅇㅇ	10:24	24	3
710146	일반	ai로 인한 자유의 보급 기원 2일차	유동에거(122.44)	10:22	9	0
710145	일반	제미니가 제일 기억력 좋은거 같음 [2]	ㅇㅇ(116.212)	10:19	43	0
710144	일반	[속보]中, 소금 배터리 충격, 드릴로 뚫거나 전기톱으로 잘라도 불 안 [8]	ㅇㅇ(182.211)	10:11	195	2
710143	일반	아레나 구글 모델들 무슨 뜻일까?	ㅇㅇ(122.36)	10:08	51	0
710142	일반	나만 Veo2가 소라(Sora)보다 영상 퀄 떨어짐?	ㅇㅇ	09:57	66	0
710141	일반	내인생에 가장 큰 영향력을 준 두가지 패러다임 [3]	ㅇㅇ	09:53	249	2
710140	일반	난 컴터에 인공지능 설치하는게 악성코드 설치하는거 같아서 [5]	<:)~	09:46	189	0
710139	일반	근데 4o같은 가성비 모델들 성능 좋아지는건 매우 긍정적임	ㅇㅇ(124.146)	09:46	87	1
710138	일반	알트만 4o가 너무 예스맨이라는 지적에 고치겠다	방울이	09:44	183	0
710137	일반	원래 Browser Use mcp가 api사용량 많음?? (ㅈ됌) [6]	ailover	09:43	120	0
710136	일반	gpt4o 만 계속 업데이트하는 이유가 뭐임? [1]	chatgpt4o	09:38	184	0
710135	일반	챗gpt 그림 이런거 할 때 너무 좋다 [2]	방울이	09:34	237	1
710134	일반	GPT 4o가 현시점 1황인 이유 근거있음 [6]	ㅇㅇ(59.23)	09:28	360	2
710133	일반	젬마의 콩쿨리쉬 발음 봐라 [2]	ㅇㅇ(112.161)	09:27	136	0
710132	일반	최고의 항노화는 운동과 식단이네 [9]	ㅇㅇ(183.101)	09:19	227	0
710131	일반	밑에 아니메 글 보고 바로 젬황한테 그리게 해봄 [3]	ㅇㅇ(125.140)	09:17	187	0
710130	일반	GPT 아니메 이미지도 엄청 잘그리네 [3]	비오는날의개구리	09:12	302	1
710129	일반	갤럭시에 추가된 제미나이 2.0 플래시네? [4]	ㅇㅇ	09:01	227	0
710128	정보/ 정보/뉴스	lmarena에 등장한 새로운 구글 모델 "sunstrike" [3]	초존도초	09:00	429	6
710127	일반	이 정도면 4o가 gpt5 아닌가 [2]	ㅇㅇ(222.107)	08:57	294	0
710126	일반	ais 보니까 잼민이 RLHF하는 것 같더라 [1]	ㅇㅇ(125.247)	08:55	128	0
710125	일반	Oai = 4O깎는장인 [2]	ㅇㅇ	08:52	334	1
710124	정보/ 정보/뉴스	알트만 "GPT-4o를 업데이트했습니다!" [6]	초존도초	08:51	819	15
710123	정보/ 정보/뉴스	샘 알트만은 GPT-4o의 성능을 향상시켰다고 알림	티바트바트	08:50	272	6
710122	일반	구글이 시장 장악할 수 있는 아이디어가 떠오름 [6]	ㅇㅇ	08:49	196	1
710121	일반	O3 환각 왜 이러냐 [3]	ㅇㅇ(220.65)	08:40	200	0
710120	일반	4.5도 수납했네 [1]	ㅇㅇ(114.205)	08:37	198	0
710119	일반	챗지피티 3번째 버턴 뭔가요?	천재(59.4)	08:33	88	0
710117	일반	근데 2.5 프로 가격이 말이 되나 [4]	ㅇㅇ	08:21	364	0
710116	일반	제미니 자꾸 현 대통령 바이든이라고 할때마다 개패고 싶네 ㅋㅋ [2]	ㅇㅇ(211.62)	08:10	206	3
710115	일반	Ais 사용자 늘어난 거 걱정이긴하네 [2]	ㅇㅇ(218.152)	08:03	255	0
710114	일반	Openai 영주권못받은개발자 중국인이네 [5]	탈조선	08:00	323	2
710113	일반	갤럭시 이용자중 AI어시스턴트 GPT로 이용가능 [1]	ㅇㅇ(1.240)	07:47	310	4
710112	일반	환각 더 심한걸 내놓고 3시간씩 안쓰면 뒤떨어진다는 좀 [2]	ㅇㅇ	07:46	229	4
710111	일반	알트만, o3를 매일 3시간씩 쓰지 않으면 힘들 것 [9]	방울이	07:30	683	3
710110	일반	Gpt 이성하고 심층 리서치랑 뭔 차이야? [1]	ㅇㅇ(112.156)	07:14	80	0
710109	일반	법률 ai에 대한 챗지피티의 대답	ㅇㅇ(124.49)	07:03	123	0
710108	일반	이새끼 이런말도 하네 [2]	ㅇㅇ(58.29)	06:37	467	1
710107	일반	내 사용 용도에 따른 ai 추천좀 [6]	ㅇㅇ	06:37	174	0
	뉴스	한가인, 청순 던지고 힙걸 변신…“별걸 다 해봐”	디시트렌드	04.25