디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

오픈AI 신모델 o3-mini

초존도초갤로그로 이동합니다. 2025.02.01 23:30:02
조회 32111 추천 72 댓글 120



2025년 1월 31일


OpenAI o3-mini

비용 효율적인 추론의 한계를 넓히다.


OpenAI는 오늘 ChatGPT와 API에서 모두 사용 가능한 추론 시리즈의 최신 모델이자 가장 비용 효율적인 모델인 OpenAI o3-mini를 출시합니다. 2024년 12월에 미리 공개되었던 이 강력하고 빠른 모델은 소형 모델이 달성할 수 있는 범위를 확장하여, OpenAI o1-mini의 저렴한 비용과 낮은 지연 시간을 유지하면서도 탁월한 STEM(과학, 기술, 공학, 수학) 역량을 제공합니다. 특히 과학, 수학, 코딩 분야에서 뛰어난 강점을 보입니다.


OpenAI o3-mini는 함수 호출, 구조화된 출력, 개발자 메시지와 같이 개발자들이 가장 많이 요청했던 기능들을 최초로 지원하는 소형 추론 모델로, 출시와 동시에 바로 프로덕션 환경에 투입할 수 있습니다. OpenAI o1-mini 및 OpenAI o1-preview와 마찬가지로 o3-mini는 스트리밍을 지원합니다. 또한 개발자는 사용 사례에 맞춰 최적화할 수 있도록 낮음, 중간, 높음의 세 가지 추론 노력 옵션 중에서 선택할 수 있습니다. 이러한 유연성을 통해 o3-mini는 복잡한 문제에 도전할 때는 "더욱 심층적인 사고"를 할 수 있고, 지연 시간이 중요한 경우에는 속도를 우선시할 수 있습니다. o3-mini는 시각 기능을 지원하지 않으므로, 시각적 추론 작업에는 OpenAI o1을 계속 사용해야 합니다. o3-mini는 오늘부터 Chat Completions API, Assistants API, Batch API를 통해 API 사용량 티어 3-5에 해당하는 일부 개발자들에게 순차적으로 제공됩니다.


ChatGPT Plus, Team, Pro 사용자들은 오늘부터 OpenAI o3-mini를 이용할 수 있으며, Enterprise 액세스는 1주일 후에 제공될 예정입니다. o3-mini는 모델 선택기에서 OpenAI o1-mini를 대체하여 더 높은 속도 제한과 더 낮은 지연 시간을 제공하므로, 코딩, STEM, 논리적 문제 해결 작업에 매력적인 선택이 될 것입니다. 이번 업그레이드의 일환으로 Plus 및 Team 사용자의 속도 제한을 o1-mini 사용 시 하루 50 메시지에서 o3-mini 사용 시 하루 150 메시지로 세 배 늘립니다. 또한 o3-mini는 이제 검색 기능을 통해 관련 웹 소스 링크와 함께 최신 답변을 찾을 수 있습니다. 이는 모든 추론 모델에 검색 기능을 통합하기 위한 초기 프로토타입입니다.


오늘부터 무료 플랜 사용자도 메시지 작성기에서 '추론'을 선택하거나 응답을 다시 생성하여 OpenAI o3-mini를 사용해 볼 수 있습니다. 이는 ChatGPT 무료 사용자에게 추론 모델이 제공되는 최초의 사례입니다.


OpenAI o1이 여전히 더 폭넓은 일반 지식 추론 모델로 남아 있는 반면, OpenAI o3-mini는 정밀성과 속도를 요구하는 기술 분야를 위한 특화된 대안을 제공합니다. ChatGPT에서 o3-mini는 중간 수준의 추론 노력을 사용하여 속도와 정확성 사이의 균형 잡힌 절충점을 제공합니다. 모든 유료 사용자는 모델 선택기에서 o3-mini-high를 선택하여 응답 생성에 시간이 조금 더 걸리지만 더 높은 지능을 가진 버전을 사용할 수도 있습니다. Pro 사용자는 o3-mini와 o3-mini-high 모두 무제한으로 액세스할 수 있습니다.


빠르고 강력하며 STEM 추론에 최적화


OpenAI o3-mini는 이전 모델인 OpenAI o1과 유사하게 STEM 추론에 최적화되었습니다. 중간 수준의 추론 노력을 사용하는 o3-mini는 수학, 코딩, 과학 분야에서 o1과 동등한 성능을 제공하면서도 더 빠른 응답 속도를 자랑합니다. 전문가 테스터들의 평가에 따르면 o3-mini는 OpenAI o1-mini보다 더 정확하고 명확한 답변을 생성하며, 더 강력한 추론 능력을 보여줍니다. 테스터들은 o1-mini보다 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 심각한 오류가 39% 감소하는 것을 확인했습니다. 중간 수준의 추론 노력을 통해 o3-mini는 AIME 및 GPQA를 포함한 가장 까다로운 추론 및 지능 평가에서 o1과 동등한 성능을 보입니다.



경시대회 수학 (AIME 2024)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d454e467937d484b9fcef5d6e9ca84684ccbf37bf0b0b77


수학: 낮은 추론 노력을 사용하는 OpenAI o3-mini는 OpenAI o1-mini와 비슷한 성능을 보이며, 중간 수준의 노력을 사용하면 o3-mini는 o1과 비슷한 성능을 보입니다. 한편, 높은 추론 노력을 사용하면 o3-mini는 OpenAI o1-mini와 OpenAI o1 모두를 능가합니다.



박사 수준 과학 문제 (GPQA Diamond)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d444fe273a30b309a44d90f837b2b7c22b5ce6e7eefda9e



FrontierMath


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d47449ec679433528dd4955017f1297fb3b3f877a6c4a


연구 수준 수학: 높은 추론 노력을 사용하는 OpenAI o3-mini는 FrontierMath에서 이전 모델보다 더 나은 성능을 보입니다. FrontierMath에서 Python 도구를 사용하도록 요청받았을 때, 높은 추론 노력을 사용하는 o3-mini는 어려운 (T3) 문제의 28% 이상을 포함하여 문제의 32% 이상을 첫 번째 시도에 해결합니다.



경시대회 코딩 (Codeforces)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a244d44452f03d8676e549ded73e52c83e9a6023d0aee79cfd4


경시대회 코딩: OpenAI o3-mini는 추론 노력이 증가함에 따라 점진적으로 더 높은 Elo 점수를 달성하며, 모두 o1-mini를 능가합니다. 중간 수준의 추론 노력을 사용하면 o1과 동등한 성능을 보입니다.



소프트웨어 엔지니어링 (SWE-bench Verified)


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a244d47452cb71ddf65936209b37726315f40fc760e0015998c


소프트웨어 엔지니어링: o3-mini는 SWE-bench Verified에서 가장 뛰어난 성능을 보이는 모델입니다. 오픈 소스 Agentless 스캐폴드(39%) 및 내부 도구 스캐폴드(61%)를 포함하여 높은 추론 노력을 사용한 SWE-bench Verified 결과에 대한 추가 데이터 포인트는 시스템 카드에서 확인할 수 있습니다.



LiveBench 코딩


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d454d6d64561936c3883d6943f64e407413d4b85ab68a



인간 선호도 평가


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d464a406ee04c4208dbe05471fd7808a327bfe850c7c6

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d414879ea34a4bda428aa9c78a6a46913775fb255115ae3


인간 선호도 평가: 외부 전문가 테스터들의 평가에서도 OpenAI o3-mini가 OpenAI o1-mini보다 특히 STEM 분야에서 더 정확하고 명확한 답변을 생성하며, 더 강력한 추론 능력을 보여주는 것으로 나타났습니다. 테스터들은 o1-mini보다 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 심각한 오류가 39% 감소하는 것을 확인했습니다.



모델 속도 및 성능


OpenAI o1과 비슷한 지능을 가진 OpenAI o3-mini는 더 빠른 성능과 향상된 효율성을 제공합니다. 위에 강조된 STEM 평가 외에도 o3-mini는 중간 수준의 추론 노력을 통해 추가적인 수학 및 사실성 평가에서 뛰어난 결과를 보여줍니다. A/B 테스트에서 o3-mini는 o1-mini보다 24% 더 빠른 응답 속도를 보였으며, 평균 응답 시간은 10.16초에 비해 7.7초였습니다.



o1-mini와 o3-mini (중간) 간의 지연 시간 비교


7cf3c028e2f206a26d81f6ec44817565

7ff3c028e2f206a26d81f6e04086756f



안전성


OpenAI o3-mini가 안전하게 응답하도록 가르치는 데 사용된 주요 기술 중 하나는 심사숙고 정렬(deliberative alignment)입니다. 이는 모델이 사용자 프롬프트에 답변하기 전에 인간이 작성한 안전 사양에 대해 추론하도록 훈련시키는 것입니다. OpenAI o1과 마찬가지로 o3-mini는 까다로운 안전 및 탈옥 평가에서 GPT-4o를 훨씬 능가하는 것으로 나타났습니다. 배포 전에 o3-mini의 안전 위험을 o1과 동일한 준비성, 외부 레드팀 운영, 안전성 평가 접근 방식을 사용하여 신중하게 평가했습니다. 초기 액세스에서 o3-mini를 테스트하기 위해 지원해주신 안전 테스터들에게 감사드립니다. 잠재적 위험 및 완화 효과에 대한 포괄적인 설명과 함께 아래 평가에 대한 자세한 내용은 o3-mini 시스템 카드에서 확인할 수 있습니다.



금지된 콘텐츠 평가


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a264d404afb11d2290ebf98783dc6b1f9551e22a6c48f9e1d



탈옥 평가


1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a294d474f1a1977e2a201b33f9f99680e083705da94caa4a2



향후 계획


OpenAI o3-mini의 출시는 비용 효율적인 지능의 한계를 넓히려는 OpenAI의 미션에 또 다른 발걸음을 내딛는 것입니다. STEM 분야에 대한 추론을 최적화하면서 비용을 낮게 유지함으로써, 우리는 고품질 AI를 더욱 접근하기 쉽게 만들고 있습니다. 이 모델은 GPT-4 출시 이후 토큰당 가격을 95% 절감하면서도 최상위 수준의 추론 능력을 유지하는 등 지능 비용을 지속적으로 낮추는 우리의 행보를 이어갑니다. AI 도입이 확대됨에 따라, 우리는 지능, 효율성, 안전성 간의 균형을 맞춘 모델을 대규모로 구축하여 최전선에서 선도하기 위해 끊임없이 노력할 것입니다.




https://openai.com/index/openai-o3-mini/

 





출처: 특이점이 온다 갤러리 [원본 보기]

추천 비추천

72

고정닉 35

19

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 여행 같이 다니면 고난이 예상되는 스타는? 운영자 25/04/28 - -
공지 실시간베스트 갤러리 이용 안내 [3135/2] 운영자 21.11.18 11904735 541
327221
썸네일
[코갤] 중국 "미국 대화 메시지 평가 중"
ㅋㅋ.갤로그로 이동합니다. 14:05 74 2
327217
썸네일
[일갤] 먹고 온 것들 리뷰(스압)
[6]
SabreGDS갤로그로 이동합니다. 13:55 659 5
327215
썸네일
[이갤] 심슨 원작자가 좋아하는 한국음식
[75]
ㅇㅇ(93.152) 13:50 3209 37
327213
썸네일
[싱갤] 싱글벙글 멸치 남자가 살 찌는 과정.jpg
[113]
곰버거갤로그로 이동합니다. 13:45 23110 75
327211
썸네일
[중갤] 대법원 유죄 10:2가 이재명에 최악인 이유 앞으로 꼼수 예상
[199]
찢죄명(114.207) 13:40 9825 276
327209
썸네일
[잡갤] 임대 주택 중독자 남친 6년만에 이별했습니다…
[112]
갈베갤로그로 이동합니다. 13:35 5607 9
327207
썸네일
[새갤] 교황 빈소에서 행패 부린 전장연…천주교가 움직였다
[126]
ㅇㅇ갤로그로 이동합니다. 13:30 6356 111
327205
썸네일
[한갤] 머스크도 함께 한 회의서 나온 삼성...中 항복 예상한 트럼프
[47]
마스널갤로그로 이동합니다. 13:25 4023 21
327203
썸네일
[싱갤] 드라마 신병3 출연한 배우들의 실제 군 복무 병과 JPG
[96]
산책갤로그로 이동합니다. 13:20 6180 39
327201
썸네일
[백갤] 국비가 투입된 RIS사업 과장된 교육홍보 및 예산집행에 대한 감사요청 건
[119]
농약통백셰프갤로그로 이동합니다. 13:15 6733 200
327199
썸네일
[카연] 번데기학교 1화
[10]
카갤러(122.40) 13:10 1671 16
327197
썸네일
[싱갤] 싱글벙글 중국 탈출하는 짱깨들
[125]
ㅇㅇ갤로그로 이동합니다. 13:05 8674 67
327193
썸네일
[중갤] 가격이 올라간 엑박 근황....jpg
[97]
ㅇㅇ갤로그로 이동합니다. 12:55 8419 26
327191
썸네일
[이갤] “이게 예능감인가”…‘물어보살’, 싱크홀 유족 선 넘은 섭외
[180]
ㅇㅇ갤로그로 이동합니다. 12:50 8344 61
327189
썸네일
[잡갤] 훌쩍훌쩍… 결혼식에 부를 사람이 1명도 없어요
[160]
갈베갤로그로 이동합니다. 12:45 11098 18
327187
썸네일
[싱갤] 현타현타 상목촌
[341]
ㅇㅇ갤로그로 이동합니다. 12:40 14048 268
327185
썸네일
[새갤] "문다혜가 월급·체류비 정하자 靑특감반이 이상직에 전달"
[65]
물냉면비빔냉면갤로그로 이동합니다. 12:35 5942 80
327183
썸네일
[백갤] 더본코리아 ‘미인증 조리기구’, 서울·충남 축제에도 사용됐다
[84]
ㅎㅎ(211.36) 12:30 6433 87
327181
썸네일
[싱갤] ㅅㅂㅅㅂ 운전자 개빡치게 하는 커플 상황
[287]
길호철갤로그로 이동합니다. 12:25 20559 234
327179
썸네일
[중갤] 이재명 유죄에 ‘반대의견’ 41쪽…“법원 개입은 정치중립 해쳐”
[424]
아르테타갤로그로 이동합니다. 12:20 13605 121
327178
썸네일
[백갤] 백종원 더본코리아, 가맹점에 50억 푼다…'상생 지원...jpg
[107]
ㅎㅎ(211.36) 12:15 4745 31
327177
썸네일
[기갤] 한동훈 페북 <대부분의 범죄자들은>ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
[153]
ㅇㅇ갤로그로 이동합니다. 12:15 9004 156
327175
썸네일
[미갤] 한덕수 "제21대 대통령선거 출마…개헌 완료하면 내려오겠다"
[345]
윤통♡트통갤로그로 이동합니다. 12:10 10880 197
327171
썸네일
[싱갤] 백종원 논란 후 야심찬 첫 축제 춘향제 근황..
[242]
ㅇㅇ갤로그로 이동합니다. 12:00 26791 203
327170
썸네일
[야갤] 물어보살 친자불일치 이혼남...근황 ㄹㅇ...jpg
[291]
Adidas갤로그로 이동합니다. 11:55 34118 545
327168
썸네일
[바갤] 알나인티 기변바리 1일차(진주-서울-속초)
[32]
고려청자아님갤로그로 이동합니다. 11:50 2627 24
327167
썸네일
[야갤] 깜짝... 충주시 도시락 사건 근황...bento
[218]
칠삼칠삼갤로그로 이동합니다. 11:45 14437 213
327165
썸네일
[미갤] "예약한 유심 도착" 문자 눌렀다간 큰일
[71]
윤통♡트통갤로그로 이동합니다. 11:40 7998 41
327164
썸네일
[이갤] "번개탄 피웠다가"...30대 여성 구속, 전신화상 이웃은 끝내 사망
[355]
ㅇㅇ갤로그로 이동합니다. 11:35 12155 87
327162
썸네일
[싱갤] 훌쩍훌쩍 일본인들의 지독한 아재냄새와 암내
[221]
ㅇㅇ갤로그로 이동합니다. 11:30 17282 82
327161
썸네일
[대갤] 와(和)의 민족... 갓본은 지금 쌀 서리 열풍 중!!!
[177]
ㅇㅇ(222.236) 11:25 6642 76
327159
썸네일
[중갤] ‘대행의 대행의 대행` 이주호
[197]
00갤로그로 이동합니다. 11:20 8666 52
327158
썸네일
[무갤] 알바몬도 개인정보 2만2천건 털렸다
[129]
무갤러(59.28) 11:15 7710 78
327155
썸네일
[이갤] 딸이 20년 모은 3억원 월급 꿀꺽한 엄마
[253]
ㅇㅇ갤로그로 이동합니다. 11:05 17241 67
327153
썸네일
[중갤] (cbs단독) 신천지 당원 모집 영상에 '국민의힘 당직자' 출연
[183]
나무갤로그로 이동합니다. 11:00 9610 115
327152
썸네일
[던갤] 진짜 뉴비 던파 시작하는 만화(외전) 검신병자 특별편
[291]
백뚱뚱갤로그로 이동합니다. 10:55 16338 80
327150
썸네일
[싱갤] 싱글벙글 꼭 먹어보고 싶은 거
[136]
ㅇㅇ갤로그로 이동합니다. 10:50 13741 40
327149
썸네일
[새갤] [MBC] 혐오 거짓 궤변을 그대로...이것이 공정한 언론?
[295]
sssw갤로그로 이동합니다. 10:45 11701 453
327147
썸네일
[백갤] 골목식당 출연했던 이유
[111]
무한탐구(218.234) 10:40 14996 194
327146
썸네일
[싱갤] 최근 일본에서 뜨거운 논쟁인 문신있는 식당 주인
[483]
ㅇㅇ갤로그로 이동합니다. 10:35 21802 124
327145
썸네일
[S갤] skt 해킹 이후 번호인증으로 계정탈취당함 (장문)
[146]
좆게2갤로그로 이동합니다. 10:30 16975 164
327143
썸네일
[해갤] 유로파 준결승 1차전 토트넘 vs 보되 골 모음...gif
[125]
메호대전종결2갤로그로 이동합니다. 10:25 12072 292
327142
썸네일
[기갤] 충격.. 이재명 끝까지 찢어버린 한동훈 상황 ㄷㄷ..JPG
[530]
ㅇㅇ갤로그로 이동합니다. 10:20 25856 662
327139
썸네일
[싱갤] 싱글벙글 말년병장을 따라하는 특전사들
[115]
ㅇㅇ갤로그로 이동합니다. 10:10 17079 61
327138
썸네일
[필갤] 일본 자전거,자판기,우체통,etc.WEBP
[27]
LTD.갤로그로 이동합니다. 10:05 4897 19
327137
썸네일
[중갤] ‘5년 전 이재명 대법 판례’, 이번엔 힘 못 썼다
[390]
ㅇㅇ갤로그로 이동합니다. 10:00 15443 156
327135
썸네일
[싱갤] 싱글벙글 의외로 요즘 인터넷에 자주보이는 저능아들
[208]
한녀사랑꾼갤로그로 이동합니다. 09:50 36402 364
327133
썸네일
[야갤] 최상목 사의표명
[407]
지민트윈스갤로그로 이동합니다. 09:40 14986 131
327132
썸네일
[U갤] 태국에 다시 간 매미
[75]
U갤러(175.212) 09:30 13693 132
뉴스 [왓IS] 김종국, 62억 원에 논현동 고급 빌라 매입... 전액 현금 추정 디시트렌드 14:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2