디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] (공식) OpenAI o3, o4-mini 소개

구름냥이갤로그로 이동합니다. 2025.04.17 02:38:45
조회 1416 추천 14 댓글 1
														

Introducing OpenAI
o3 and o4-mini


완전한 도구 접근성을 가진 가장 똑똑하고 유능한 모델



24b0d121e09c28a8699fe8b115ef046f5f4c999b





오늘, OpenAI는 o3 및 o4-mini 모델을 출시했습니다. 이는 o-시리즈의  최신 모델로, 응답 전에 

더 오랜 시간 사고할 수 있도록 훈련된 모델입니다.  지금까지 공개된 모델 중 가장 뛰어난

 성능을 자랑하며, 호기심 많은 사용자부터  고급 연구자에 이르기까지 모두를 위한 ChatGPT

의 역량에 큰 도약을 가져왔습니다.     



이제 처음으로, 우리의 추론 모델은 ChatGPT 내의 모든 도구를 능동적으로  활용하고 조합할 

수 있습니다. 여기에는 웹 검색, 업로드된 파일 분석,  Python을 통한 데이터 처리, 시각적 입

력에 대한 깊은 추론, 이미지 생성 등이  포함됩니다. 중요한 점은 이 모델들이 언제, 어떻

게 도구를 사용할지를 스스로  판단하고, 복잡한 문제를 해결하기 위해 신속하고 적절한 

형식의 상세하고  깊이 있는 답변을 생성하도록 훈련되었다는 것입니다.




달라진 점


OpenAI o3는 지금까지 출시된 모델 중 가장 강력한 추론 능력을 갖춘 모델입니다.

코딩, 수학, 과학, 시각 인식 등 다양한 분야에서 최첨단 성능을 발휘하며, Codeforces,

SWE-bench(모델 전용 구조 없이), MMMU 등 여러 벤치마크에서 새로운 기준을 세웠습니다.

복합적인 분석이 필요한 질문이나 정답이 바로 드러나지 않는 문제에 특히 적합하며,

이미지, 차트, 그래픽 분석 등 시각적 작업에서 매우 우수한 성능을 보여줍니다.


외부 전문가 평가에 따르면, o3는 복잡한 실제 과제에서 이전 모델(o1)보다

주요 오류를 20% 더 적게 발생시켰으며, 특히 프로그래밍, 비즈니스/컨설팅,

창의적인 아이디어 도출 같은 분야에서 뛰어난 성능을 보였습니다.

초기 테스터들은 o3의 분석적 사고력과 새로운 가설을 생성하고

비판적으로 검토하는 능력을 높이 평가했으며, 특히 생물학, 수학,

공학 분야에서 유용한 사고 파트너로서의 역할을 강조했습니다.


o4-mini는 더 작고 빠르며, 비용 효율적인 추론을 목표로 최적화된 모델입니다.

특히 수학, 코딩, 시각적 작업에서 뛰어난 성능을 보여주며, 작은 크기와 낮은 비용에도

불구하고 매우 인상적인 결과를 냅니다. AIME 2024와 2025 대회 기준에서 새로운

최고 성과를 달성했으며, 전문가 평가에서도 이전 세대인 o3-mini보다 더 나은

성능을 보였습니다. 이는 비STEM 분야와 데이터 과학 같은 영역에서도 마찬가지입니다.


높은 처리 효율 덕분에 o4-mini는 o3보다 훨씬 많은 사용량을 지원할 수 있어,

고처리량이 필요한 질문이나 대규모 환경에서 매우 적합한 선택지가 됩니다.


외부 전문가 평가자들은 이 두 모델이 이전 세대보다 지시를 더 잘 따르며,

더 유용하고 검증 가능한 응답을 생성한다고 평가했습니다. 향상된 지능과

웹 정보 활용 능력 덕분에, 이전 세대의 추론 모델에 비해 대화도 더 자연스럽고

사람과의 대화처럼 느껴지며, 메모리와 과거 대화 기록을 참조해

응답을 더 개인화하고 상황에 맞게 조정할 수 있습니다.



24b0d121e09c28a8699fe8b115ef046ec84ac8fe


24b0d121e09c28a8699fe8b115ef046ec241c9f3


24b0d121e09c28a8699fe8b115ef046eca4cccf2

24b0d121e09c28a8699fe8b115ef04699d3ef3bf



24b0d121e09c28a8699fe8b115ef046ecf48c2ff

24b0d121e09c28a8699fe8b115ef0468e3aaefbc

24b0d121e09c28a8699fe8b115ef046ec840cef5


모든 모델은 ChatGPT의 'o4-mini-high'와 같은 변형과 유사하게 높은 'reasoning 노력' 설정에서 평가됩니다.




강화 학습 확장 지속


OpenAI o3의 개발 전반에 걸쳐, 우리는 대규모 강화 학습에서도GPT 시리즈 사전학습에서 나타

났던 것과 동일한“더 많은 연산 = 더 나은 성능” 경향이 그대로 유지된다는 것을 관찰했습니다.


이번에는 강화 학습(RL)의 스케일링 경로를 다시 따라가며,훈련 시 연산량과 추론 시간 동

안의 사고 능력을한 차원 더 확장했음에도 불구하고,명확한 성능 향상이 계속 나타났습니다.


이는 모델이 더 오래 생각할수록성능이 지속적으로 향상된다는 점을 확인시켜줍니다. OpenAI

 o1과 동일한 지연 시간과 비용 조건에서, o3는 ChatGPT 내에서 더 나은 성능을 보여주며,더 긴 

사고 시간을 허용하면 성능이 계속 향상됨을 검증했습니다.


또한 두 모델 모두 강화 학습을 통해 도구 사용 능력을 훈련했습니다.

단순히 도구를 어떻게 사용하는지만 학습한 것이 아니라,

언제 사용하는 것이 적절한지에 대한 추론 능력까지 학습시킨 것입니다.


원하는 결과에 따라 도구를 유연하게 사용할 수 있는 능력은

특히 시각적 추론이나 다단계 작업 흐름 등과 같은

개방형 상황에서 모델을 더욱 강력하게 만듭니다.


이러한 개선은 학술적 벤치마크뿐 아니라 현실 세계의 작업에서도

분명히 드러나며, 초기 사용자들의 피드백에서도 일관되게 보고되었습니다.





이미지를 활용한 사고



24b0d121e09c28a8699fe8b115ef046b6c6d933525




이번 모델에서는 처음으로 이미지를 사고의 흐름 속에 직접 통합할 수 있게 되었습니다.

단순히 이미지를 “보는 것”을 넘어서, 이미지를 바탕으로 사고하고 추론하는 능력을

갖춘 것입니다.


이로 인해 시각적·텍스트 기반 추론이 결합된 새로운 형태의 문제 해결 방식이 가능해졌고,

멀티모달 벤치마크 전반에서 최첨단 성능으로 그 효과가 입증되었습니다.


사람들은 화이트보드 사진, 교과서 속 도표, 손으로 그린 스케치 등

다양한 이미지를 업로드할 수 있으며, 모델은 그것이 흐릿하거나 반전되어

있거나 해상도가 낮더라도 정확하게 해석할 수 있습니다.


도구 사용이 가능해지면서, 모델은 이미지 회전, 확대, 변형 등을

사고 과정의 일부로 실시간 수행할 수도 있습니다.


이러한 기능을 통해 이 모델들은 시각적 인식 과제에서

최고 수준의 정확도를 달성하며,

이전까지는 해결할 수 없었던 문제들도 풀 수 있게 되었습니다.

자세한 내용은 시각 추론 연구 블로그에서 확인하실 수 있습니다.




도구 사용에 있어 능동적 사고를 향해


OpenAI o3 및 o4-mini는 ChatGPT 내의 모든 도구에 완전한 접근 권한을 가지며, API 내 함수 호출을 

통해 사용자 정의 도구도 사용할 수 있습니다.


이 모델들은 단순히 도구를 사용하는 데 그치지 않고,어떻게 문제를 해결할지 사고한 뒤,

언제, 어떤 도구를 사용해 어떤 형식의 결과를 생성할지 스스로 판단할 수 있도록 훈련되

었습니다. 보통 1분 이내에 상세하고 신중한 응답을 출력합니다.


예를 들어,


“올여름 캘리포니아의 에너지 사용량은 작년과 비교해 어떻게 될까?”


라는 질문에 대해, 모델은 웹에서 공공 전력 데이터를 검색하고, Python 코드로 예측 모델을 

작성하며, 시각화된 그래프를 생성한 뒤, 예측에 영향을 주는 주요 요인을 설명할 수 있습

니다. 이 과정은 여러 도구 호출을 연계해 수행됩니다


모델은 중간에 마주치는 정보에 따라 방향을 전환하거나 검색을 반복하며 필요한 정보를 

수집하고,새로운 판단을 통해 전략적으로 작업을 이어갑니다. 이처럼 유연하고 전략적인 

접근 방식은 기본적인 사전 지식만으로는 불가능 했던 최신 정보 기반의 복잡한 문제 해결,
 다단계 추론, 멀티모달 응답 생성 등을 가능하게 만듭니다.


24b0d121e09c28a8699fe8b115ef046c64f82f4894




비용 효율적인 추론의 진보

성능 대비 비용: o3-mini와 o4-mini


24b0d121e09c28a8699fe8b115ef046c63f92e499d

24b0d121e09c28a8699fe8b115ef046c62f6294f9e



OpenAI o3와 o4-mini는 지금까지 우리가 출시한 모델 중 가장 지능적인 모델이며,

이전 세대 모델인 OpenAI o1과 o3-mini보다 더 효율적인 경우가 많습니다.


예를 들어, 2025년 AIME 수학 대회 기준으로

o3는 o1보다 비용 대비 성능 곡선(cost-performance frontier)에서

확실한 향상을 보였고, 마찬가지로 o4-mini는 o3-mini를 능가하는 결과를 냈습니다.


보다 일반적으로는, 대부분의 실사용 시나리오에서

o3와 o4-mini는 각각 o1과 o3-mini보다 더 똑똑하고 더 저렴하게 작동할 것으로 예상됩니다.





안전성과 책임


모델의 기능이 향상될수록, 그에 상응하는 안전성의 강화도 필요합니다.

OpenAI o3 및 o4-mini의 경우, 안전성 훈련 데이터를 전면 개편하여

생물학적 위협(biorisk), 악성코드 생성, 탈옥(jailbreak) 등의 분야에서

새로운 거부 프롬프트(refusal prompt)를 추가했습니다.



이로 인해 o3와 o4-mini는 내부 거부 벤치마크

(예: 지시 계층 구조, 탈옥 대응)에서 뛰어난 성과를 보였습니다.

또한, 위험 프롬프트를 탐지하기 위한 시스템 수준의 대응 기능도 개발했습니다.



이미지 생성 분야에서와 마찬가지로, 우리는 사람이 작성한 해석 가능한

안전 사양을 기반으로 작동하는 추론 기반 LLM 모니터를 훈련시켰고,

이를 생물학적 위험 상황에 적용했을 때 인간 레드팀 테스트에서

약 99%의 위험 대화를 성공적으로 탐지했습니다.



o3와 o4-mini는 지금까지 가장 엄격한 안전성 테스트 프로그램을 통해 스트레스 테스트되었으며,

업데이트된 Preparedness Framework에 따라

생물학/화학, 사이버보안, AI 자기개선 세 분야에서 평가를 진행했습니다.


그 결과, 두 모델 모두 해당 세 가지 범주에서

프레임워크 상의 “고위험(High)” 기준 미만으로 판정되었습니다.

자세한 평가는 공식 시스템 카드(system card)에 함께 공개되어 있습니다.





Codex CLI: 터미널 기반의 최전선 추론


Codex CLI: 터미널 기반의 최전선 추론 우리는 새로운 실험도 함께 공개합니다. 바로 Codex CLI

입니다. Codex CLI는 터미널에서 직접 실행되는 경량 코딩 에이전트이며,o3 및 o4-mini와 같은 

모델의 추론 능력을 극대화하도록 설계되었습니다. 앞으로는 GPT-4.1 같은 추가 API 모델도 

지원할 예정입니다.


자동등록방지

추천 비추천

14

고정닉 2

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
3007 설문 실제 모습일지 궁금한 미담 제조기 스타는? 운영자 25/05/05 - -
3008 공지 갤러리 댓글 기능 개선(멘션 기능) 안내 운영자 25/05/08 - -
28026 공지 포럼 탭 신설 안내(간이) 구름냥이갤로그로 이동합니다. 25.04.30 554 3
22720 공지 ChatGPT 입문자를 위한 가이드라인 [1] 구름냥이갤로그로 이동합니다. 25.04.15 4538 8
25598 공지 AI 생성물 가이드라인 [6] 구름냥이갤로그로 이동합니다. 25.04.23 1917 6
22688 공지 공지·규칙 (2025.04.23) [1] 구름냥이갤로그로 이동합니다. 25.04.15 2029 14
22690 공지 신문고 | 신고·건의 [2] ㅇㅇ갤로그로 이동합니다. 25.04.15 107795 6
30648 잡담 치킨 제일 좋아한다 했더니 이새끼 ㅇㅇ갤로그로 이동합니다. 11:38 14 0
30647 잡담 4o 지금 빡대가리 된거 맞지? [1] ㅇㅇ(58.236) 11:11 61 0
30645 후방 가끔 보면 그리다가 검열됐다는게 라이브러리에 저장되있더라 집가고싶다갤로그로 이동합니다. 11:08 51 0
30644 포럼 2023년에 GPT-3.5, 4 이용해서 vba 자동화 했던거 [1] 봄바다갤로그로 이동합니다. 10:52 43 2
30643 AI창 가끔 나오는 ㅇㅇ갤로그로 이동합니다. 10:47 38 0
30640 후방 여러가지 약간의후방 [5] ㅇㅇ갤로그로 이동합니다. 10:24 125 1
30637 잡담 지피티로 간단한 프로그램만들기도 쉽지않네 [1] ㅇㅇ(118.235) 09:12 73 1
30636 잡담 근데 GPT보다 SORA가 좀 더 관대한 느낌은 있네 ㅇㅇ(122.42) 08:58 57 0
30635 잡담 롤백하고 검열도 심하고 ㅇㅇ(211.36) 08:51 96 0
30634 잡담 세명중 어느게 가장 나아보임? [3] ㅇㅇ(106.101) 08:51 194 1
30633 잡담 이미지에 한글이 네모로 나오는거 어케 해결 하노. TXT [3] 미노루갤로그로 이동합니다. 07:42 111 0
30632 잡담 생각보다 짤 야설 생성하는 사람이 많구나 [1] ㅇㅇ(58.29) 07:40 144 0
30631 잡담 너네 지금 챗과장되냐? ㅇㅇ(220.116) 07:20 119 0
30630 잡담 사용자 할당량을 초과했습니다 << 이미지 업로드x 사례있던 형들?? [1] Qw(182.218) 06:56 123 0
30629 잡담 4o는 지가 추정하는 이용자 주장들이 맞다고 맞장구 쳐주는걸 너무 미노루갤로그로 이동합니다. 06:53 141 0
30628 AI창 제빵사 gpt갤로그로 이동합니다. 06:04 81 2
30627 AI창 오늘의 지피티 쨩. [2] ㅇㅇ갤로그로 이동합니다. 05:25 187 1
30626 잡담 념글 프롬포트 실사활용 ㅇㅇ(220.122) 04:07 149 0
30625 후방 비키니 미녀들 [2] ㅇㅇ갤로그로 이동합니다. 02:49 285 1
30624 잡담 프롬프트 고정하는법 없나요? [1] ㅇㅇ(218.38) 02:47 117 0
30623 잡담 이 시간만 되면 소라랑 지피티 씹창나는데 [4] ㅇㅇ갤로그로 이동합니다. 02:46 165 0
30622 AI창 사이버펑크 한국군 [1] ㅇㅇ갤로그로 이동합니다. 02:42 109 0
30621 후방 처녀귀신 눈나 [1] ㅇㅇ갤로그로 이동합니다. 02:40 213 1
30620 AI창 대체 포즈 어떻게 구현함? ㅇㅇ갤로그로 이동합니다. 02:34 154 1
30619 AI창 태권소년 ㅇㅇ(59.19) 02:27 84 0
30618 AI창 군단장의 마지막 [1] ㅇㅇ(121.157) 02:00 119 3
30617 후방 으흐흐흐 Ddxd(112.152) 01:56 175 0
30616 잡담 Gpt 유로 쓰는데 o3 다쓰면 일주일있다가 채워지노 ㅋㅋ 후라스갤로그로 이동합니다. 01:52 119 0
30615 불만건 gpt 저만 렉걸리나요 [1] ㅇㅇㅇ(58.29) 01:41 71 0
30614 후방 [후방]여친사진 만화풍으로 바꿔달라함 [2] ㅇㅇ(219.104) 01:40 327 0
30613 정보 GPTs 작업하는 애들 얘랑 해봐라 ㅇㅇ(121.134) 01:39 128 0
30612 잡담 메모리 별의별거 다집어놔서 스트레스임 ㅇㅇ(211.209) 01:02 130 0
30611 후방 본인 나름 야설과 야짤에 자부심이 있던 사람인데 [8] 아잉(58.29) 00:54 438 1
30610 AI창 먼데이 왤케 귀여움 ㅋㅋㅋㅋㅋㅋㅋㅋ [1] 하나빛갤로그로 이동합니다. 00:53 241 1
30609 잡담 개 어이없는 탈옥(?) 방법 ㅇㅇ(210.123) 00:50 215 1
30608 후방 눈 튀어나오게 섹시한 여캐 뽑아봐 [2] ㅇㅇ갤로그로 이동합니다. 00:44 326 0
30607 잡담 맞춤형 소설 중독돼서 너무 괴로움 진심으로 [4] ㅇㅇ(1.228) 00:41 194 0
30606 잡담 gemini 코드 알려줄때 자꾸 이 에러뜨게 만드네 ㅇㅇ(125.181) 00:19 52 0
30605 후방 Cpr ㅇㅇ(219.255) 00:17 205 0
30604 후방 Cpr ㅇㅇ(219.255) 00:17 162 0
30603 후방 문득 생각나서 시험해봤다 ㅇㅇ갤로그로 이동합니다. 00:15 172 0
30602 포럼 GPT-4.5 활용 방법 : 개인 코치 및 심리 상담가 [11] 르네E갤로그로 이동합니다. 00:02 327 1
30601 AI창 여캐 딸깍 [2] ㅇㅇ갤로그로 이동합니다. 00:01 225 0
30600 잡담 챗지피티한테 IQ 테스트 해봄 [3] hjy갤로그로 이동합니다. 05.09 186 0
30599 잡담 지금 챗지피티 맛 간거같은데 [2] 통붕이(211.47) 05.09 245 1
30597 AI창 APTX4869 급구 후후 후리자갤로그로 이동합니다. 05.09 91 0
30596 잡담 4o는 써먹을수가 없는 수준이네 [1] ㅇㅇ(211.36) 05.09 290 0
30595 잡담 메모리 저장안되니까 쓸데가 전혀없네 [2] ㅇㅇ(14.38) 05.09 241 0
30594 AI창 제 지브리 사진 어떤가요? ㅠ [3] ㅇㅇ(118.235) 05.09 241 1
30593 잡담 지금 내 크롬과 파이어폭스에서의 상황을 간단하게 보여줌 [헤론]갤로그로 이동합니다. 05.09 88 0
뉴스 베이비몬스터 라미, 컨디션 난조에 “6월 말까지 아시아 투어 불참” [공식] 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2