디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

OpenAI, o3와 o4-mini 출시

sama갤로그로 이동합니다. 2025.04.17 15:05:01
조회 26078 추천 67 댓글 108

OpenAI o3 및 o4-mini 공개: 전체 도구 접근성을 갖춘 역대 가장 스마트하고 유능한 모델



오늘 OpenAI는 응답하기 전에 더 오래 생각하도록 훈련된 o-시리즈 모델의 최신 버전인 OpenAI o3와 o4-mini를 출시합니다. 이는 저희가 지금까지 출시한 모델 중 가장 스마트한 모델로, 호기심 많은 사용자부터 고급 연구원에 이르기까지 모든 사람을 위한 ChatGPT의 능력을 한 단계 끌어올렸습니다.

처음으로 저희 추론 모델이 ChatGPT 내의 모든 도구를 능동적으로 사용하고 결합할 수 있게 되었습니다. 여기에는 웹 검색, Python을 사용한 파일 및 기타 데이터 분석, 시각적 입력에 대한 깊이 있는 추론, 이미지 생성까지 포함됩니다. 결정적으로, 이 모델들은 더 복잡한 문제를 해결하기 위해 일반적으로 1분 이내에 올바른 출력 형식으로 상세하고 사려 깊은 답변을 생성하기 위해 언제, 어떻게 도구를 사용해야 하는지 추론하도록 훈련되었습니다.

이를 통해 다면적인 질문을 더 효과적으로 처리할 수 있으며, 사용자를 대신하여 독립적으로 작업을 수행할 수 있는 보다 능동적인 ChatGPT를 향한 한 걸음입니다. 최첨단 추론 능력과 전체 도구 접근성의 결합된 힘은 학문적 벤치마크와 실제 작업 모두에서 훨씬 더 강력한 성능으로 이어져 지능과 유용성 모두에서 새로운 기준을 세웁니다.

변경된 점
OpenAI o3는 코딩, 수학, 과학, 시각 인식 등 다양한 분야에서 최고 성능을 보여주는 가장 강력한 추론 모델입니다. Codeforces, SWE-bench(맞춤형 모델별 스캐폴드 구축 없이), MMMU 등 벤치마크에서 새로운 SOTA(최고 수준)를 기록했습니다.
다면적 분석이 필요하고 답이 즉시 명확하지 않을 수 있는 복잡한 쿼리에 이상적입니다. 특히 이미지, 차트, 그래픽 분석과 같은 시각적 작업에서 강력한 성능을 발휘합니다. 외부 전문가 평가에서 o3는 어려운 실제 작업에서 OpenAI o1보다 주요 오류를 20% 적게 발생시켰으며, 특히 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 구상과 같은 분야에서 뛰어났습니다. 초기 테스터들은 사고 파트너로서의 분석적 엄격함을 강조하고, 특히 생물학, 수학, 공학 분야 내에서 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했습니다.

OpenAI o4-mini는 빠르고 비용 효율적인 추론에 최적화된 소형 모델입니다. 크기와 비용 대비 놀라운 성능을 달성하며, 특히 수학, 코딩, 시각적 작업에서 뛰어납니다. AIME 2025에서 o4-mini는 Python 인터프리터 접근 권한이 주어졌을 때 99.5%의 점수를 기록하여 이 벤치마크를 사실상 포화시켰습니다. 전문가 평가에서도 STEM 외 작업뿐만 아니라 데이터 과학과 같은 영역에서도 이전 모델인 o3-mini보다 뛰어난 성능을 보였습니다. 효율성 덕분에 o4-mini는 o3보다 훨씬 높은 사용량 한도를 지원하므로, 추론이 필요한 질문에 대해 대용량, 고처리량 옵션으로 강력합니다.

외부 전문가 평가자들은 두 모델 모두 향상된 지능과 웹 소스 포함 덕분에 이전 모델보다 향상된 지시 사항 준수 능력과 더 유용하고 검증 가능한 응답을 보여준다고 평가했습니다. 이전 버전의 추론 모델과 비교할 때, 이 두 모델은 특히 기억과 과거 대화를 참조하여 응답을 더 개인화되고 관련성 있게 만들기 때문에 더 자연스럽고 대화적으로 느껴질 것입니다.



7aea8768f5dc3f8650bbd58b36807d6ff54b


7beb8668f5dc3f8650bbd58b36837c6decb6


78e88568f5dc3f8650bbd58b36807c6afc0e


79e98468f5dc3f8650bbd58b368376647595


7eee8368f5dc3f8650bbd58b368073640d39


7fef8268f5dc3f8650bbd58b3683706ef4b5


7cec8168f5dc3f8650bbd58b3683726d79d8


강화 학습의 지속적인 확장

OpenAI o3 개발 전반에 걸쳐, 대규모 강화 학습이 GPT 시리즈 사전 훈련에서 관찰된 것과 동일한 "더 많은 컴퓨팅 = 더 나은 성능" 추세를 보인다는 것을 관찰했습니다. 이 확장 경로를 RL에서 다시 추적함으로써 훈련 컴퓨팅과 추론 시간 추론 모두에서 추가적인 자릿수만큼 확장했지만, 여전히 명확한 성능 향상을 확인하여 모델이 더 많이 생각하도록 허용할수록 성능이 계속 향상된다는 것을 입증했습니다. OpenAI o1과 동일한 지연 시간 및 비용으로 o3는 ChatGPT에서 더 높은 성능을 제공하며, 더 오래 생각하게 하면 성능이 계속 상승한다는 것을 검증했습니다.


또한 강화 학습을 통해 두 모델 모두 도구를 사용하도록 훈련했습니다. 즉, 도구를 사용하는 방법뿐만 아니라 언제 사용해야 하는지 추론하도록 가르쳤습니다. 원하는 결과에 따라 도구를 배포하는 능력은 개방형 상황, 특히 시각적 추론 및 다단계 워크플로우를 포함하는 상황에서 모델을 더욱 유능하게 만듭니다. 이러한 개선은 초기 테스터들이 보고한 바와 같이 학문적 벤치마크와 실제 작업 모두에 반영됩니다.



이미지로 생각하기


처음으로 이 모델들은 이미지를 사고 과정에 직접 통합할 수 있습니다. 단순히 이미지를 보는 것이 아니라, 이미지로 생각합니다. 이는 시각적 및 텍스트적 추론을 혼합하는 새로운 종류의 문제 해결을 가능하게 하며, 멀티모달 벤치마크 전반에 걸친 최첨단 성능에 반영됩니다.

사용자는 화이트보드 사진, 교과서 다이어그램 또는 손으로 그린 스케치를 업로드할 수 있으며, 이미지가 흐리거나, 뒤집히거나, 저화질이라도 모델은 이를 해석할 수 있습니다. 도구 사용을 통해 모델은 추론 과정의 일부로 즉석에서 이미지를 회전, 확대/축소 또는 변환하여 조작할 수 있습니다.
이 모델들은 시각 인식 작업에서 동급 최고의 정확도를 제공하여 이전에는 해결할 수 없었던 질문을 해결할 수 있게 합니다. 자세한 내용은 시각적 추론 연구 블로그⁠를 확인하세요.



7af39e36ebd518986abce8954486726d9096



능동적인 도구 사용을 향하여

OpenAI o3 및 o4-mini는 ChatGPT 내의 도구뿐만 아니라 API의 함수 호출을 통해 사용자 지정 도구에도 완전히 접근할 수 있습니다. 이 모델들은 문제를 해결하는 방법을 추론하도록 훈련되었으며, 일반적으로 1분 이내에 올바른 출력 형식으로 상세하고 사려 깊은 답변을 신속하게 생성하기 위해 언제, 어떻게 도구를 사용해야 하는지 선택합니다.

예를 들어, 사용자는 "캘리포니아의 여름 에너지 사용량은 작년과 비교하여 어떻게 될까요?"라고 질문할 수 있습니다. 모델은 공공 유틸리티 데이터를 웹에서 검색하고, 예측을 구축하기 위한 Python 코드를 작성하고, 그래프나 이미지를 생성하고, 예측의 주요 요인을 설명하며 여러 도구 호출을 연결할 수 있습니다. 추론을 통해 모델은 마주치는 정보에 따라 필요에 맞게 반응하고 방향을 전환할 수 있습니다. 예를 들어, 검색 제공 업체의 도움을 받아 웹을 여러 번 검색하고, 결과를 보고, 더 많은 정보가 필요하면 새로운 검색을 시도할 수 있습니다.

이러한 유연하고 전략적인 접근 방식을 통해 모델은 모델의 내장된 지식을 넘어서는 최신 정보 접근, 확장된 추론, 합성 및 여러 양식에 걸친 출력 생성이 필요한 작업을 처리할 수 있습니다.

모든 예시는 OpenAI o3로 완료되었습니다.



비용 효율적인 추론 발전


OpenAI o3 및 o4-mini는 저희가 출시한 모델 중 가장 지능적이며, 이전 모델인 OpenAI o1 및 o3-mini보다 종종 더 효율적입니다. 예를 들어, 2025 AIME 수학 경진대회에서 o3의 비용-성능 경계는 o1을 명백히 개선하며, 유사하게 o4-mini의 경계는 o3-mini를 명백히 개선합니다. 더 일반적으로, 대부분의 실제 사용 사례에서 o3 및 o4-mini는 각각 o1 및 o3-mini보다 더 스마트하고 저렴할 것으로 예상합니다.



74f3c028e2f206a26d81f6e44682756bb1


75f3c028e2f206a26d81f6e4478376696b





안전성

모델 기능이 향상될 때마다 그에 상응하는 안전성 개선이 필요합니다. OpenAI o3 및 o4-mini의 경우, 생물학적 위협(바이오리스크), 멀웨어 생성, 탈옥과 같은 영역에서 새로운 거부 프롬프트를 추가하여 안전성 훈련 데이터를 완전히 재구축했습니다. 이 새로워진 데이터 덕분에 o3 및 o4-mini는 내부 거부 벤치마크(예: 지시 계층 구조⁠, 탈옥)에서 강력한 성능을 달성했습니다. 모델 거부에 대한 강력한 성능 외에도, 프론티어 위험 영역에서 위험한 프롬프트를 탐지하기 위한 시스템 수준의 완화 조치도 개발했습니다. 이전의 이미지 생성 작업과 유사하게, 사람이 작성하고 해석 가능한 안전 사양에 따라 작동하는 추론 LLM 모니터를 훈련했습니다. 바이오리스크에 적용했을 때, 이 모니터는 인간 레드팀 캠페인의 대화 중 약 99%를 성공적으로 탐지했습니다.

저희는 역대 가장 엄격한 안전 프로그램을 통해 두 모델을 스트레스 테스트했습니다. 업데이트된 준비 태세 프레임워크⁠에 따라, 프레임워크가 다루는 세 가지 추적 기능 영역인 생물학적 및 화학적, 사이버 보안, AI 자기 개선 전반에 걸쳐 o3 및 o4-mini를 평가했습니다. 이러한 평가 결과에 기초하여, o3 및 o4-mini 모두 세 범주 모두에서 프레임워크의 "높음" 임계값 미만으로 유지된다고 판단했습니다. 이러한 평가의 상세 결과는 첨부된 시스템 카드⁠⁠에 게시했습니다.


Codex CLI: 터미널에서의 프론티어 추론

또한 새로운 실험인 Codex CLI를 공유합니다. 이는 터미널에서 실행할 수 있는 경량 코딩 에이전트입니다. 컴퓨터에서 직접 작동하며, o3 및 o4-mini와 같은 모델의 추론 능력을 극대화하도록 설계되었으며, GPT-4.1과 같은 추가 API 모델에 대한 지원이 곧 제공될 예정입니다.

스크린샷이나 저해상도 스케치를 모델에 전달하고 로컬 코드에 접근하여 명령줄에서 멀티모달 추론의 이점을 얻을 수 있습니다. 저희는 이를 모델과 사용자 및 컴퓨터를 연결하는 최소한의 인터페이스로 생각합니다. Codex CLI는 오늘 github.com/openai/codex⁠(새 창에서 열림)에서 완전한 오픈 소스로 제공됩니다.

이와 함께 Codex CLI 및 OpenAI 모델을 사용하는 프로젝트를 지원하기 위해 1백만 달러 규모의 이니셔티브를 시작합니다. API 크레딧 형태로 25,000달러 단위의 보조금 신청서를 평가하고 수락할 것입니다. 제안서는 여기에서 제출할 수 있습니다.

접근성

ChatGPT Plus, Pro, Team 사용자는 오늘부터 모델 선택기에서 o1, o3-mini, o3-mini-high를 대체하는 o3, o4-mini, o4-mini-high를 볼 수 있습니다. ChatGPT Enterprise 및 Edu 사용자는 일주일 후에 접근 권한을 얻게 됩니다. 무료 사용자는 쿼리를 제출하기 전에 작성기에서 '생각하기(Think)'를 선택하여 o4-mini를 사용해 볼 수 있습니다. 모든 플랜의 속도 제한은 이전 모델 세트에서 변경되지 않았습니다.

몇 주 내에 전체 도구 지원을 갖춘 OpenAI o3-pro를 출시할 것으로 예상합니다. 현재 Pro 사용자는 여전히 o1-pro에 접근할 수 있습니다.

o3 및 o4-mini는 오늘부터 Chat Completions API 및 Responses API를 통해 개발자에게도 제공됩니다(일부 개발자는 이러한 모델에 접근하기 위해 조직을 확인⁠(새 창에서 열림)해야 할 수 있습니다). Responses API는 추론 요약, 더 나은 성능을 위해 함수 호출 주변의 추론 토큰을 보존하는 기능 등을 지원하며, 곧 모델의 추론 내에서 웹 검색, 파일 검색, 코드 인터프리터와 같은 내장 도구를 지원할 예정입니다. 시작하려면 저희 문서⁠⁠(새 창에서 열림)를 살펴보고 더 많은 업데이트를 기대해 주세요.

다음 단계

오늘의 업데이트는 저희 모델이 나아갈 방향을 반영합니다: o-시리즈의 특화된 추론 능력과 GPT-시리즈의 보다 자연스러운 대화 능력 및 도구 사용을 융합하고 있습니다. 이러한 강점을 통합함으로써 미래의 모델은 선제적인 도구 사용 및 고급 문제 해결과 함께 원활하고 자연스러운 대화를 지원할 것입니다.





(오픈AI) o3 및 o4-mini 공개



2025년 4월 16일 | 출시 | 제품


OpenAI o3 및 o4-mini 공개: 역대 가장 스마트하고 유능하며 완전한 도구 접근성을 갖춘 모델


[ChatGPT에서 사용해 보기]



1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662b284d464b468e89fb4340d7ad0f155a47e4cc181b5a61d68ed4



오늘, OpenAI는 o-시리즈의 최신 모델인 o3와 o4-mini를 출시합니다. 이 모델들은 응답하기 전에 더 깊이 사고하도록 훈련되었습니다. 현재까지 저희가 출시한 모델 중 가장 스마트하며, 호기심 많은 사용자부터 고급 연구원에 이르기까지 모든 이들에게 ChatGPT 역량의 획기적인 발전(step change)을 보여줍니다. 처음으로 저희 추론 모델들은 스스로 판단하여(agentically) ChatGPT 내의 모든 도구 – 웹 검색, Python을 이용한 파일 및 데이터 분석, 시각적 입력에 대한 심층 추론, 이미지 생성까지 – 를 활용하고 조합할 수 있습니다. 결정적으로, 이 모델들은 언제 어떻게 도구를 사용해야 할지 추론하여, 일반적으로 1분 이내에 정확한 출력 형식으로 상세하고 심도 있는 답변을 생성함으로써 더 복잡한 문제를 해결하도록 훈련되었습니다. 이를 통해 다면적인 질문을 더욱 효과적으로 처리할 수 있으며, 사용자를 대신하여 독립적으로 작업을 수행할 수 있는 더욱 주체적인(agentic) ChatGPT로 나아가는 한 걸음입니다. 최첨단 추론 능력과 완전한 도구 접근성의 결합은 학술 벤치마크와 실제 과제 전반에서 현저하게 향상된 성능으로 이어져, 지능과 유용성 모두에서 새로운 기준을 제시합니다.



무엇이 달라졌는가


OpenAI o3는 코딩, 수학, 과학, 시각 인식 등 전 분야에 걸쳐 기술의 한계를 넓히는 저희의 가장 강력한 추론 모델입니다. Codeforces, SWE-bench(맞춤형 모델별 스캐폴드 구축 없이), MMMU 등 벤치마크에서 새로운 최고 성능(SOTA)을 기록했습니다. 다면적 분석이 필요하고 답이 즉각적으로 명확하지 않은 복잡한 질의에 이상적입니다. 특히 이미지, 차트, 그래픽 분석과 같은 시각적 작업에서 강력한 성능을 보입니다. 외부 전문가 평가에서 o3는 어려운 실제 과제에서 OpenAI o1보다 주요 오류를 20% 적게 발생시켰으며, 특히 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 구상 분야에서 뛰어난 성과를 보였습니다. 초기 테스터들은 사고 파트너로서의 분석적 엄밀함을 높이 평가했으며, 특히 생물학, 수학, 공학 분야에서 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했습니다.


OpenAI o4-mini는 빠르고 비용 효율적인 추론에 최적화된 소형 모델입니다. 크기와 비용 대비 놀라운 성능을 달성하며, 특히 수학, 코딩, 시각적 작업에서 뛰어납니다. AIME 2024 및 2025에서 새로운 최고 성능(SOTA)을 기록했습니다. 전문가 평가에서는 데이터 과학과 같은 영역뿐만 아니라 비 STEM 분야에서도 이전 모델인 o3-mini를 능가했습니다. 효율성 덕분에 o4-mini는 o3보다 훨씬 높은 사용 한도를 지원하므로, 추론 능력이 중요한 대량, 고처리량 질문에 강력한 옵션입니다.


외부 전문가 평가자들은 두 모델 모두 향상된 지능과 웹 소스 포함 덕분에 이전 모델들보다 개선된 지시 사항 준수 능력과 더 유용하고 검증 가능한 응답을 보여준다고 평가했습니다. 이전 버전의 추론 모델들과 비교하여, 이 두 모델은 특히 기억과 과거 대화를 참조하여 응답을 더욱 개인화되고 관련성 높게 만들기 때문에 더 자연스럽고 대화적인 느낌을 줄 것입니다.



1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662b284d404b415fe48c852e7a0abdd15bc09dc8c585560deaf1

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d454ada399628382837f974a168062cbe07918df8bf44

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d4444562cb36bbaf7b70ceb0e5d422e345f4d22513031

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d474b40586e7e241ef5a3d41cb12e585689e62c359b97

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d464f57f2ca4f4f467158d651ac887f7fd2932ac13dbc

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d464b4a4a8d25c85236018057959a80311cebc7f676a6

모든 모델은 ChatGPT의 'o4-mini-high'와 유사한 높은 '추론 노력(reasoning effort)' 설정에서 평가되었습니다.



강화 학습의 지속적인 확장


OpenAI o3 개발 전반에 걸쳐, 저희는 대규모 강화 학습이 GPT 시리즈 사전 훈련에서 관찰된 것과 동일한 "더 많은 컴퓨팅 = 더 나은 성능" 추세를 보인다는 것을 관찰했습니다. 이번에는 강화 학습에서 스케일링 경로를 되짚어봄으로써, 훈련 컴퓨팅과 추론 시간 추론 모두에서 추가적인 자릿수(order of magnitude)만큼 확장했음에도 여전히 명확한 성능 향상을 확인했습니다. 이는 모델이 더 많이 생각하도록 허용할수록 성능이 계속 향상된다는 것을 입증합니다. OpenAI o1과 동일한 지연 시간 및 비용에서 o3는 ChatGPT에서 더 높은 성능을 제공하며, 더 오래 생각하게 하면 성능이 계속 상승한다는 것을 검증했습니다.


또한 저희는 강화 학습을 통해 두 모델이 도구를 사용하도록 훈련했습니다. 단순히 도구 사용법뿐만 아니라 언제 사용해야 할지 추론하는 능력을 가르쳤습니다. 원하는 결과에 따라 도구를 배치하는 능력은 특히 시각적 추론과 다단계 워크플로우를 포함하는 개방형 상황에서 모델을 더욱 유능하게 만듭니다. 이러한 개선은 초기 테스터들이 보고한 바와 같이 학술 벤치마크와 실제 과제 모두에 반영되었습니다.



이미지와 함께 사고하기



1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d414f8942094bb2fdeb36b9c2b9d172c8afcc66d2c3b14b



처음으로 이 모델들은 이미지를 자신의 사고 과정(chain of thought)에 직접 통합할 수 있습니다. 단순히 이미지를 보는 것을 넘어, 이미지를 가지고 생각합니다. 이는 시각적 및 텍스트적 추론을 결합하는 새로운 종류의 문제 해결을 가능하게 하며, 다중 모드 벤치마크 전반에서 최첨단 성능으로 나타납니다.


사용자는 화이트보드 사진, 교과서 다이어그램 또는 손으로 그린 스케치를 업로드할 수 있으며, 이미지가 흐릿하거나, 뒤집혀 있거나, 저품질이더라도 모델은 이를 해석할 수 있습니다. 도구 사용을 통해 모델은 추론 과정의 일부로 이미지를 즉석에서 회전, 확대/축소 또는 변형하는 등 조작할 수 있습니다.


이 모델들은 시각 인식 작업에서 동급 최고의 정확도를 제공하여 이전에는 해결할 수 없었던 질문을 풀 수 있게 합니다. 자세한 내용은 시각적 추론 연구 블로그⁠를 확인하세요.



주체적인 도구 사용을 향하여


OpenAI o3 및 o4-mini는 ChatGPT 내의 도구뿐만 아니라 API의 함수 호출(function calling)을 통해 사용자의 자체 맞춤형 도구에도 완전한 접근 권한을 갖습니다. 이 모델들은 문제를 해결하는 방법을 추론하고, 언제 어떻게 도구를 사용하여 일반적으로 1분 이내에 정확한 출력 형식으로 상세하고 심도 있는 답변을 신속하게 생성할지 선택하도록 훈련되었습니다.


예를 들어, 사용자가 "캘리포니아의 여름철 에너지 사용량이 작년과 비교하여 어떻게 될까요?"라고 질문할 수 있습니다. 모델은 공공 유틸리티 데이터를 웹에서 검색하고, 예측 모델을 구축하기 위해 Python 코드를 작성하고, 그래프나 이미지를 생성하고, 예측의 주요 요인을 설명하는 등 여러 도구 호출을 연쇄적으로 수행할 수 있습니다. 추론 능력 덕분에 모델은 마주치는 정보에 따라 필요에 맞게 반응하고 방향을 전환할 수 있습니다. 예를 들어, 검색 제공자의 도움을 받아 웹을 여러 번 검색하고, 결과를 살펴보고, 더 많은 정보가 필요하면 새로운 검색을 시도할 수 있습니다.


이러한 유연하고 전략적인 접근 방식을 통해 모델은 내장된 지식을 넘어서는 최신 정보 접근, 확장된 추론, 종합, 그리고 여러 양식에 걸친 출력 생성이 필요한 작업을 처리할 수 있습니다.


모든 예시는 OpenAI o3로 완료되었습니다.


링크

1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c214d404f3e84beb940a2ace2781c77eaa1301822f055120a8d

OpenAI o3는 검색을 사용하지 않고도 정확한 응답을 얻는 반면, o1은 정확한 응답을 제공하지 못합니다.



비용 효율적인 추론의 발전



비용 대비 성능: o3-mini 및 o4-mini


1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c204d444997548cb9c5a65b71b25fe90c7893068afe0241f4a7



비용 대비 성능: o1 및 o3


1ebec223e0dc2bae61ab96e746837170bd0303a2376c1f024a5a662c204d474d77d0c19ce5c7ab29886d736166e035dcff922de548



OpenAI o3 및 o4-mini는 저희가 출시한 가장 지능적인 모델이며, 이전 모델인 OpenAI o1 및 o3-mini보다 종종 더 효율적입니다. 예를 들어, 2025년 AIME 수학 경시대회에서 o3의 비용-성능 경계선은 o1보다 확실히 개선되었으며, 마찬가지로 o4-mini의 경계선도 o3-mini보다 확실히 개선되었습니다. 더 일반적으로, 대부분의 실제 사용 사례에서 o3와 o4-mini는 각각 o1과 o3-mini보다 더 스마트하고 저렴할 것으로 예상합니다.



안전성


모델 능력의 모든 개선에는 그에 상응하는 안전성 개선이 필요합니다. OpenAI o3 및 o4-mini를 위해 저희는 안전 훈련 데이터를 완전히 재구축하여 생물학적 위협(바이오리스크), 악성 코드 생성, 탈옥(jailbreaks)과 같은 영역에서 새로운 거부 프롬프트를 추가했습니다. 이 새로워진 데이터 덕분에 o3와 o4-mini는 내부 거부 벤치마크(예: 지시 계층 구조⁠, 탈옥)에서 강력한 성능을 달성했습니다. 모델 거부에 대한 강력한 성능 외에도, 저희는 최전선 위험 영역에서 위험한 프롬프트를 탐지하기 위한 시스템 수준의 완화 조치도 개발했습니다. 이미지 생성⁠에서의 이전 작업과 유사하게, 인간이 작성하고 해석 가능한 안전 사양에 따라 작동하는 추론 LLM 모니터를 훈련했습니다. 바이오리스크에 적용했을 때, 이 모니터는 인간 레드팀 캠페인에서 대화의 약 99%를 성공적으로 탐지했습니다.


저희는 현재까지 가장 엄격한 안전 프로그램을 통해 두 모델을 스트레스 테스트했습니다. 업데이트된 준비 상태 프레임워크⁠에 따라, 저희는 프레임워크에서 다루는 추적된 세 가지 능력 영역인 생물학 및 화학, 사이버 보안, AI 자가 개선에 걸쳐 o3와 o4-mini를 평가했습니다. 이러한 평가 결과에 기초하여, 저희는 o3와 o4-mini 모두 세 가지 범주 모두에서 프레임워크의 "높음(High)" 임계값 미만으로 유지된다고 판단했습니다. 이러한 평가의 자세한 결과는 첨부된 시스템 카드⁠⁠에서 발표했습니다.



Codex CLI: 터미널에서의 최첨단 추론


저희는 또한 새로운 실험인 Codex CLI를 공유합니다. 이는 터미널에서 실행할 수 있는 경량 코딩 에이전트입니다. 사용자의 컴퓨터에서 직접 작동하며 o3 및 o4-mini와 같은 모델의 추론 능력을 극대화하도록 설계되었으며, 곧 GPT-4.1⁠과 같은 추가 API 모델도 지원할 예정입니다.


스크린샷이나 간단한 스케치를 모델에 전달하고 로컬 코드에 접근하여 명령줄에서 다중 모드 추론의 이점을 얻을 수 있습니다. 저희는 이를 모델과 사용자 및 사용자 컴퓨터를 연결하는 최소한의 인터페이스로 생각합니다. Codex CLI는 오늘 github.com/openai/codex⁠에서 완전히 오픈 소스로 공개됩니다.


이와 함께, 저희는 Codex CLI 및 OpenAI 모델을 사용하는 프로젝트를 지원하기 위해 1백만 달러 규모의 이니셔티브를 시작합니다. 미화 25,000달러 단위의 API 크레딧 형태로 보조금 신청서를 평가하고 수락할 것입니다. 제안서는 여기에서 제출할 수 있습니다.



이용 안내


ChatGPT Plus, Pro, Team 사용자는 오늘부터 모델 선택기에서 o1, o3-mini, o3-mini-high를 대체하는 o3, o4-mini, o4-mini-high를 볼 수 있습니다. ChatGPT Enterprise 및 Edu 사용자는 일주일 후에 이용할 수 있습니다. 무료 사용자는 쿼리를 제출하기 전에 작성기에서 '생각하기(Think)'를 선택하여 o4-mini를 사용해 볼 수 있습니다. 모든 요금제의 속도 제한은 이전 모델 세트와 동일하게 유지됩니다.


몇 주 안에 완전한 도구 지원을 갖춘 OpenAI o3-pro를 출시할 것으로 예상합니다. 현재 Pro 사용자는 여전히 o1-pro에 접근할 수 있습니다.


o3와 o4-mini 모두 오늘부터 Chat Completions API 및 Responses API를 통해 개발자에게도 제공됩니다(일부 개발자는 이러한 모델에 접근하기 위해 조직 인증⁠이 필요할 수 있습니다). Responses API는 추론 요약, 더 나은 성능을 위해 함수 호출 주변의 추론 토큰을 보존하는 기능 등을 지원하며, 곧 모델의 추론 내에서 웹 검색, 파일 검색, 코드 인터프리터와 같은 내장 도구를 지원할 예정입니다. 시작하려면 저희 문서⁠⁠를 살펴보고 추가 업데이트를 기다려 주십시오.



다음 단계


오늘의 업데이트는 저희 모델이 나아갈 방향을 반영합니다: 저희는 o-시리즈의 전문화된 추론 능력과 GPT-시리즈의 보다 자연스러운 대화 능력 및 도구 사용을 융합하고 있습니다. 이러한 강점을 통합함으로써, 저희의 미래 모델은 선제적인 도구 사용 및 고급 문제 해결과 함께 원활하고 자연스러운 대화를 지원할 것입니다.




원문 링크


o3 사용 후기 (vs 2.5 pro)


7af3c028e2f206a26d81f6e34685706e




75f3c028e2f206a26d81f6ed4e84746a




OAI에 좀 편향되게 평가하는 아저씨긴한데 그래도 참고하삼


biomedical scientist임


o3 문제퓰이 개지리는데??? (vs 2.5 pro)


1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef5fd50d4b0b7e255a7ec92dfea5f426189d0115fc2dc27dd65b959



위 문제 이미지로 넣고 풀게 시킴




1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef1f95bd4b0b7e255a79370a77bb9b877c6674443789a563b37e69e

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef0fd55d4b0b7e255a773ec59dbeda1d71a942864bd4b8bea285a34

1ebec223e0dc2bae61abe9e74683716d90d520a0be029ef0ff53d4b0b7e255a71ae4af3bb784bdefe37f16099a1369f3edfc



O3 원큐에 정답


1ebec223e0dc2bae61abe9e74683716d90d520a0be029efdf956d4b4b0ec468c361ffd8aa8c07eda1f772a010030984d52bb


2.5 pro: 밑에 잘렸는데 답 9 라고함 = ㅂㅅ






39b5d535ecdc3fb362bec4bc02c8696fb256f44f73920dade12f07d4422a1eb621fb9859998dd69cf3998437a1cd1f8c81b3





추가로 o1 pro, o3 mini, grok3 다 못풀었었음
옛날에 이미 다 시켜봄

- dc official App

속보) 애니프사의 o3 / o4mh 사용후기...jpg


24b0d121e09c28a8699fe8b115ef0464d289e0cf


24b0d121e09c28a8699fe8b115ef046c65f32e479f


24b0d121e09c28a8699fe8b115ef0468e6adedbb


24b0d121e09c28a8699fe8b115ef046ec840caf7


24b0d121e09c28a8699fe8b115ef046f5c45989fa8


24b0d121e09c28a8699fe8b115ef0464de89e6cd


24b0d121e09c28a8699fe8b115ef0468e3a2edb2


24b0d121e09c28a8699fe8b115ef046c67f02d4c9c



속보) o3 시간맞추기 최초성공


지금까지 시계보고 시간맞추는 모델은 없었는데 o3가 최초 통과함. o4미니는 실패

1ebec223e0dc2bae61abe9e74683716d90d520a0bf069bf7f955d4b0b7e255a74642e1bbf66df8fbd581eb1ccee34299fd70

- dc official App


출처: 특이점이 온다 갤러리 [원본 보기]

추천 비추천

67

고정닉 33

17

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 새로운 워터밤 여신으로 자리잡을 것 같은 스타는? 운영자 25/05/19 - -
AD 밥은 먹고 다니냐? 배민 할인쿠폰 쏜다!! 운영자 25/05/21 - -
공지 실시간베스트 갤러리 이용 안내 [3332/2] 운영자 21.11.18 12326035 552
332626
썸네일
[해갤] 커뮤에서 축구팬들이 손흥민팬들을 싫어하는 이유.jpg
[189]
ㅇㅇ(211.234) 01:55 17810 145
332624
썸네일
[카연] 미카 마코토 유우카의 좌충우돌 아엔 구입 대작전!!(feat.유루캠)
[50]
칸나쉐이키갤로그로 이동합니다. 01:45 8780 40
332620
썸네일
[잡갤] 너무 다른 남매사이
[175]
한지수갤로그로 이동합니다. 01:25 22093 69
332618
썸네일
[싱갤] 궁금궁금 다운증후군은 왜 생길까
[332]
Na-Ho갤로그로 이동합니다. 01:15 28985 190
332616
썸네일
[디갤] 점심시간 빌트록스 50mm f2 SOOC
[17]
두부부침갤로그로 이동합니다. 01:05 7735 8
332614
썸네일
[기갤] 여론조사 전화, 요즘 안 오는 이유...jpg
[155]
ㅇㅇ갤로그로 이동합니다. 00:55 24917 194
332612
썸네일
[싱갤] 싱글벙글 맨홀 밑에서 얼어죽은 남자
[98]
ㅇㅇ갤로그로 이동합니다. 00:45 19923 73
332610
썸네일
[이갤] 나이들어서 과거의 나를 너무 미워하면 안된다는 강지영
[131]
ㅇㅇ(154.47) 00:35 16135 22
332608
썸네일
[오갤] 산지직송 원물 구하기 14(씹스압) - 1
[77]
금태충갤로그로 이동합니다. 00:25 9278 22
332606
썸네일
[카연] 아기용 키우기 (스압)
[97]
밥줘갤로그로 이동합니다. 00:15 9713 56
332604
썸네일
[싱갤] 싱글벙글 요즘 유행하는 임종전 재택의료
[208]
ㅇㅇ갤로그로 이동합니다. 00:05 27077 111
332602
썸네일
[박갤] 일본을 뒤흔들고 있는 3조원대 증권 사기 사건
[153]
ㅇㅇ갤로그로 이동합니다. 05.21 16799 51
332596
썸네일
[유갤] 극한직업 미국 도미노 배달원 브이로그 .jpg
[178]
ㅇㅇ(198.44) 05.21 20979 117
332593
썸네일
[히갤] Marvel 희망<판타스틱4>배우 필모보기 ..jpg
[48]
ㅇㅇ(175.119) 05.21 9544 23
332591
썸네일
[싱갤] 송어 만원짜리 배달 됩니까?
[179]
수산물학살자갤로그로 이동합니다. 05.21 33237 99
332587
썸네일
[디갤] 봄섬 탐조 나머지 사진들
[21]
ㅇUㅇ갤로그로 이동합니다. 05.21 6720 21
332584
썸네일
[카연] 에어팟 사러 온 쇼추가 싸게 해주는 누나 만난 만화. Manhwa
[90]
위무무갤로그로 이동합니다. 05.21 18778 161
332581
썸네일
[이갤] ???: 저는 애가 없어서 모르죠~
[473]
슈붕이(46.250) 05.21 20448 17
332578
썸네일
[싱갤] 분석분석 결혼의향 3년새 11퍼센트 증가했다 (스압)
[391]
ㅇㅇ갤로그로 이동합니다. 05.21 14741 150
332575
썸네일
[이갤] 한국의 악마적 소년범들
[125]
ㅇㅇ갤로그로 이동합니다. 05.21 16824 79
332572
썸네일
[유갤] 인기웹툰 <좀비딸>실사영화 싱크로률 비교....jpg
[179]
ㅇㅇ(175.119) 05.21 18325 39
332569
썸네일
[싱갤] 싱글벙글 내면의 기가채드 원조인 영화
[141]
ㅇㅇ갤로그로 이동합니다. 05.21 16512 70
332563
썸네일
[싱갤] 오싹오싹 운석이 존나 쎈 이유 ...jpg
[197]
ㅇㅇ갤로그로 이동합니다. 05.21 29590 80
332560
썸네일
[디갤] (jpg용량조심) 베트남 여행사진
[14]
ㅇㅇ갤로그로 이동합니다. 05.21 8850 17
332557
썸네일
[토갤] (토트넘우승기원) 지금까지 모은 23장 토트넘 유니폼들입니다
[129]
ㅇㅇ갤로그로 이동합니다. 05.21 11754 123
332554
썸네일
[마갤] 음식만들기 12~14편. 치즈 퐁뒤, 야채볶음, 조개찜
[87]
수장미갤로그로 이동합니다. 05.21 10909 66
332551
썸네일
[싱갤] 훌쩍훌쩍 수십년만에 눈앞에 나타난 아내의 모습
[243]
수인갤러리갤로그로 이동합니다. 05.21 28473 170
332548
썸네일
[중갤] (스압) 내일 시작될 게임쇼 플엑2025에 대해 알아봅시다
[96]
중붕아빠갤로그로 이동합니다. 05.21 15841 61
332545
썸네일
[마갤] 모비노기 처음 했을때 만화.manhwa
[103]
하나쨩갤로그로 이동합니다. 05.21 27055 108
332542
썸네일
[싱갤] 싱글벙글 아동 학대로 딸을 죽게 만든 부모에게 미국 판사가 내린 판결
[147]
니지카엘갤로그로 이동합니다. 05.21 17046 163
332539
썸네일
[챗갤] 업데이트된 제미나이
[95]
ㅇㅇ(175.207) 05.21 22894 88
332536
썸네일
[배갤] 독일의 성문화
[196]
진소담갤로그로 이동합니다. 05.21 32801 107
332530
썸네일
[주갤] 남페미로서 페미 이슈를 이해시켜 보겠다는 블라인
[381]
ㅇㅇ(211.234) 05.21 24761 254
332527
썸네일
[싱갤] 싱글벙글 1컷만화 빌런
[98]
Dd갤로그로 이동합니다. 05.21 20332 87
332525
썸네일
[야갤] 펌) 중앙대 학생들 진짜 다 연기했어??
[140]
야갤러(106.102) 05.21 30239 45
332522
썸네일
[기갤] 요즘 한강에선, 배달음식 이렇게 시킨다.jpg
[455]
ㅇㅇ갤로그로 이동합니다. 05.21 35859 103
332518
썸네일
[카연] 미용실만화 35
[19]
엄국수갤로그로 이동합니다. 05.21 9936 13
332515
썸네일
[데갤] 규현의 편집탓, 그리고 서바 출연자가 말하는 방송에 비친 나.jpg
[66]
ㅇㅇ갤로그로 이동합니다. 05.21 24217 197
332511
썸네일
[싱갤] 싱글벙글 사촌동생을 전기톱으로 살해
[342]
ㅇㅇ갤로그로 이동합니다. 05.21 31055 151
332509
썸네일
[기갤] 뉴진스 vs 어도어 대결 근황..
[297]
긷갤러(106.102) 05.21 30636 110
332505
썸네일
[싱갤] 싱글벙글 9만원짜리 코코넛 크랩
[232]
ㅇㅇ갤로그로 이동합니다. 05.21 46097 348
332502
썸네일
[중갤] 루머) 락스타 해킹 당하여 GTA 6 420GB의 자료가 유출
[313]
애허해후애갤로그로 이동합니다. 05.21 29166 177
332499
썸네일
[이갤] “여자는 말대꾸 금지” 고교생에 ‘신상 털이’…경찰 조사
[540]
ㅇㅇ갤로그로 이동합니다. 05.21 26928 165
332496
썸네일
[카연] 상이군인 나타샤 만화 (15)
[57]
리호갤로그로 이동합니다. 05.21 11734 147
332493
썸네일
[싱갤] 알쏭달쏭 고종은 독살되었을까?
[190]
ㅇㅇ갤로그로 이동합니다. 05.21 14434 106
332491
썸네일
[새갤] 이재명"10만원이라도 돈이 왔다갔다하면 100만원..경제활성화"
[1174]
국사갤로그로 이동합니다. 05.21 33992 245
332489
썸네일
[해갤] 야구부장이 밝힌 창원시의 행태
[144]
ㅇㅇ(211.234) 05.21 17204 107
332487
썸네일
[싱갤] 낭만낭만 70살 할배한테 그냥 '종도야'라고 부르는 이웃집 아이.jp
[142]
수인갤러리갤로그로 이동합니다. 05.21 19515 105
332485
썸네일
[중갤] '노동부 장관' 김문수, SPC 사고 하루동안 침묵 "일정이 바빠서"
[260]
ㅇㅇ갤로그로 이동합니다. 05.21 20510 71
뉴스 ‘돌싱’ 박은혜 “누가 이혼한다 하면 말려, 후회한다” 디시트렌드 05.21
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2