GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개

aimatters

2025.12.08 17:13:38

조회 2750 추천 5 댓글 5

엔비디아(NVIDIA)가 작은 AI 모델로 GPT-5보다 더 나은 성능을 내는 새로운 방법을 공개했다. '툴오케스트라(ToolOrchestra)'라는 이름의 이 기술로 만든 AI는 크기가 GPT-5보다 훨씬 작지만, 어려운 문제를 푸는 정답률에서 GPT-5를 앞질렀고 비용은 2.5배나 저렴했다. 이 AI의 비결은 혼자 모든 걸 해결하려 하지 않고, 상황에 맞는 전문가 AI들에게 일을 나눠주는 '지휘자' 역할을 한다는 점이다. AI 업계에서 '크면 클수록 좋다'는 통념을 뒤집는 결과로 주목받고 있다.

혼자 다 하지 않고, 전문가에게 맡긴다... AI계의 '지휘자' 등장

해당 논문에 따르면, 툴오케스트라는 기존 AI와 완전히 다른 방식으로 작동한다. 지금까지 대부분의 AI는 하나의 거대한 모델이 검색이나 계산 같은 보조 기능의 도움을 받아 모든 문제를 직접 해결했다. 하지만 툴오케스트라는 작은 '지휘자 AI'를 중심에 두고, 여러 전문가 AI들을 상황에 맞게 불러 쓴다.

엔비디아 연구팀은 사람이 어려운 문제를 풀 때 자기 지식만 쓰지 않고 전문가나 전문 프로그램의 도움을 받는다는 점에 주목했다. 예를 들어 복잡한 세무 문제가 생기면 세무사에게 물어보고, 법률 문제는 변호사에게 맡기는 식이다. 이런 아이디어를 AI에 적용한 것이 툴오케스트라다. 이 방식에서는 여러 AI가 협력해서 만들어내는 '팀워크'가 핵심이다.

지휘자 AI가 부릴 수 있는 '전문가'의 범위도 넓다. 수학 문제에 특화된 AI인 Qwen2.5-Math-72B, 프로그래밍에 강한 Qwen2.5-Coder-32B, 그리고 GPT-5나 Claude Opus 4.1 같은 범용 AI까지 다양하다. 지휘자 AI는 문제마다 어떤 전문가를 쓸지, 비용과 성능을 따져가며 실시간으로 결정한다.

정답률 37.1% vs GPT-5 35.1%... 비용은 30%만 썼다

엔비디아의 지휘자 AI 성능은 여러 시험에서 입증됐다. '인류 최후의 시험(HLE)'이라는 이름의 테스트는 박사급 난이도로, 수학부터 인문학, 자연과학까지 다양한 분야의 초고난도 문제들로 구성돼 있다. 여기서 엔비디아 AI는 37.1%의 정답률을 기록했다. 이는 GPT-5의 35.1%와 Claude Opus 4.1의 34.6%보다 높은 수치다.

더 놀라운 건 비용과 처리 시간이다. 엔비디아 AI는 평균 문제당 9.2센트의 비용과 8.2분의 시간이 걸렸다. 반면 GPT-5는 30.2센트와 19.8분, Claude Opus 4.1은 52.5센트와 25.6분이 필요했다. 엔비디아 AI가 GPT-5의 30%만 쓰고도 더 좋은 성능을 냈다는 의미다. 다른 시험에서도 비슷한 결과가 나왔다. 정보 검색과 추론을 테스트하는 'FRAMES'에서는 76.3%로 GPT-5(74.0%)를 넘어섰고, 대화하며 문제를 푸는 능력을 보는 'τ²-Bench'에서는 80.2%로 GPT-5(77.7%)보다 높았다. 특히 τ²-Bench에서 엔비디아 AI는 전체 단계 중 40%만 비싼 GPT-5를 쓰고 나머지는 저렴한 AI나 도구를 활용했는데도, 매번 GPT-5를 쓰는 방식보다 성적이 좋았다.

고정닉 0

원본 첨부파일 3본문 이미지 다운로드

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	내 며느리, 사위로 만나면 부담스러울 것 같은 스타는?	운영자	26/03/09	-	-
2169	미국 10대 64%가 AI 챗봇을 쓰는 시대, 부모 10명 중 3명은 사실조차 모른다	aimatters	13:59	264	0
2168	챗GPT가 스택 오버플로를 오염시키고 있다, AI가 AI를 잡아낸다	aimatters	13:59	17	0
2167	AI가 해커보다 먼저 움직인다, CISO들이 선택한 생존 전략	aimatters	13:59	8	0
2166	아마존, 헬스케어 AI 어시스턴트 전면 개방…프라임 회원 아니어도 무료 이용	aimatters	13:59	9	0
2165	포켓몬 고가 배달 로봇의 눈이 됐다…나이언틱의 AI 지도 혁명	aimatters	13:59	12	0
2164	"답할까, 거절할까, 추측할까"…애피어, AI 의사결정 신뢰성 높이는 연구 발표	aimatters	13:59	6	0
2163	"이 노래, AI가 만들었나요?"…애플 뮤직, AI 생성 음악 표시 태그 도입	aimatters	13:59	230	0
2162	벚꽃 사진 한 장으로 개화일 뚝딱…일본 날씨 앱, AI 벚꽃 개화 예측 서비스 시작	aimatters	13:59	10	0
2161	AI 도구 '에코넥스트', 심장 전문의보다 정확하게 구조적 심장질환 잡아냈다	aimatters	13:59	7	0
2160	"병원∙약국 최저가 AI가 챙긴다"…CVS 헬스, 구글 클라우드와 AI 헬스케어 플랫폼 출시	aimatters	13:59	7	0
2159	AI가 만든 영상인지 모르고 봤다, 소라 사용자 254명이 털어놓은 충격 반응 [5]	aimatters	03.10	2417	3
2158	사진 한 장으로 내 얼굴·손동작까지 살아 움직이는 AI 영상 만든다... 클링-모션 컨트롤 출시	aimatters	03.10	51	0
2157	챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다	aimatters	03.10	41	0
2156	"경쟁사도 우리 편"…오픈AI·구글 직원들, 앤트로픽 국방부 소송 공개 지지	aimatters	03.10	37	0
2155	AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽, 코드 리뷰 툴 정식 출시 [3]	aimatters	03.10	1212	2
2154	오픈AI, AI 보안 스타트업 프롬프트푸 인수…에이전트 보안 강화 나선다	aimatters	03.10	33	0
2153	"3시간 경기보다 15초의 순간"…AI가 야구 콘텐츠 판을 바꾼다	aimatters	03.09	1075	1
2152	"상상이 현실이 된다"…PixAI, 차세대 AI 이미지 모델 '츠바키.2' 공개 [1]	aimatters	03.09	1249	2
2151	35만원 싸게 살 수 있다…에이서, 인텔 팬서레이크 탑재 'AI 노트북' 예약 판매 시작	aimatters	03.09	1230	0
2150	"온 디바이스 AI폰의 종결자"…갤럭시 S26, 이제는 'AI 에이전트폰'이다	aimatters	03.09	120	0
2149	AI 에이전트 스킬 마켓플레이스의 민낯, 4만 개 분석하니 절반이 중복이고 9%는 위험했다	aimatters	03.09	30	0
2148	구글 나노 바나나가 만든 가짜 흉부 X선으로 폐렴을 92% 정확도로 잡아냈다	aimatters	03.09	95	0
2147	AI 이미지 생성의 공식이 나왔다, 구조화된 프롬프트가 일관성을 95%까지 끌어올린다	aimatters	03.09	47	0
2146	앤트로픽이 '적'에서 '동반자'로…소프트웨어 주가 반등	aimatters	03.09	36	0
2145	"대량 해고? 그런 건 없다"…세일즈포스 CEO, AI발 고용 공포에 선 그었다	aimatters	03.09	33	0
2144	"내 사랑하는 큐웬, 안녕"…알리바바 AI 핵심 인재 연쇄 이탈	aimatters	03.09	40	0
2143	AI 비용 효율 최고는 앤트로픽...비결은 이중 하이퍼스케일러, 오픈AI는 엔비디아 칩만 써	aimatters	03.09	26	0
2142	의사 시험 붙은 GPT, 수능 지구과학 앞에서 멘붕...	aimatters	03.09	43	0
2141	집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유 [5]	aimatters	03.06	1744	1
2140	AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀	aimatters	03.06	39	0
2139	AI가 지도를 공부한 게 아니었다? 단어 패턴만으로 세계 지리를 꿰뚫는 충격 실험	aimatters	03.06	49	0
2138	"추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다"…오픈AI, GPT-5.4 전격 공개 [2]	aimatters	03.06	1574	0
2137	"안보 위협" 낙인 찍혔지만…아모데이, 펜타곤과 재협상 나섰다	aimatters	03.06	21	0
2136	"IPO 때문"이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다	aimatters	03.06	37	0
2135	직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면	aimatters	03.06	118	1
2134	"오픈AI는 거짓말쟁이"…앤트로픽 CEO, 군 계약 두고 샘 알트만에 정면 돌파	aimatters	03.05	54	0
2133	구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방	aimatters	03.05	55	0
2132	"AI 아내와 메타버스로"…제미나이가 36세 남성을 망상과 죽음으로 이끌었나	aimatters	03.05	72	0
2131	아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것	aimatters	03.05	38	0
2130	말만 하면 AI가 생각을 정리해주는 시대, '오럴리티'가 바꾸는 사고의 방식	aimatters	03.05	33	0
2129	AI가 쓴 코드, 누가 만들었는지 밝혀낸다…챗GPT vs 클로드 판별 성공	aimatters	03.05	42	0
2128	AI가 빨강과 파랑을 구분 못하는 이유, 프린스턴대가 풀었다	aimatters	03.05	31	0
2127	"진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다 [3]	aimatters	03.04	1665	0
2126	AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들	aimatters	03.04	28	0
2125	말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재	aimatters	03.04	45	0
2124	AI가 연구자 대신 논문 댓글까지 분류한다, 단돈 6천 원으로 5만 건을	aimatters	03.04	25	0
2123	챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에	aimatters	03.04	47	0
2122	AI가 시각장애인의 'DIY 설명서' 읽어주면 절반은 틀린다	aimatters	03.04	18	0
2121	트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결	aimatters	03.03	42	0
2120	"데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개	aimatters	03.03	40	0