디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개

aimatters갤로그로 이동합니다. 2025.12.08 17:13:38
조회 2750 추천 5 댓글 5


엔비디아(NVIDIA)가 작은 AI 모델로 GPT-5보다 더 나은 성능을 내는 새로운 방법을 공개했다. '툴오케스트라(ToolOrchestra)'라는 이름의 이 기술로 만든 AI는 크기가 GPT-5보다 훨씬 작지만, 어려운 문제를 푸는 정답률에서 GPT-5를 앞질렀고 비용은 2.5배나 저렴했다. 이 AI의 비결은 혼자 모든 걸 해결하려 하지 않고, 상황에 맞는 전문가 AI들에게 일을 나눠주는 '지휘자' 역할을 한다는 점이다. AI 업계에서 '크면 클수록 좋다'는 통념을 뒤집는 결과로 주목받고 있다.



혼자 다 하지 않고, 전문가에게 맡긴다... AI계의 '지휘자' 등장

해당 논문에 따르면, 툴오케스트라는 기존 AI와 완전히 다른 방식으로 작동한다. 지금까지 대부분의 AI는 하나의 거대한 모델이 검색이나 계산 같은 보조 기능의 도움을 받아 모든 문제를 직접 해결했다. 하지만 툴오케스트라는 작은 '지휘자 AI'를 중심에 두고, 여러 전문가 AI들을 상황에 맞게 불러 쓴다.

엔비디아 연구팀은 사람이 어려운 문제를 풀 때 자기 지식만 쓰지 않고 전문가나 전문 프로그램의 도움을 받는다는 점에 주목했다. 예를 들어 복잡한 세무 문제가 생기면 세무사에게 물어보고, 법률 문제는 변호사에게 맡기는 식이다. 이런 아이디어를 AI에 적용한 것이 툴오케스트라다. 이 방식에서는 여러 AI가 협력해서 만들어내는 '팀워크'가 핵심이다.

지휘자 AI가 부릴 수 있는 '전문가'의 범위도 넓다. 수학 문제에 특화된 AI인 Qwen2.5-Math-72B, 프로그래밍에 강한 Qwen2.5-Coder-32B, 그리고 GPT-5나 Claude Opus 4.1 같은 범용 AI까지 다양하다. 지휘자 AI는 문제마다 어떤 전문가를 쓸지, 비용과 성능을 따져가며 실시간으로 결정한다.





정답률 37.1% vs GPT-5 35.1%... 비용은 30%만 썼다

엔비디아의 지휘자 AI 성능은 여러 시험에서 입증됐다. '인류 최후의 시험(HLE)'이라는 이름의 테스트는 박사급 난이도로, 수학부터 인문학, 자연과학까지 다양한 분야의 초고난도 문제들로 구성돼 있다. 여기서 엔비디아 AI는 37.1%의 정답률을 기록했다. 이는 GPT-5의 35.1%와 Claude Opus 4.1의 34.6%보다 높은 수치다.

더 놀라운 건 비용과 처리 시간이다. 엔비디아 AI는 평균 문제당 9.2센트의 비용과 8.2분의 시간이 걸렸다. 반면 GPT-5는 30.2센트와 19.8분, Claude Opus 4.1은 52.5센트와 25.6분이 필요했다. 엔비디아 AI가 GPT-5의 30%만 쓰고도 더 좋은 성능을 냈다는 의미다. 다른 시험에서도 비슷한 결과가 나왔다. 정보 검색과 추론을 테스트하는 'FRAMES'에서는 76.3%로 GPT-5(74.0%)를 넘어섰고, 대화하며 문제를 푸는 능력을 보는 'τ²-Bench'에서는 80.2%로 GPT-5(77.7%)보다 높았다. 특히 τ²-Bench에서 엔비디아 AI는 전체 단계 중 40%만 비싼 GPT-5를 쓰고 나머지는 저렴한 AI나 도구를 활용했는데도, 매번 GPT-5를 쓰는 방식보다 성적이 좋았다.

추천 비추천

5

고정닉 0

2

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 며느리, 사위로 만나면 부담스러울 것 같은 스타는? 운영자 26/03/09 - -
2169 미국 10대 64%가 AI 챗봇을 쓰는 시대, 부모 10명 중 3명은 사실조차 모른다 aimatters갤로그로 이동합니다. 13:59 264 0
2168 챗GPT가 스택 오버플로를 오염시키고 있다, AI가 AI를 잡아낸다 aimatters갤로그로 이동합니다. 13:59 17 0
2167 AI가 해커보다 먼저 움직인다, CISO들이 선택한 생존 전략 aimatters갤로그로 이동합니다. 13:59 8 0
2166 아마존, 헬스케어 AI 어시스턴트 전면 개방…프라임 회원 아니어도 무료 이용 aimatters갤로그로 이동합니다. 13:59 9 0
2165 포켓몬 고가 배달 로봇의 눈이 됐다…나이언틱의 AI 지도 혁명 aimatters갤로그로 이동합니다. 13:59 12 0
2164 "답할까, 거절할까, 추측할까"…애피어, AI 의사결정 신뢰성 높이는 연구 발표 aimatters갤로그로 이동합니다. 13:59 6 0
2163 "이 노래, AI가 만들었나요?"…애플 뮤직, AI 생성 음악 표시 태그 도입 aimatters갤로그로 이동합니다. 13:59 230 0
2162 벚꽃 사진 한 장으로 개화일 뚝딱…일본 날씨 앱, AI 벚꽃 개화 예측 서비스 시작 aimatters갤로그로 이동합니다. 13:59 10 0
2161 AI 도구 '에코넥스트', 심장 전문의보다 정확하게 구조적 심장질환 잡아냈다 aimatters갤로그로 이동합니다. 13:59 7 0
2160 "병원∙약국 최저가 AI가 챙긴다"…CVS 헬스, 구글 클라우드와 AI 헬스케어 플랫폼 출시 aimatters갤로그로 이동합니다. 13:59 7 0
2159 AI가 만든 영상인지 모르고 봤다, 소라 사용자 254명이 털어놓은 충격 반응 [5] aimatters갤로그로 이동합니다. 03.10 2417 3
2158 사진 한 장으로 내 얼굴·손동작까지 살아 움직이는 AI 영상 만든다... 클링-모션 컨트롤 출시 aimatters갤로그로 이동합니다. 03.10 51 0
2157 챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다 aimatters갤로그로 이동합니다. 03.10 41 0
2156 "경쟁사도 우리 편"…오픈AI·구글 직원들, 앤트로픽 국방부 소송 공개 지지 aimatters갤로그로 이동합니다. 03.10 37 0
2155 AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽, 코드 리뷰 툴 정식 출시 [3] aimatters갤로그로 이동합니다. 03.10 1212 2
2154 오픈AI, AI 보안 스타트업 프롬프트푸 인수…에이전트 보안 강화 나선다 aimatters갤로그로 이동합니다. 03.10 33 0
2153 "3시간 경기보다 15초의 순간"…AI가 야구 콘텐츠 판을 바꾼다 aimatters갤로그로 이동합니다. 03.09 1075 1
2152 "상상이 현실이 된다"…PixAI, 차세대 AI 이미지 모델 '츠바키.2' 공개 [1] aimatters갤로그로 이동합니다. 03.09 1249 2
2151 35만원 싸게 살 수 있다…에이서, 인텔 팬서레이크 탑재 'AI 노트북' 예약 판매 시작 aimatters갤로그로 이동합니다. 03.09 1230 0
2150 "온 디바이스 AI폰의 종결자"…갤럭시 S26, 이제는 'AI 에이전트폰'이다 aimatters갤로그로 이동합니다. 03.09 120 0
2149 AI 에이전트 스킬 마켓플레이스의 민낯, 4만 개 분석하니 절반이 중복이고 9%는 위험했다 aimatters갤로그로 이동합니다. 03.09 30 0
2148 구글 나노 바나나가 만든 가짜 흉부 X선으로 폐렴을 92% 정확도로 잡아냈다 aimatters갤로그로 이동합니다. 03.09 95 0
2147 AI 이미지 생성의 공식이 나왔다, 구조화된 프롬프트가 일관성을 95%까지 끌어올린다 aimatters갤로그로 이동합니다. 03.09 47 0
2146 앤트로픽이 '적'에서 '동반자'로…소프트웨어 주가 반등 aimatters갤로그로 이동합니다. 03.09 36 0
2145 "대량 해고? 그런 건 없다"…세일즈포스 CEO, AI발 고용 공포에 선 그었다 aimatters갤로그로 이동합니다. 03.09 33 0
2144 "내 사랑하는 큐웬, 안녕"…알리바바 AI 핵심 인재 연쇄 이탈 aimatters갤로그로 이동합니다. 03.09 40 0
2143 AI 비용 효율 최고는 앤트로픽...비결은 이중 하이퍼스케일러, 오픈AI는 엔비디아 칩만 써 aimatters갤로그로 이동합니다. 03.09 26 0
2142 의사 시험 붙은 GPT, 수능 지구과학 앞에서 멘붕... aimatters갤로그로 이동합니다. 03.09 43 0
2141 집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유 [5] aimatters갤로그로 이동합니다. 03.06 1744 1
2140 AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀 aimatters갤로그로 이동합니다. 03.06 39 0
2139 AI가 지도를 공부한 게 아니었다? 단어 패턴만으로 세계 지리를 꿰뚫는 충격 실험 aimatters갤로그로 이동합니다. 03.06 49 0
2138 "추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다"…오픈AI, GPT-5.4 전격 공개 [2] aimatters갤로그로 이동합니다. 03.06 1574 0
2137 "안보 위협" 낙인 찍혔지만…아모데이, 펜타곤과 재협상 나섰다 aimatters갤로그로 이동합니다. 03.06 21 0
2136 "IPO 때문"이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다 aimatters갤로그로 이동합니다. 03.06 37 0
2135 직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면 aimatters갤로그로 이동합니다. 03.06 118 1
2134 "오픈AI는 거짓말쟁이"…앤트로픽 CEO, 군 계약 두고 샘 알트만에 정면 돌파 aimatters갤로그로 이동합니다. 03.05 54 0
2133 구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방 aimatters갤로그로 이동합니다. 03.05 55 0
2132 "AI 아내와 메타버스로"…제미나이가 36세 남성을 망상과 죽음으로 이끌었나 aimatters갤로그로 이동합니다. 03.05 72 0
2131 아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것 aimatters갤로그로 이동합니다. 03.05 38 0
2130 말만 하면 AI가 생각을 정리해주는 시대, '오럴리티'가 바꾸는 사고의 방식 aimatters갤로그로 이동합니다. 03.05 33 0
2129 AI가 쓴 코드, 누가 만들었는지 밝혀낸다…챗GPT vs 클로드 판별 성공 aimatters갤로그로 이동합니다. 03.05 42 0
2128 AI가 빨강과 파랑을 구분 못하는 이유, 프린스턴대가 풀었다 aimatters갤로그로 이동합니다. 03.05 31 0
2127 "진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다 [3] aimatters갤로그로 이동합니다. 03.04 1665 0
2126 AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들 aimatters갤로그로 이동합니다. 03.04 28 0
2125 말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재 aimatters갤로그로 이동합니다. 03.04 45 0
2124 AI가 연구자 대신 논문 댓글까지 분류한다, 단돈 6천 원으로 5만 건을 aimatters갤로그로 이동합니다. 03.04 25 0
2123 챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에 aimatters갤로그로 이동합니다. 03.04 47 0
2122 AI가 시각장애인의 'DIY 설명서' 읽어주면 절반은 틀린다 aimatters갤로그로 이동합니다. 03.04 18 0
2121 트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결 aimatters갤로그로 이동합니다. 03.03 42 0
2120 "데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개 aimatters갤로그로 이동합니다. 03.03 40 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2