디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개

aimatters갤로그로 이동합니다. 2025.12.08 17:13:38
조회 2730 추천 5 댓글 5
														


엔비디아(NVIDIA)가 작은 AI 모델로 GPT-5보다 더 나은 성능을 내는 새로운 방법을 공개했다. '툴오케스트라(ToolOrchestra)'라는 이름의 이 기술로 만든 AI는 크기가 GPT-5보다 훨씬 작지만, 어려운 문제를 푸는 정답률에서 GPT-5를 앞질렀고 비용은 2.5배나 저렴했다. 이 AI의 비결은 혼자 모든 걸 해결하려 하지 않고, 상황에 맞는 전문가 AI들에게 일을 나눠주는 '지휘자' 역할을 한다는 점이다. AI 업계에서 '크면 클수록 좋다'는 통념을 뒤집는 결과로 주목받고 있다.



혼자 다 하지 않고, 전문가에게 맡긴다... AI계의 '지휘자' 등장

해당 논문에 따르면, 툴오케스트라는 기존 AI와 완전히 다른 방식으로 작동한다. 지금까지 대부분의 AI는 하나의 거대한 모델이 검색이나 계산 같은 보조 기능의 도움을 받아 모든 문제를 직접 해결했다. 하지만 툴오케스트라는 작은 '지휘자 AI'를 중심에 두고, 여러 전문가 AI들을 상황에 맞게 불러 쓴다.

엔비디아 연구팀은 사람이 어려운 문제를 풀 때 자기 지식만 쓰지 않고 전문가나 전문 프로그램의 도움을 받는다는 점에 주목했다. 예를 들어 복잡한 세무 문제가 생기면 세무사에게 물어보고, 법률 문제는 변호사에게 맡기는 식이다. 이런 아이디어를 AI에 적용한 것이 툴오케스트라다. 이 방식에서는 여러 AI가 협력해서 만들어내는 '팀워크'가 핵심이다.

지휘자 AI가 부릴 수 있는 '전문가'의 범위도 넓다. 수학 문제에 특화된 AI인 Qwen2.5-Math-72B, 프로그래밍에 강한 Qwen2.5-Coder-32B, 그리고 GPT-5나 Claude Opus 4.1 같은 범용 AI까지 다양하다. 지휘자 AI는 문제마다 어떤 전문가를 쓸지, 비용과 성능을 따져가며 실시간으로 결정한다.





정답률 37.1% vs GPT-5 35.1%... 비용은 30%만 썼다

엔비디아의 지휘자 AI 성능은 여러 시험에서 입증됐다. '인류 최후의 시험(HLE)'이라는 이름의 테스트는 박사급 난이도로, 수학부터 인문학, 자연과학까지 다양한 분야의 초고난도 문제들로 구성돼 있다. 여기서 엔비디아 AI는 37.1%의 정답률을 기록했다. 이는 GPT-5의 35.1%와 Claude Opus 4.1의 34.6%보다 높은 수치다.

더 놀라운 건 비용과 처리 시간이다. 엔비디아 AI는 평균 문제당 9.2센트의 비용과 8.2분의 시간이 걸렸다. 반면 GPT-5는 30.2센트와 19.8분, Claude Opus 4.1은 52.5센트와 25.6분이 필요했다. 엔비디아 AI가 GPT-5의 30%만 쓰고도 더 좋은 성능을 냈다는 의미다. 다른 시험에서도 비슷한 결과가 나왔다. 정보 검색과 추론을 테스트하는 'FRAMES'에서는 76.3%로 GPT-5(74.0%)를 넘어섰고, 대화하며 문제를 푸는 능력을 보는 'τ²-Bench'에서는 80.2%로 GPT-5(77.7%)보다 높았다. 특히 τ²-Bench에서 엔비디아 AI는 전체 단계 중 40%만 비싼 GPT-5를 쓰고 나머지는 저렴한 AI나 도구를 활용했는데도, 매번 GPT-5를 쓰는 방식보다 성적이 좋았다.

추천 비추천

5

고정닉 0

2

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 관리 맡기고 싶은 재태크 고수 같은 스타는? 운영자 26/01/12 - -
1889 구글-캐릭터AI, 10대 자살 소송 합의... "챗봇이 죽음 부추겨" aimatters갤로그로 이동합니다. 01.09 47 0
1888 구글 "지메일, AI 비서로 진화"... 제미나이 탑재로 이메일 자동 정리·작성   aimatters갤로그로 이동합니다. 01.09 32 0
1887 일론 머스크 "AI·로봇 때문에 모든 물건 가격 떨어진다… 아니면 국가 파산할 것" aimatters갤로그로 이동합니다. 01.09 42 0
1886 일론 머스크 "지금 대학 갈 이유 모르겠다… AI가 개인 교사될 것" [34] aimatters갤로그로 이동합니다. 01.09 2361 16
1885 지원자는 AI로 자소서 쓰고, 기업은 AI로 평가… 2026년 AI 채용 트렌드 분석 aimatters갤로그로 이동합니다. 01.09 54 0
1884 남성은 쓰고 여성은 망설인다... AI 격차가 만들 새로운 '성별 격차'  aimatters갤로그로 이동합니다. 01.09 60 0
1883 저소득 국가, AI 시대에 낙오 위기... OECD "생산성 격차 2배로 벌어질 것" aimatters갤로그로 이동합니다. 01.09 30 0
1882 [1월 9일 AI 뉴스 브리핑] 레노버, 2026 FIFA 월드컵 AI 솔루션 공개 외 aimatters갤로그로 이동합니다. 01.09 18 0
1881 오픈AI, 건강 관리 AI '챗GPT 헬스' 출시... 개인 맞춤형 의료 상담해준다 [1] aimatters갤로그로 이동합니다. 01.08 540 2
1880 미국 유타주, AI 처방전 발급 허용… 의사 없어도 약 받는다 aimatters갤로그로 이동합니다. 01.08 42 0
1879 AI로 음식에 파리 합성해 환불..? 배달앱 대상 사기 급증 [29] aimatters갤로그로 이동합니다. 01.08 2967 15
1878 일론 머스크 "의대 갈 필요 없어… 3년 안에 로봇이 최고 외과의 능가" aimatters갤로그로 이동합니다. 01.08 80 0
1877 이제 잠만 자도 질병 예측 가능? 스탠퍼드 AI, 하룻밤 수면으로 130가지 병 찾아낸다 [5] aimatters갤로그로 이동합니다. 01.08 1057 5
1876 일론 머스크 "올해 AGI 도달할 것… 현재 AI로 화이트칼라 절반 이상 대체 가능" [1] aimatters갤로그로 이동합니다. 01.08 102 0
1875 AI, 처음으로 일본 변호사 시험 합격... 96점으로 합격선 93점 돌파 aimatters갤로그로 이동합니다. 01.08 64 0
1874 [1월 8일 AI 뉴스 브리핑] 레노버, PC·스마트폰 연동하는 AI 에이전트 공개 외 aimatters갤로그로 이동합니다. 01.08 108 0
1873 AI 시대, 두뇌에 투자하면 6.2조 달러 번다... WEF·맥킨지 보고서 aimatters갤로그로 이동합니다. 01.08 37 0
1872 메타, AI 안경에 텔레프롬프터 기능 추가… 손가락 필기로 메시지 전송까지 [1] aimatters갤로그로 이동합니다. 01.07 1060 3
1871 국내 첫 정부공인 AI 자격증 나왔다… SK AX ‘생성형AI 활용 자격증’ 정부 공인 획득 [20] aimatters갤로그로 이동합니다. 01.07 2474 5
1870 아마존, AI 챗봇 '알렉사+' 웹 버전 공개… 챗GPT처럼 사용 가능 aimatters갤로그로 이동합니다. 01.07 27 0
1869 챗GPT 전체 대화 5%가 건강 상담... 오픈AI, 챗GPT 의료 활용 보고서 공개 aimatters갤로그로 이동합니다. 01.07 70 0
1868 “답변 40% 작성 시점에 오답 예측”… AI 스스로 오류 검증하는 기술 등장 aimatters갤로그로 이동합니다. 01.07 50 0
1867 챗GPT 독주 끝났나… 제미나이에 밀려 트래픽 22% 급락 [38] aimatters갤로그로 이동합니다. 01.07 3518 25
1866 [1월 7일 AI 뉴스 브리핑] 레노버, CES서 하이브리드 AI 포트폴리오 대거 공개 외 aimatters갤로그로 이동합니다. 01.07 28 0
1865 '하나로 다 되는' AI 등장... 이미지-영상 생성·편집 동시에 처리한다 aimatters갤로그로 이동합니다. 01.07 50 0
1864 [1월 5일 AI 뉴스 브리핑] 엘솔루, 국내 최초 GS 인증 AI 번역기 출시 외 aimatters갤로그로 이동합니다. 01.06 25 0
1863 [CES 2026] 현대차, 아틀라스에 제미나이 로보틱스 탑재… 2028년 공장 투입한다 aimatters갤로그로 이동합니다. 01.06 33 0
1862 [CES 2026] 엔비디아, '생각'하며 운전하는 자율주행 AI '알파마요' 공개 aimatters갤로그로 이동합니다. 01.06 93 0
1861 삼성전자, 제미나이 탑재 기기 1년 만에 2배 확대… 올해 8억대 목표 aimatters갤로그로 이동합니다. 01.06 200 0
1860 AI가 정부 업무 생산성 52% 높인다... 액센츄어 "5대 핵심 영역부터 시작하라" aimatters갤로그로 이동합니다. 01.06 34 0
1859 스위스 시계 장인 손동작까지 3D 기록... 명품 브랜드, AI로 '사라지는 기술' 보존 나섰다 aimatters갤로그로 이동합니다. 01.06 34 0
1858 제약회사들, AI로 신약개발 기간 절반으로 줄이고 비용 30% 아꼈다 aimatters갤로그로 이동합니다. 01.06 41 0
1857 [1월 6일 AI 뉴스 브리핑] AMD, CES서 AI PC용 라이젠 신제품 대거 공개 외 aimatters갤로그로 이동합니다. 01.06 24 0
1856 "창업 아이디어 없어도 괜찮아"… 오픈AI, 예비 창업자 육성 프로그램 'Grove' 참가자 모집 aimatters갤로그로 이동합니다. 01.05 51 0
1855 오픈AI "우리 경쟁자는 구글 아닌 애플"… 정작 챗GPT 앱은 '기대 이하' aimatters갤로그로 이동합니다. 01.05 47 0
1854 "고독사 75%가 40~60대"… 한국, AI 안부전화로 중장년 고립 막는다 aimatters갤로그로 이동합니다. 01.05 46 0
1853 악플 달리기 24시간 전 알아챈다… AI 예측 시스템 등장 [19] aimatters갤로그로 이동합니다. 01.05 1758 2
1852 그록 AI, 여성 탈의 이미지 무분별 생성… 국제적 논란 aimatters갤로그로 이동합니다. 01.05 74 0
1851 AI 평가의 역설... 기술 발전 아닌 '관심 끌기' 경쟁으로 변질됐다 aimatters갤로그로 이동합니다. 01.05 29 0
1850 카카오, 계산 실수·환각 대폭 줄인 하이브리드 AI 모델 공개 aimatters갤로그로 이동합니다. 01.05 25 0
1849 유니트리 휴머노이드 로봇, 사람을 향해 발차기... 수박 깨고 하이킥까지  aimatters갤로그로 이동합니다. 01.05 32 0
1848 오픈AI, 오디오 중심 개인 기기 개발 본격화... 올해 출시 목표 aimatters갤로그로 이동합니다. 01.02 46 0
1847 구글, 총상금 1억 4천만원 규모 '제미나이3 해커톤' 개최… 내달 10일 마감 aimatters갤로그로 이동합니다. 01.02 52 0
1846 일론 머스크 xAI, 기업용 그록 공개… 월 4만원대부터 aimatters갤로그로 이동합니다. 01.02 87 1
1845 혼자서도 연 10억 번다... 국내 1인 기업가들, 성공 비법 대공개 [8] aimatters갤로그로 이동합니다. 01.02 2174 1
1844 구글 클라우드, 2026년 AI 에이전트 5대 트렌드 공개 aimatters갤로그로 이동합니다. 01.02 82 0
1843 AI를 믿는 이유? AI가 뛰어나서가 아니라 ‘사람을 못 믿어서’ [19] aimatters갤로그로 이동합니다. 01.02 1659 14
1842 챗GPT 시대, 대학 시험 무용지물 됐다... "결과물 대신 과정 평가해야" aimatters갤로그로 이동합니다. 01.02 73 0
1841 메타, AI 에이전트 스타트업 '마누스' 인수… 에이전트 경쟁 본격화 aimatters갤로그로 이동합니다. 25.12.31 118 0
1840 "500억 지원 놓고 한 팀 탈락"… 국내 AI 빅5, 국가대표 모델 선발전 돌입 aimatters갤로그로 이동합니다. 25.12.31 151 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2