디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개

aimatters갤로그로 이동합니다. 2025.12.08 17:13:38
조회 2735 추천 5 댓글 5
														


엔비디아(NVIDIA)가 작은 AI 모델로 GPT-5보다 더 나은 성능을 내는 새로운 방법을 공개했다. '툴오케스트라(ToolOrchestra)'라는 이름의 이 기술로 만든 AI는 크기가 GPT-5보다 훨씬 작지만, 어려운 문제를 푸는 정답률에서 GPT-5를 앞질렀고 비용은 2.5배나 저렴했다. 이 AI의 비결은 혼자 모든 걸 해결하려 하지 않고, 상황에 맞는 전문가 AI들에게 일을 나눠주는 '지휘자' 역할을 한다는 점이다. AI 업계에서 '크면 클수록 좋다'는 통념을 뒤집는 결과로 주목받고 있다.



혼자 다 하지 않고, 전문가에게 맡긴다... AI계의 '지휘자' 등장

해당 논문에 따르면, 툴오케스트라는 기존 AI와 완전히 다른 방식으로 작동한다. 지금까지 대부분의 AI는 하나의 거대한 모델이 검색이나 계산 같은 보조 기능의 도움을 받아 모든 문제를 직접 해결했다. 하지만 툴오케스트라는 작은 '지휘자 AI'를 중심에 두고, 여러 전문가 AI들을 상황에 맞게 불러 쓴다.

엔비디아 연구팀은 사람이 어려운 문제를 풀 때 자기 지식만 쓰지 않고 전문가나 전문 프로그램의 도움을 받는다는 점에 주목했다. 예를 들어 복잡한 세무 문제가 생기면 세무사에게 물어보고, 법률 문제는 변호사에게 맡기는 식이다. 이런 아이디어를 AI에 적용한 것이 툴오케스트라다. 이 방식에서는 여러 AI가 협력해서 만들어내는 '팀워크'가 핵심이다.

지휘자 AI가 부릴 수 있는 '전문가'의 범위도 넓다. 수학 문제에 특화된 AI인 Qwen2.5-Math-72B, 프로그래밍에 강한 Qwen2.5-Coder-32B, 그리고 GPT-5나 Claude Opus 4.1 같은 범용 AI까지 다양하다. 지휘자 AI는 문제마다 어떤 전문가를 쓸지, 비용과 성능을 따져가며 실시간으로 결정한다.





정답률 37.1% vs GPT-5 35.1%... 비용은 30%만 썼다

엔비디아의 지휘자 AI 성능은 여러 시험에서 입증됐다. '인류 최후의 시험(HLE)'이라는 이름의 테스트는 박사급 난이도로, 수학부터 인문학, 자연과학까지 다양한 분야의 초고난도 문제들로 구성돼 있다. 여기서 엔비디아 AI는 37.1%의 정답률을 기록했다. 이는 GPT-5의 35.1%와 Claude Opus 4.1의 34.6%보다 높은 수치다.

더 놀라운 건 비용과 처리 시간이다. 엔비디아 AI는 평균 문제당 9.2센트의 비용과 8.2분의 시간이 걸렸다. 반면 GPT-5는 30.2센트와 19.8분, Claude Opus 4.1은 52.5센트와 25.6분이 필요했다. 엔비디아 AI가 GPT-5의 30%만 쓰고도 더 좋은 성능을 냈다는 의미다. 다른 시험에서도 비슷한 결과가 나왔다. 정보 검색과 추론을 테스트하는 'FRAMES'에서는 76.3%로 GPT-5(74.0%)를 넘어섰고, 대화하며 문제를 푸는 능력을 보는 'τ²-Bench'에서는 80.2%로 GPT-5(77.7%)보다 높았다. 특히 τ²-Bench에서 엔비디아 AI는 전체 단계 중 40%만 비싼 GPT-5를 쓰고 나머지는 저렴한 AI나 도구를 활용했는데도, 매번 GPT-5를 쓰는 방식보다 성적이 좋았다.

추천 비추천

5

고정닉 0

2

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 취미 부자여서 결혼 못 할 것 같은 스타는? 운영자 26/01/19 - -
1949 "AI 도입 고민?"… IBM, 자사가 쓰던 생산성 50% 올린 AI 시스템 공개  aimatters갤로그로 이동합니다. 01.20 868 1
1948 "내 사진이 쬬르디로 변신"… 카카오톡 AI 캐릭터 생성 프로모션 화제 aimatters갤로그로 이동합니다. 01.20 18 0
1947 "2분만에 나를 복제"... AI 아바타가 투자자 질문에 실시간 답변 aimatters갤로그로 이동합니다. 01.20 20 0
1946 대학 연구팀이 만든 AI 채점 방식 바꿨더니 GPT-5 이겼다... 의료 분야 세계 1등 달성  [1] aimatters갤로그로 이동합니다. 01.20 1108 4
1945 "하야오 보고 있나" 93% 정확도로 사람 움직임 재현하는 AI 등장... 게임·영화 제작 혁명 예고 aimatters갤로그로 이동합니다. 01.20 15 0
1944 딥시크 AI 뜯어보니 다른 버전이 사람처럼 토론하고 있었다... 구글 연구진 "소름" aimatters갤로그로 이동합니다. 01.20 16 0
1943 이제 챗GPT도 광고 봐야 한다… 오픈AI, 수익화 본격 시동  aimatters갤로그로 이동합니다. 01.19 38 0
1942 "무료의 10배 쓴다"... 월 1만원대 '챗GPT Go', 전세계 출시 [15] aimatters갤로그로 이동합니다. 01.19 2861 4
1941 퍼플렉시티, 월스트리트 공략 나섰다... '기관투자자용 AI 리서치' 서비스 출시 aimatters갤로그로 이동합니다. 01.19 34 0
1940 속도는 36배, 화질은 그대로… 엔비디아 AI 영상 생성 기술 'TMD' 공개 aimatters갤로그로 이동합니다. 01.19 41 0
1939 오픈AI, 18개월 안에 파산할 수도… “MS나 아마존에 인수될 가능성 커” aimatters갤로그로 이동합니다. 01.19 89 1
1938 수천만원 드는 AI 성능 평가... 이제 몇백만원으로 해결 가능하다 aimatters갤로그로 이동합니다. 01.19 27 0
1937 챗GPT, 3년 만에 연매출 10배 폭증... 오픈AI CFO "전례 없는 성장" aimatters갤로그로 이동합니다. 01.19 33 0
1936 생각만으로 챗GPT 쓰는 날 올까… 오픈AI, 뇌와 AI 연결하는 '머지 랩스'에 투자 [2] aimatters갤로그로 이동합니다. 01.16 1064 1
1935 AI가 만든 광고, 젊은 세대는 싫어한다...기업만 모르는 현실 [37] aimatters갤로그로 이동합니다. 01.16 2727 8
1934 “AI 시대, 생각하는 일 자체가 자동화될 것… 몸 쓰는 일도 5년 내 자동화” aimatters갤로그로 이동합니다. 01.16 73 0
1933 일론 머스크, 그록 AI의 성인 이미지 편집 기능 완전 중단 aimatters갤로그로 이동합니다. 01.16 230 0
1932 비즈스프링, AI 플랫폼 유입 트렌드 공개… “AI, 고객 유입의 시작점으로 부상” aimatters갤로그로 이동합니다. 01.16 30 0
1931 “한국, 클로드 사용량 세계 5위"... 앤트로픽, AI 경제 영향 보고서 공개 aimatters갤로그로 이동합니다. 01.16 68 0
1930 구글 번역 AI 공개, 사진 속 글자까지 번역… 55개 언어 성능 대폭 향상 aimatters갤로그로 이동합니다. 01.16 70 1
1929 [1월 16일 AI 뉴스 브리핑] 티젠소프트, AI 기반 두피·피부 분석 진단 시스템 특허 출원 aimatters갤로그로 이동합니다. 01.16 23 0
1928 카이스트, 우울증 진단하는 AI 시스템 개발… 최대 66% 정확도 [12] aimatters갤로그로 이동합니다. 01.15 722 1
1927 AI 성적표는 90점, 실제 사용하면 60점"... 토론토대 교수가 밝힌 AI의 함정  [11] aimatters갤로그로 이동합니다. 01.15 2162 6
1926 알리바바, 스스로 암기·삭제하는 AI 개발... 기존보다 성능 49% 향상 [1] aimatters갤로그로 이동합니다. 01.15 88 0
1925 앤트로픽, 클로드 코드 무단 사용 전면 차단... "정액제 무제한 시대 끝" aimatters갤로그로 이동합니다. 01.15 52 0
1924 "챗GPT 답변 기다리는 시간 끝났다"... 오픈AI, 초고속 칩 업체와 손잡았다  [12] aimatters갤로그로 이동합니다. 01.15 1964 0
1923 애피어, 드림에이지 MMORPG ‘아키텍트’ 론칭 캠페인서 평균 ROAS 140% 달성 aimatters갤로그로 이동합니다. 01.15 28 0
1922 "내 사진·메일 다 뒤져서 답 찾아줘"… 제미나이, 진짜 개인 비서 됐다 aimatters갤로그로 이동합니다. 01.15 83 0
1921 전 구글 X 임원 "AI, 도구 아니라 인간의 주인 될 것" 경고 [1] aimatters갤로그로 이동합니다. 01.15 131 0
1920 한국AI산업협회, 2026년 주목할 AI 유망기업 100곳 선정 aimatters갤로그로 이동합니다. 01.15 56 0
1919 [1월 15일 AI 뉴스 브리핑] 생성AI스타트업협회, AI 기본법 대응 워터마크 API 무료 공급 외 aimatters갤로그로 이동합니다. 01.15 87 0
1918 '국가대표 AI' 1차 심사서 NC·네이버 탈락… "1개 팀 추가 모집" aimatters갤로그로 이동합니다. 01.15 48 0
1917 AI 에이전트 마누스, 시밀러웹과 협력... 이제 몇 초 만에 시장 분석 끝 aimatters갤로그로 이동합니다. 01.14 57 0
1916 애플, 월 1만원대 '크리에이터 구독' 출격… AI 편집 기능 대거 탑재 aimatters갤로그로 이동합니다. 01.14 87 0
1914 구글, CT·MRI 읽는 AI 의사 공개… "의사 말 받아쓰기 오류 82% 줄였다" aimatters갤로그로 이동합니다. 01.14 49 0
1913 이미지 한 장으로 3컷 스토리 완성… 런웨이 '스토리 패널' 기능 공개 aimatters갤로그로 이동합니다. 01.14 39 0
1912 나이·직업·취미 알려줬을 뿐인데… AI가 만든 2년 치 카드 내역 봤더니 aimatters갤로그로 이동합니다. 01.14 1452 2
1911 멀티모달 AI 시장, 10년 후 138조 규모로 폭발적 성장... 연평균 40% 급증  aimatters갤로그로 이동합니다. 01.14 41 0
1910 구글, ‘비오 3.1’ 대규모 업데이트… 숏폼 비율에 4K 해상도 지원 aimatters갤로그로 이동합니다. 01.14 41 0
1909 주식은 열광, 채권은 냉담… BIS, "미국 빅테크들 부채로 몰려간다" 경고 aimatters갤로그로 이동합니다. 01.14 50 0
1908 [1월 14일 AI 뉴스 브리핑] 대원CTS, 10억 펀딩 받은 ‘AI 폼롤러’ 와디즈 론칭 외 aimatters갤로그로 이동합니다. 01.14 27 0
1907 애플, AI 시리에 구글 제미나이 선택... "가장 뛰어난 기술" aimatters갤로그로 이동합니다. 01.13 57 0
1906 앤트로픽, 일반인용 코딩 AI '코워크' 출시... 일상 업무에 활용 가능 aimatters갤로그로 이동합니다. 01.13 42 0
1905 "회의 끝나자마자 PPT 완성"... 마누스, 대면 회의용 AI 기능 출시 aimatters갤로그로 이동합니다. 01.13 91 0
1904 젠슨 황 "이제 AI 안 쓰면 일자리 뺏긴다" 경고 [33] aimatters갤로그로 이동합니다. 01.13 2700 13
1903 [신간] "최고의 프롬프트는 '나'"... AI 시대 직업인 생존법 담은 『일을 위한 디자인』 aimatters갤로그로 이동합니다. 01.13 103 0
1902 오픈AI, 오디오 기기 '스위트피' 개발 중… 올해 9월 출시 목표 aimatters갤로그로 이동합니다. 01.13 88 0
1901 AI로 공부하면 머리 나빠진다?... OECD가 밝힌 AI 교육의 명암 [20] aimatters갤로그로 이동합니다. 01.13 2014 4
1900 2030년 일자리의 운명... 세계경제포럼이 경고한 AI 시대 네 가지 시나리오 aimatters갤로그로 이동합니다. 01.13 90 0
1899 KAIST, 2년 내 치매 발병 가능성 예측하는 AI 개발... "진료기록만 주면 끝" aimatters갤로그로 이동합니다. 01.13 39 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2