디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

대학 연구팀이 만든 AI 채점 방식 바꿨더니 GPT-5 이겼다... 의료 분야 세계 1등 달성 

aimatters갤로그로 이동합니다. 2026.01.20 16:44:17
조회 1607 추천 7 댓글 2


AI 챗봇이 얼마나 똑똑한지 정확하게 평가하는 것은 여전히 어려운 문제다. 특히 "좋은 에세이를 써줘" 같은 정답이 정해지지 않은 질문에 AI가 얼마나 잘 대답했는지 판단하기 어렵다. 해당 논문에 따르면, 중국 전기차 기업 리 오토(Li Auto Inc.)와 중국 홍콩 중문대학교(The Chinese University of Hong Kong, Shenzhen), 저장대학교(Zhejiang University), 싱가포르 난양공과대학교(Nanyang Technological University) 공동 연구팀이 이 문제를 해결할 새로운 방법을 내놨다. 연구팀이 만든 '루브릭허브(RubricHub)'라는 평가 자료를 사용해 훈련한 AI 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 모델 GPT-5(67.2점)를 제쳤다. 



기존 AI 평가 방식의 한계, 세밀한 기준 부재가 문제

현재 대규모 언어모델(LLM)의 평가는 두 가지 방식으로 나뉜다. 수학이나 코딩처럼 정답이 명확한 분야에서는 검증 가능한 보상을 활용한 강화학습(RLVR)이 효과적이지만, 실제 사용자 질문의 대부분은 정답이 정해지지 않은 개방형이다. 기존 평가 기준(rubric)은 사람의 전문성에 의존하거나 특정 분야에만 국한되어 확장성이 떨어진다. 더 큰 문제는 평가 기준이 너무 포괄적이고 모호해서 우수한 응답과 뛰어난 응답을 구별하지 못한다는 점이다. 예를 들어 "시를 잘 썼는가"라는 기준만으로는 어떤 시가 진정으로 훌륭한지 판단하기 어렵다. 연구팀은 이러한 조악한 기준이 AI 훈련에 '천장 효과(supervision ceiling effect)'를 만들어 모델 개선을 가로막는다고 지적했다.



GPT-5.1· 제미나이 3 프로 등 최신 AI 총동원해 평가 기준 만들었다 


루브릭허브의 핵심은 단계적으로 점점 더 까다로운 평가 기준을 만드는 방법이다.

첫 번째 단계는 '원칙 기반 및 응답 기반 생성'이다. 질문만으로 기준을 만들면 너무 일반적이거나 실제 답변과 동떨어진 기준이 나올 수 있다. 연구팀은 실제 AI 응답을 참고하면서 일관성, 명확성, 평가 가능성 등의 메타 원칙을 적용해 구체적이고 관련성 높은 기준을 생성했다.

두 번째 단계는 '여러 AI 모델을 활용한다. 한 가지 AI만 사용하면 편향될 수 있어서 GPT-5.1, 제미나이 3 프로 같은 여러 최신 모델이 만든 기준을 합쳐서 균형을 맞췄다.

세 번째이자 가장 중요한 단계는 '난이도 진화'다. 보통 수준의 기준은 합격과 불합격은 구별하지만, 우수한 답변과 최고의 답변을 구별하지 못한다. 예를 들어 시험에서 80점과 100점 모두 '합격'으로만 평가하면 둘의 차이를 알 수 없는 것과 같다. 연구팀은 최고 수준의 답변 두 개를 비교 분석해서 미묘한 차이를 찾아냈다. 그래서 "코드가 제대로 작동하나요?"라는 단순한 기준을 "특수한 경우에도 빠르고 효율적으로 작동하나요?"처럼 훨씬 까다롭게 바꿨다.




11만 개 질문에 평균 30개 기준… 최고 AI도 60점밖에 못 받아 


루브릭허브는 약 11만 개의 질문과 그에 맞는 평가 기준으로 이루어져 있다. 의료(Medical), 과학(Science), 지시 따르기(Instruction Following), 작문(Writing), 대화(Chat) 등 5개 주요 분야를 아우른다. 의료와 과학 분야가 각각 27.1%로 가장 큰 비중을 차지하며, 지시 따르기 20.9%, 작문 15.9% 순이다. 특히 작문과 의료 같은 복잡한 분야에서는 질문 하나당 평균 30개 이상의 세밀한 평가 기준을 제공한다. 이는 기존 데이터셋과 차별화되는 점이다. 더 중요한 것은 이 기준들의 변별력이다. 뛰어난 AI 모델인 Qwen3-235B도 평균 0.6점(만점 1점 기준) 정도밖에 못 받았다. 이는 루브릭허브의 기준이 충분히 어렵고, AI가 개선될 여지가 많다는 뜻이다.




의료 분야 69.3점으로 GPT-5(67.2점) 제치고 세계 1등 


연구팀은 루브릭허브가 실제로 효과가 있는지 확인하기 위해 2단계 훈련 방법을 사용했다.

1단계 'RuFT(Rubric-based Rejection Sampling Fine-Tuning)'에서는 평가 기준을 필터로 써서 좋은 답변만 골라냈다. 하나의 질문에 대해 여러 AI 모델이 여러 개 답변을 만들면, 그중에서 평가 점수가 일정 기준(0.6점) 이상인 최고 답변만 훈련 자료로 사용했다.

2단계 'RuRL(Rubric-based Reinforcement Learning)'에서는 평가 기준 점수를 보상으로 활용해 AI를 더 발전시켰다. 각 평가 항목을 통과하면 가중치만큼 점수를 주고, 이 점수를 최대화하도록 AI를 학습시켰다.

이 방법을 Qwen3-14B 모델에 적용한 결과가 놀랍다. 의료 분야 HealthBench 테스트에서훈련 전 기본 상태(22.8점)에서 69.3점으로 46.5점 상승했고, GPT-5(67.2점)를 넘어선 69.3점으로 세계 최고 성능을 달성했다. 대화 능력을 측정하는 Arena-Hard V2에서도 기본 모델이 5.2점에 불과했는데 74.4점으로 급등했다. 




사람 평가와 90% 일치, 대화 능력은 14배 상승 


연구팀은 각 단계가 실제로 효과가 있는지 하나씩 확인했다. 기본 규칙을 적용하고 답변을 참고해서 기준을 만들자 의료 분야 AI 평가 벤치마크인 HealthBench에서 2.9점, LLMEval-Med에서 2.4점 올랐다. 여러 모델의 기준을 합치자 단일 모델 편향이 줄어들며 성능이 더 좋아졌다. 난이도를 높이는 3단계까지 완성하니 LLMEval-Med에서 79.5점까지 도달했다. 답변 후보를 1개에서 12개로 늘렸을 때도 훈련 데이터 품질이 63.45점에서 79.51점으로 향상돼 필터링 효과가 입증됐다. 또한 사람 평가자와 AI 채점 결과를 비교한 결과, 일정 규모(30B) 이상의 AI는 사람과 90% 이상 일치하는 판단을 내려 평가 기준의 신뢰성을 확인했다. 



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 


Q1. 루브릭허브가 뭐고 왜 중요한가요? 

A. 루브릭허브는 AI 답변의 품질을 평가하는 약 11만 개의 까다로운 기준을 모아놓은 자료다. 기존 방식은 "괜찮은 답변"과 "최고의 답변"을 구별하지 못했는데, 루브릭허브는 30개 이상의 구체적 기준으로 미묘한 차이까지 포착해서 AI를 더 똑똑하게 훈련시킬 수 있다. 

Q2. 이 방법으로 훈련한 AI 성능은 어느 정도인가요? 

A. 루브릭허브로 훈련한 Qwen3-14B 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 GPT-5(67.2점)를 이겼다. 대화 능력 테스트에서도 기본 모델 5.2점에서 74.4점으로 14배 이상 뛰어올라 효과가 확실히 입증됐다. 

Q3. 일반 사용자에게 어떤 의미가 있나요? 

A. 더 까다로운 기준으로 AI를 훈련하면 의료 상담이나 작문 도움처럼 정답이 없는 복잡한 질문에도 AI가 훨씬 신뢰할 만한 답변을 준다. 일상에서 AI를 더 안전하고 유용하게 쓸 수 있게 된다는 의미다. 



해당 기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.

논명: RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 

추천 비추천

7

고정닉 0

11

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 결혼이 오히려 커리어에 손해였던 것 같은 스타는? 운영자 26/03/23 - -
2274 유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다
aimatters갤로그로 이동합니다.
03.26 5 0
2273 유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다
aimatters갤로그로 이동합니다.
03.26 7 0
2272 AI 패권 전쟁의 진짜 승부처는 알고리즘이 아닌 반도체 공급망
aimatters갤로그로 이동합니다.
03.26 7 0
2271 AI가 기업 리스크 관리의 판도를 바꾼다, HBR이 밝힌 GRC 혁신의 실체
aimatters갤로그로 이동합니다.
03.26 4 0
2270 EBS도 AI 물들었다…2026년 봄, 죽은 철학자가 말을 걸어온다
aimatters갤로그로 이동합니다.
03.26 6 0
2269 "기획부터 개발까지 90% 단축"…원티드랩, AI 에이전트용 디자인 시스템 '몽타주' 공개
aimatters갤로그로 이동합니다.
03.26 5 0
2268 애플 시리, 구글 제미나이로 탈바꿈 - iOS 26.5에 탑재, WWDC서 공식 공개 예정
aimatters갤로그로 이동합니다.
03.26 4 0
2267 챗GPT 쇼핑 기능 전면 개편 - 인스턴트 결제 포기하고 상품 탐색에 집중
aimatters갤로그로 이동합니다.
03.26 5 0
2266 구글 제미나이, 다크웹 하루 1000만 건 분석... AI 위협 인텔리전스 서비스 출시
aimatters갤로그로 이동합니다.
03.26 8 0
2265 클로드, 전 세계 동시 장애 발생 - 앤트로픽, 수시간 만에 복구 완료
aimatters갤로그로 이동합니다.
03.26 4 0
2264 구글, AI 모델 압축 기술 터보퀀트 공개 - 성능 손실 없이 모델 크기 절반으로
aimatters갤로그로 이동합니다.
03.26 4 0
2263 ARM, AGI 시대 겨냥한 첫 자체 AI 칩 공개 - 데이터센터용 CPU·GPU 직접 설계
aimatters갤로그로 이동합니다.
03.26 4 0
2262 원고 넣으면 3분 만에 책 한 권 뚝딱…루미너리북스, AI가 내지 디자인까지 자동화
aimatters갤로그로 이동합니다.
03.26 4 0
2261 8만 명이 AI에게 원하는 것은 더 나은 삶이었다
aimatters갤로그로 이동합니다.
03.25 16 0
2260 AI가 일자리를 빼앗는다는 말, 데이터로 따져보니 범인은 따로 있었다 [3]
aimatters갤로그로 이동합니다.
03.25 994 0
2259 AI 가전 쓰고 싶은데 왜 점점 더 불안해질까, 소비자 심리의 역전
aimatters갤로그로 이동합니다.
03.25 14 0
2258 오픈AI, 소라(Sora) 비디오 앱 종료...생성형 AI 전략 선회
aimatters갤로그로 이동합니다.
03.25 16 0
2257 "AI야, 네가 할 수 있어?" 묻고 나서 답한다… 애피어, '역량 캘리브레이션' 기술 공개
aimatters갤로그로 이동합니다.
03.25 14 0
2256 오픈AI 재단, 생명공학 분야 10억 달러 규모 자선 프로그램 발표
aimatters갤로그로 이동합니다.
03.25 8 0
2255 갭, 구글 제미나이 내 직접 결제 기능 통합...AI 쇼핑 시대 개막
aimatters갤로그로 이동합니다.
03.25 15 0
2254 TV에 질문하고 학습한다… 구글 TV, 제미나이 AI로 스포츠·뉴스·교육 강화
aimatters갤로그로 이동합니다.
03.25 8 0
2253 퍼플렉시티 AI 브라우저 '코멧', 드디어 아이폰 상륙…구글 크롬과 본격 맞대결
aimatters갤로그로 이동합니다.
03.24 37 0
2252 구글, AI로 뉴스 헤드라인 몰래 바꾼다…언론사 "서점이 책 표지를 뜯어내는 것"
aimatters갤로그로 이동합니다.
03.24 16 0
2251 AI가 인간보다 똑똑하게 초전도체 비밀을 풀었다
aimatters갤로그로 이동합니다.
03.24 27 0
2250 AI에게 정확히 원하는 것을 얻는 법, 기자처럼 질문하면 된다
aimatters갤로그로 이동합니다.
03.24 22 0
2249 AI 고객 상담, 문제는 해결했는데 왜 고객은 떠날까
aimatters갤로그로 이동합니다.
03.24 16 0
2248 버니 샌더스 vs. 클로드, 샌더스가 AI의 아첨 성향을 이끌어내다
aimatters갤로그로 이동합니다.
03.24 19 0
2247 앤트로픽, 클로드 디스패치 출시... 폰에서 메시지 보내면 맥이 원격 AI 작업한다
aimatters갤로그로 이동합니다.
03.24 28 0
2246 "이번엔 진짜" 애플, WWDC 2026 개최 일정 발표... 'AI 기술 대폭 강화' 예고
aimatters갤로그로 이동합니다.
03.24 12 0
2245 일론 머스크, 테라팹 공개... AI∙자동차∙로봇용 저가 칩부터 우주선용 칩까지 만든다
aimatters갤로그로 이동합니다.
03.24 27 0
2244 앤트로픽, 법정에서 국방부의 주장 반박... “감시 역할 거부한다” 선언
aimatters갤로그로 이동합니다.
03.24 15 0
2243 책상 위에 올라온 AI 슈퍼컴퓨터…델, 워크스테이션 신제품 9종 공개 [5]
aimatters갤로그로 이동합니다.
03.23 1755 3
2242 AI 에이전트가 마케터 대신 일한다… 애피어, '에이전틱 AI 세미나' 성료
aimatters갤로그로 이동합니다.
03.23 56 0
2241 오픈클로(OpenClaw) 업데이트... GPT-5.4 지원·메모리 핫스와핑으로 '에이전트 OS' 시대 열다
aimatters갤로그로 이동합니다.
03.23 60 0
2240 "프롬프트 한 줄로 앱 완성"…구글, AI 스튜디오에 풀스택 바이브 코딩 탑재
aimatters갤로그로 이동합니다.
03.23 35 0
2239 미 국방부 "앤트로픽 클로드 6개월 내 대체 가능" 자신… 현장 군인들은 반발
aimatters갤로그로 이동합니다.
03.23 72 0
2238 오픈AI, 챗GPT·코덱스·아틀라스 합친 데스크톱 슈퍼앱 개발 나선다
aimatters갤로그로 이동합니다.
03.23 68 0
2237 게임 동반자 AI NPC가 상황에 맞게 도와준다… 스퀘어 에닉스, 드래곤 퀘스트 X에 제미나이 통합
aimatters갤로그로 이동합니다.
03.23 29 0
2236 퍼플렉시티, 애플 헬스 데이터로 개인 맞춤 AI 건강 상담 시작
aimatters갤로그로 이동합니다.
03.23 20 0
2235 토큰 100만개당 0.2달러에 불과... 오픈AI, GPT-5.4 mini·nano 공개 [7]
aimatters갤로그로 이동합니다.
03.23 805 1
2234 오픈AI, 연말까지 직원 수 8,000명으로 두 배 확대… 앤트로픽 추격에 맞서 공격적 채용
aimatters갤로그로 이동합니다.
03.23 25 0
2233 로봇 손끝에서 발견된 '촉각의 법칙', AI가 밝혀낸 접촉의 두 가지 원리
aimatters갤로그로 이동합니다.
03.23 22 0
2232 AI가 "왜" 그 행동을 했는지, 이제 수학으로 알아낼 수 있다
aimatters갤로그로 이동합니다.
03.23 27 0
2231 AI가 마케터의 95%를 대체한다고? 살아남는 5%의 비밀
aimatters갤로그로 이동합니다.
03.23 21 0
2230 두 번째 딥시크 쇼크의 주인공은 샤오미였다… 'MiMo-V2-Pro', 오픈라우터 주간 1위 등극
aimatters갤로그로 이동합니다.
03.20 31 0
2229 AI에도 지문이 있다, 몰래 바뀐 모델을 잡아내는 기술의 등장
aimatters갤로그로 이동합니다.
03.20 21 0
2228 챗GPT·클로드 이용약관의 충격적 진실, "품질 보장 없고 책임은 사용자 몫"
aimatters갤로그로 이동합니다.
03.20 21 0
2227 기자 10명 중 8명이 AI 쓰지만 정작 AI 가장 두려워 해 [1]
aimatters갤로그로 이동합니다.
03.20 43 0
2226 구글, 맥용 제미나이 앱 비공개 테스트 돌입… 챗GPT·클로드 대항마로
aimatters갤로그로 이동합니다.
03.20 23 0
2225 마이크로소프트, 코파일럿 AI 리더십 대거 개편… 술레이만은 신모델 개발 집중
aimatters갤로그로 이동합니다.
03.20 18 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2