디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

대학 연구팀이 만든 AI 채점 방식 바꿨더니 GPT-5 이겼다... 의료 분야 세계 1등 달성 

aimatters갤로그로 이동합니다. 2026.01.20 16:44:17
조회 1600 추천 7 댓글 2


AI 챗봇이 얼마나 똑똑한지 정확하게 평가하는 것은 여전히 어려운 문제다. 특히 "좋은 에세이를 써줘" 같은 정답이 정해지지 않은 질문에 AI가 얼마나 잘 대답했는지 판단하기 어렵다. 해당 논문에 따르면, 중국 전기차 기업 리 오토(Li Auto Inc.)와 중국 홍콩 중문대학교(The Chinese University of Hong Kong, Shenzhen), 저장대학교(Zhejiang University), 싱가포르 난양공과대학교(Nanyang Technological University) 공동 연구팀이 이 문제를 해결할 새로운 방법을 내놨다. 연구팀이 만든 '루브릭허브(RubricHub)'라는 평가 자료를 사용해 훈련한 AI 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 모델 GPT-5(67.2점)를 제쳤다. 



기존 AI 평가 방식의 한계, 세밀한 기준 부재가 문제

현재 대규모 언어모델(LLM)의 평가는 두 가지 방식으로 나뉜다. 수학이나 코딩처럼 정답이 명확한 분야에서는 검증 가능한 보상을 활용한 강화학습(RLVR)이 효과적이지만, 실제 사용자 질문의 대부분은 정답이 정해지지 않은 개방형이다. 기존 평가 기준(rubric)은 사람의 전문성에 의존하거나 특정 분야에만 국한되어 확장성이 떨어진다. 더 큰 문제는 평가 기준이 너무 포괄적이고 모호해서 우수한 응답과 뛰어난 응답을 구별하지 못한다는 점이다. 예를 들어 "시를 잘 썼는가"라는 기준만으로는 어떤 시가 진정으로 훌륭한지 판단하기 어렵다. 연구팀은 이러한 조악한 기준이 AI 훈련에 '천장 효과(supervision ceiling effect)'를 만들어 모델 개선을 가로막는다고 지적했다.



GPT-5.1· 제미나이 3 프로 등 최신 AI 총동원해 평가 기준 만들었다 


루브릭허브의 핵심은 단계적으로 점점 더 까다로운 평가 기준을 만드는 방법이다.

첫 번째 단계는 '원칙 기반 및 응답 기반 생성'이다. 질문만으로 기준을 만들면 너무 일반적이거나 실제 답변과 동떨어진 기준이 나올 수 있다. 연구팀은 실제 AI 응답을 참고하면서 일관성, 명확성, 평가 가능성 등의 메타 원칙을 적용해 구체적이고 관련성 높은 기준을 생성했다.

두 번째 단계는 '여러 AI 모델을 활용한다. 한 가지 AI만 사용하면 편향될 수 있어서 GPT-5.1, 제미나이 3 프로 같은 여러 최신 모델이 만든 기준을 합쳐서 균형을 맞췄다.

세 번째이자 가장 중요한 단계는 '난이도 진화'다. 보통 수준의 기준은 합격과 불합격은 구별하지만, 우수한 답변과 최고의 답변을 구별하지 못한다. 예를 들어 시험에서 80점과 100점 모두 '합격'으로만 평가하면 둘의 차이를 알 수 없는 것과 같다. 연구팀은 최고 수준의 답변 두 개를 비교 분석해서 미묘한 차이를 찾아냈다. 그래서 "코드가 제대로 작동하나요?"라는 단순한 기준을 "특수한 경우에도 빠르고 효율적으로 작동하나요?"처럼 훨씬 까다롭게 바꿨다.




11만 개 질문에 평균 30개 기준… 최고 AI도 60점밖에 못 받아 


루브릭허브는 약 11만 개의 질문과 그에 맞는 평가 기준으로 이루어져 있다. 의료(Medical), 과학(Science), 지시 따르기(Instruction Following), 작문(Writing), 대화(Chat) 등 5개 주요 분야를 아우른다. 의료와 과학 분야가 각각 27.1%로 가장 큰 비중을 차지하며, 지시 따르기 20.9%, 작문 15.9% 순이다. 특히 작문과 의료 같은 복잡한 분야에서는 질문 하나당 평균 30개 이상의 세밀한 평가 기준을 제공한다. 이는 기존 데이터셋과 차별화되는 점이다. 더 중요한 것은 이 기준들의 변별력이다. 뛰어난 AI 모델인 Qwen3-235B도 평균 0.6점(만점 1점 기준) 정도밖에 못 받았다. 이는 루브릭허브의 기준이 충분히 어렵고, AI가 개선될 여지가 많다는 뜻이다.




의료 분야 69.3점으로 GPT-5(67.2점) 제치고 세계 1등 


연구팀은 루브릭허브가 실제로 효과가 있는지 확인하기 위해 2단계 훈련 방법을 사용했다.

1단계 'RuFT(Rubric-based Rejection Sampling Fine-Tuning)'에서는 평가 기준을 필터로 써서 좋은 답변만 골라냈다. 하나의 질문에 대해 여러 AI 모델이 여러 개 답변을 만들면, 그중에서 평가 점수가 일정 기준(0.6점) 이상인 최고 답변만 훈련 자료로 사용했다.

2단계 'RuRL(Rubric-based Reinforcement Learning)'에서는 평가 기준 점수를 보상으로 활용해 AI를 더 발전시켰다. 각 평가 항목을 통과하면 가중치만큼 점수를 주고, 이 점수를 최대화하도록 AI를 학습시켰다.

이 방법을 Qwen3-14B 모델에 적용한 결과가 놀랍다. 의료 분야 HealthBench 테스트에서훈련 전 기본 상태(22.8점)에서 69.3점으로 46.5점 상승했고, GPT-5(67.2점)를 넘어선 69.3점으로 세계 최고 성능을 달성했다. 대화 능력을 측정하는 Arena-Hard V2에서도 기본 모델이 5.2점에 불과했는데 74.4점으로 급등했다. 




사람 평가와 90% 일치, 대화 능력은 14배 상승 


연구팀은 각 단계가 실제로 효과가 있는지 하나씩 확인했다. 기본 규칙을 적용하고 답변을 참고해서 기준을 만들자 의료 분야 AI 평가 벤치마크인 HealthBench에서 2.9점, LLMEval-Med에서 2.4점 올랐다. 여러 모델의 기준을 합치자 단일 모델 편향이 줄어들며 성능이 더 좋아졌다. 난이도를 높이는 3단계까지 완성하니 LLMEval-Med에서 79.5점까지 도달했다. 답변 후보를 1개에서 12개로 늘렸을 때도 훈련 데이터 품질이 63.45점에서 79.51점으로 향상돼 필터링 효과가 입증됐다. 또한 사람 평가자와 AI 채점 결과를 비교한 결과, 일정 규모(30B) 이상의 AI는 사람과 90% 이상 일치하는 판단을 내려 평가 기준의 신뢰성을 확인했다. 



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 


Q1. 루브릭허브가 뭐고 왜 중요한가요? 

A. 루브릭허브는 AI 답변의 품질을 평가하는 약 11만 개의 까다로운 기준을 모아놓은 자료다. 기존 방식은 "괜찮은 답변"과 "최고의 답변"을 구별하지 못했는데, 루브릭허브는 30개 이상의 구체적 기준으로 미묘한 차이까지 포착해서 AI를 더 똑똑하게 훈련시킬 수 있다. 

Q2. 이 방법으로 훈련한 AI 성능은 어느 정도인가요? 

A. 루브릭허브로 훈련한 Qwen3-14B 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 GPT-5(67.2점)를 이겼다. 대화 능력 테스트에서도 기본 모델 5.2점에서 74.4점으로 14배 이상 뛰어올라 효과가 확실히 입증됐다. 

Q3. 일반 사용자에게 어떤 의미가 있나요? 

A. 더 까다로운 기준으로 AI를 훈련하면 의료 상담이나 작문 도움처럼 정답이 없는 복잡한 질문에도 AI가 훨씬 신뢰할 만한 답변을 준다. 일상에서 AI를 더 안전하고 유용하게 쓸 수 있게 된다는 의미다. 



해당 기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.

논명: RubricHub: A Comprehensive and Highly Discriminative Rubric Dataset via Automated Coarse-to-Fine Generation 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 

추천 비추천

7

고정닉 0

11

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 투자하고 싶게 만드는 CEO상 스타는? 운영자 26/03/02 - -
2127 "진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다 [1] aimatters갤로그로 이동합니다. 14:09 538 0
2126 AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들 aimatters갤로그로 이동합니다. 14:09 7 0
2125 말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재 aimatters갤로그로 이동합니다. 14:09 9 0
2124 AI가 연구자 대신 논문 댓글까지 분류한다, 단돈 6천 원으로 5만 건을 aimatters갤로그로 이동합니다. 14:09 6 0
2123 챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에 aimatters갤로그로 이동합니다. 14:09 10 0
2122 AI가 시각장애인의 'DIY 설명서' 읽어주면 절반은 틀린다 aimatters갤로그로 이동합니다. 14:08 6 0
2121 트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결 aimatters갤로그로 이동합니다. 03.03 13 0
2120 "데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개 aimatters갤로그로 이동합니다. 03.03 15 0
2119 "검색 AI의 반란"…퍼플렉시티, AI 모델들을 한데 묶은 '디지털 노동자' 공개 aimatters갤로그로 이동합니다. 03.03 13 0
2118 레노버, MWC 2026서 AI가 알아서 맞춰주는 PC 시대 열었다 aimatters갤로그로 이동합니다. 03.03 27 0
2117 챗GPT가 소설을 먹고 자란다? AI 학습 데이터에 숨겨진 '픽션의 비밀' aimatters갤로그로 이동합니다. 03.03 13 0
2116 병원 설문지가 대화로 바뀐다…GPT가 환자 문진표를 대신 작성하는 시대 aimatters갤로그로 이동합니다. 03.03 9 0
2115 AI가 장애 혐오 표현을 찾아내고 고쳐준다면? 100명의 장애인이 평가한 결과 aimatters갤로그로 이동합니다. 03.03 8 0
2114 저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나 [2] aimatters갤로그로 이동합니다. 02.27 1120 2
2113 구글, 이미지 생성 모델 '나노 바나나 2' 공개…4K 해상도에 속도까지 잡았다 aimatters갤로그로 이동합니다. 02.27 64 3
2112 잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것" aimatters갤로그로 이동합니다. 02.27 48 1
2111 챗GPT가 강박장애 환자를 더 아프게 만든다, '안심 로봇'의 위험한 진실 [2] aimatters갤로그로 이동합니다. 02.27 715 0
2110 AI 데이터센터의 '친환경' 선언, 전력망을 들여다보면 허상이다 aimatters갤로그로 이동합니다. 02.27 41 0
2109 별점만 믿다간 낭패! ChatGPT가 470만 개 리뷰를 파헤쳐 밝혀낸 '맛집의 진짜 조건' aimatters갤로그로 이동합니다. 02.27 44 0
2108 "ChatGPT가 편향됐다"는 말 한마디에 설득력 28% 급락 [10] aimatters갤로그로 이동합니다. 02.26 2509 4
2107 챗GPT가 통계학 교육을 뒤흔들고 있다: 대학 강의실에서 벌어지는 AI 혁명 aimatters갤로그로 이동합니다. 02.26 76 0
2106 월 20달러짜리 챗GPT로 수학 난제 풀었다…'바이브 증명'의 충격적 실험 [13] aimatters갤로그로 이동합니다. 02.26 2518 19
2105 앤트로픽, AI 에이전트 개발 스타트업 버셉트 인수…창업자 한명은 메타로 aimatters갤로그로 이동합니다. 02.26 37 0
2104 제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다... 한국서도 적용 aimatters갤로그로 이동합니다. 02.26 64 0
2103 "AI 개발은 기타 배우기와 같다"…오픈클로 개발자가 전하는 AI 빌더 생존법 aimatters갤로그로 이동합니다. 02.26 74 0
2102 975g으로 AI 정복…한국레노버, 요가 11세대 4종 출시 aimatters갤로그로 이동합니다. 02.26 47 0
2101 AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과 [2] aimatters갤로그로 이동합니다. 02.25 692 2
2100 GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유 [14] aimatters갤로그로 이동합니다. 02.25 1802 6
2099 AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패 [2] aimatters갤로그로 이동합니다. 02.25 642 5
2098 오픈AI 투자자, 앤트로픽도 찍었다…VC 업계, 경쟁사에 투자하지 않는 '투자 충성도' 사실상 붕괴 aimatters갤로그로 이동합니다. 02.25 53 0
2097 " 美 연준도 AI 시대로 간다"…월러 이사, AI 전면 도입 전략 공개 aimatters갤로그로 이동합니다. 02.25 44 0
2096 AI가 플레이리스트 짜준다...스포티파이 리스트 자동생성 기능 영국·호주 등으로 확대 aimatters갤로그로 이동합니다. 02.25 42 0
2095 2028년 붕괴 시나리오로 전세계 공포, AI가 완벽하게 성공할수록 경제는 무너진다 [1] aimatters갤로그로 이동합니다. 02.24 138 0
2094 AI가 "생각을 줄이면" 오히려 더 똑똑해진다? 토큰 예산과 LLM 추론의 역설 aimatters갤로그로 이동합니다. 02.24 68 0
2093 AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를 지시한 AI 모델은? aimatters갤로그로 이동합니다. 02.24 66 0
2092 AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험 aimatters갤로그로 이동합니다. 02.24 41 1
2091 앤트로픽 "중국 AI 3사, 가짜 계정 2만4천 개로 클로드 기술 훔쳐갔다" aimatters갤로그로 이동합니다. 02.24 73 0
2090 "하루 한 시간이면 AI를 직접 활용하라. 주변의 99%보다 앞서갈 수 있다"…AI 스타트업 CEO의 경고 aimatters갤로그로 이동합니다. 02.24 69 0
2089 오픈AI, 스마트 스피커·안경·조명까지…AI 하드웨어 제국 꿈꾼다 aimatters갤로그로 이동합니다. 02.24 63 0
2088 다쏘시스템, AI 전문가 '버추얼 동반자' 공개…인간과 AI의 산업 협업 시대 열린다 aimatters갤로그로 이동합니다. 02.24 43 0
2087 AI 안전장치도 '세탁'된다? 제미나이·클로드도 뚫렸다 aimatters갤로그로 이동합니다. 02.23 47 0
2086 AI가 사각형을 인식할 수 있을까? 클로드·챗GPT·제미나이 '공간 인식' 충격 실험 aimatters갤로그로 이동합니다. 02.23 44 0
2085 AI 로봇이 나를 설득한다? 챗GPT가 물리치료 거부 환자를 설득하는 방법 aimatters갤로그로 이동합니다. 02.23 41 0
2084 [신간] 난치병·빚에서 탈출한 30대 파이어족의 <버릴수록 부자 되는 미니멀리즘 재테크> aimatters갤로그로 이동합니다. 02.23 51 0
2083 한 질문에 AI 4개가 토론한다…xAI, '그록 4.20' 공개 aimatters갤로그로 이동합니다. 02.23 41 1
2082 AI가 인간을 고용하는 시대 열렸다…"클로드(Claude)가 내 상사라면 이상적일 것" aimatters갤로그로 이동합니다. 02.23 52 0
2081 "광고 대행사는 이제 필요 없다 우리에게 바로 광고해"…오픈AI 임원의 도발적 선언 aimatters갤로그로 이동합니다. 02.23 99 0
2080 "일기 쓰기 귀찮다고요?" AI가 대신 물어봐 주는 일기 앱 '블루닙' 출시 aimatters갤로그로 이동합니다. 02.23 45 0
2079 AI 코미디언이 인간보다 더 웃기다고? ‘기계다움’이 유머의 새 무기가 된다 [14] aimatters갤로그로 이동합니다. 02.20 1548 2
2078 AI는 이제 '알아서 척척'… 2026년, 당신의 직장과 일상을 바꿀 AI의 민낯 aimatters갤로그로 이동합니다. 02.20 70 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2