디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"

aimatters갤로그로 이동합니다. 2025.12.04 18:38:28
조회 158 추천 0 댓글 0
														


의료 전문 AI가 일반인도 쓰는 챗GPT보다 성능이 떨어진다는 연구 결과가 나왔다. 뉴욕대학교 연구진이 의사들이 실제로 쓰는 유료 의료 AI와 GPT-5, 제미나이 같은 일반 AI를 비교했더니, 일반 AI가 의학 지식이나 실제 진료 상황 판단 모두에서 더 뛰어났다. 의료계에서는 "전문 AI가 더 안전하다"고 말해왔는데, 이번 연구는 그 주장에 의문을 제기한다.



미국 의사 40%가 쓰는 오픈에비던스, 주장과 달리 성적 낮아

해당 논문에 따르면, 뉴욕대학교 병원 신경외과 연구팀은 의사들이 많이 쓰는 두 가지 의료 전문 AI인 오픈에비던스와 업투데이트 전문가 AI를 일반 AI들과 비교했다. 비교 대상은 GPT-5, 제미나이 3 프로, 클로드 소네트 4.5였다. 오픈에비던스는 미국 의사 40%가 쓰고 있고 기업 가치가 35억 달러(약 5조 원)에 달한다. 업투데이트 전문가 AI는 미국 주요 병원 70%가 도입했다.

연구진은 1,000개 의료 질문으로 테스트를 진행했다. 500개는 미국 의사면허시험(USMLE) 스타일의 문제로 의학 지식을 평가하고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인하는 문제였다. 평가 결과, 의료 전문 AI의 광고 문구와 실제 실력 사이에 큰 차이가 있었다. 특히 오픈에비던스는 자사 발표에서 미국 의사면허시험 스타일 문제에서 완벽한 100% 정확도를 달성했다고 주장했지만, 이번 독립적인 테스트에서는 그보다 훨씬 낮은 결과를 보였다.



GPT-5, 의사 시험 문제 96.2% 정확도로 1위... 의료 전문 AI는 89%

의학 지식 평가에서 GPT-5는 96.2%의 정확도로 가장 높은 성적을 냈다. 제미나이 3 프로가 94.6%로 2위, 클로드 소네트 4.5는 91.4%였다. 반면 의료 전문 AI인 오픈에비던스는 89.6%, 업투데이트 전문가 AI는 88.4%에 그쳤다. GPT-5는 제미나이를 빼고는 다른 모든 AI를 통계적으로 유의미하게 앞섰다. 특히 두 의료 전문 AI와 비교하면 격차가 컸다.

일반 AI 3개의 평균 정확도는 94.1%였지만, 의료 전문 AI 2개의 평균은 89.0%로 약 5%포인트 낮았다. 특히 의학 지식과 과학 주제 문제에서 오픈에비던스, 업투데이트 전문가 AI, 클로드 소네트 4.5가 다른 AI들보다 낮은 성능을 보였다. 이는 의료 전문 AI가 기본적인 의학 지식 문제조차 일반 AI를 따라잡지 못하고 있음을 보여준다.





실제 진료 판단력 평가에서 일반 AI가 의료 전문 AI보다 약 1.2배 우수

실제 병원에서 일하는 전문 의사처럼 판단하는지 평가하는 테스트에서는 차이가 더 벌어졌다. GPT-5가 97.0%로 압도적 1위를 했고, 제미나이는 90.5%, 클로드 소네트은 87.7%였다. 반면 업투데이트 전문가 AI는 75.2%, 오픈에비던스는 74.3%였다. GPT-5는 다른 모든 AI를 통계적으로 유의미하게 앞섰고, 오픈에비던스는 업투데이트를 제외한 모든 AI보다 뒤처졌다.

일반 AI 그룹의 평균 점수는 91.7%였지만, 의료 전문 AI 그룹은 74.8%로 약 17%포인트 차이가 났다. 일반 AI가 의료 전문 AI보다 약 1.2배 높은 점수를 받았다. 세부 평가 항목을 보면 의료 전문 AI의 약점이 더 확실히 드러난다. 정확한지, 정보가 충분한지, 설명을 잘하는지, 상황을 잘 파악하는지, 지시를 잘 따르는지 등 5가지를 평가했는데, GPT-5는 모든 항목에서 최고 점수를 받았다.

반면 오픈에비던스는 5개 항목 모두에서 다른 세 일반 AI보다 낮은 점수를 받았고, 업투데이트는 5개 중 2개 항목에서 모든 일반 AI보다 점수가 낮았다. 특히 정보의 완전성, 의사소통 품질, 맥락 인식 능력에서 일반 AI가 의료 전문 AI를 크게 앞섰다.



응급 상황 판단과 환자 안전에서 의료 전문 AI 취약점 드러나

연구진은 테스트 문제를 7가지 주제로 나눠 추가로 분석했다. 응급 상황에서 전문의에게 의뢰해야 하는지 판단하기, 맥락 파악하기, 글로벌 보건, 건강 데이터 다루기, 전문가답게 설명하기, 불확실할 때 대응하기, 깊이 있게 답하기 등이다. GPT-5는 7가지 주제 모두에서 1위이거나 공동 1위를 했고, 4개 주제에서는 만점을 받았다. 반면 오픈에비던스와 업투데이트 전문가 AI는 7가지 주제 전부에서 최하위이거나 공동 최하위였다.

특히 걱정되는 부분은 응급 상황 의뢰 판단에서 일반 AI와 의료 전문 AI 사이에 통계적으로 유의미한 차이가 나타났다는 점이다. 또한 시스템 기반 실무 역량 분류, 특히 환자 안전 관련 문제에서 의료 전문 AI들이 유의미하게 낮은 성능을 보였다. 이는 의료 전문 AI가 정작 병원에서 중요한 응급 상황 판단이나 환자 안전과 관련된 시스템적 사고에서 약점을 가지고 있음을 의미한다.

연구진은 의료 전문 AI의 성능이 낮은 이유를 분석했다. 오픈에비던스와 업투데이트 전문가 AI는 검색 증강 생성 방식에 크게 의존하는데, 이 방식은 잘못된 자료를 검색하거나 기본 모델이 정보를 제대로 통합하지 못하면 오히려 성능을 해칠 수 있다고 지적했다. 반면 GPT-5 같은 최신 범용 모델은 방대한 학습 데이터와 더 발전된 정렬 기술 덕분에 의학 지식 검색과 추론 작업에서 탁월한 성능을 발휘한다.

연구진은 생성형 AI 모델이 일상적인 의사결정에 통합되면서, 광고된 주장과 실제 성능 사이의 불일치가 피할 수 있는 임상 위험을 초래한다고 지적했다. 의료 시스템은 문서 작성 지원, 가이드라인 검색, 환자 분류, 외래 진료 등에서 AI 기반 도구를 점점 더 많이 배치하고 있다. 이런 환경에서는 작은 신뢰도 결함도 환자 결과에 의미 있는 영향을 미칠 수 있다. 특히 오늘날 많은 AI 사용이 의료진과 환자가 개인 기기에서 이러한 모델을 실험하는 상향식으로 나타나고 있어, 공식적인 기관 도입 훨씬 전에 이미 널리 사용되고 있다고 설명했다.



FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 의료 전문 AI가 일반 AI보다 성능이 낮은 이유는 무엇인가요?

A. 의료 전문 AI는 필요한 정보를 검색해서 가져오는 방식을 주로 사용하는데, 잘못된 자료를 검색하거나 정보를 제대로 통합하지 못하면 오히려 성능이 나빠질 수 있습니다. 반면 GPT-5 같은 최신 범용 AI는 훨씬 더 방대한 데이터로 학습했고 더 발전된 훈련 방법을 사용해서 의학 지식 검색과 추론 작업에서 뛰어난 성능을 보입니다.

Q2. 이번 연구에서 어떻게 평가했나요?

A. 연구진은 1,000개 의료 질문으로 테스트했습니다. 500개는 미국 의사면허시험 스타일 문제로 의학 지식을 평가했고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인했습니다. 정확성, 완전성, 의사소통 품질, 맥락 인식, 지시 준수 등 5가지 기준으로 평가했습니다.

Q3. 의료 AI를 사용할 때 주의할 점은 무엇인가요?

A. 마케팅 주장만 믿지 말고 독립적인 평가 결과를 확인해야 합니다. 특히 환자 안전과 관련된 응급 상황 판단이나 시스템 기반 안전성 추론에서 의료 전문 AI가 약점을 보인다는 이번 연구 결과를 주목해야 합니다. AI를 진단이나 치료 결정에 활용하기 전에 반드시 실제 임상 시험을 통한 검증이 필요합니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 관리 맡기고 싶은 재태크 고수 같은 스타는? 운영자 26/01/12 - -
1936 생각만으로 챗GPT 쓰는 날 올까… 오픈AI, 뇌와 AI 연결하는 '머지 랩스'에 투자 [2] aimatters갤로그로 이동합니다. 01.16 1013 1
1935 AI가 만든 광고, 젊은 세대는 싫어한다...기업만 모르는 현실 [36] aimatters갤로그로 이동합니다. 01.16 2602 8
1934 “AI 시대, 생각하는 일 자체가 자동화될 것… 몸 쓰는 일도 5년 내 자동화” aimatters갤로그로 이동합니다. 01.16 50 0
1933 일론 머스크, 그록 AI의 성인 이미지 편집 기능 완전 중단 aimatters갤로그로 이동합니다. 01.16 118 0
1932 비즈스프링, AI 플랫폼 유입 트렌드 공개… “AI, 고객 유입의 시작점으로 부상” aimatters갤로그로 이동합니다. 01.16 25 0
1931 “한국, 클로드 사용량 세계 5위"... 앤트로픽, AI 경제 영향 보고서 공개 aimatters갤로그로 이동합니다. 01.16 44 0
1930 구글 번역 AI 공개, 사진 속 글자까지 번역… 55개 언어 성능 대폭 향상 aimatters갤로그로 이동합니다. 01.16 39 1
1929 [1월 16일 AI 뉴스 브리핑] 티젠소프트, AI 기반 두피·피부 분석 진단 시스템 특허 출원 aimatters갤로그로 이동합니다. 01.16 20 0
1928 카이스트, 우울증 진단하는 AI 시스템 개발… 최대 66% 정확도 [12] aimatters갤로그로 이동합니다. 01.15 693 1
1927 AI 성적표는 90점, 실제 사용하면 60점"... 토론토대 교수가 밝힌 AI의 함정  [11] aimatters갤로그로 이동합니다. 01.15 2119 5
1926 알리바바, 스스로 암기·삭제하는 AI 개발... 기존보다 성능 49% 향상 [1] aimatters갤로그로 이동합니다. 01.15 71 0
1925 앤트로픽, 클로드 코드 무단 사용 전면 차단... "정액제 무제한 시대 끝" aimatters갤로그로 이동합니다. 01.15 45 0
1924 "챗GPT 답변 기다리는 시간 끝났다"... 오픈AI, 초고속 칩 업체와 손잡았다  [12] aimatters갤로그로 이동합니다. 01.15 1922 0
1923 애피어, 드림에이지 MMORPG ‘아키텍트’ 론칭 캠페인서 평균 ROAS 140% 달성 aimatters갤로그로 이동합니다. 01.15 25 0
1922 "내 사진·메일 다 뒤져서 답 찾아줘"… 제미나이, 진짜 개인 비서 됐다 aimatters갤로그로 이동합니다. 01.15 71 0
1921 전 구글 X 임원 "AI, 도구 아니라 인간의 주인 될 것" 경고 [1] aimatters갤로그로 이동합니다. 01.15 84 0
1920 한국AI산업협회, 2026년 주목할 AI 유망기업 100곳 선정 aimatters갤로그로 이동합니다. 01.15 37 0
1919 [1월 15일 AI 뉴스 브리핑] 생성AI스타트업협회, AI 기본법 대응 워터마크 API 무료 공급 외 aimatters갤로그로 이동합니다. 01.15 82 0
1918 '국가대표 AI' 1차 심사서 NC·네이버 탈락… "1개 팀 추가 모집" aimatters갤로그로 이동합니다. 01.15 45 0
1917 AI 에이전트 마누스, 시밀러웹과 협력... 이제 몇 초 만에 시장 분석 끝 aimatters갤로그로 이동합니다. 01.14 48 0
1916 애플, 월 1만원대 '크리에이터 구독' 출격… AI 편집 기능 대거 탑재 aimatters갤로그로 이동합니다. 01.14 73 0
1914 구글, CT·MRI 읽는 AI 의사 공개… "의사 말 받아쓰기 오류 82% 줄였다" aimatters갤로그로 이동합니다. 01.14 46 0
1913 이미지 한 장으로 3컷 스토리 완성… 런웨이 '스토리 패널' 기능 공개 aimatters갤로그로 이동합니다. 01.14 37 0
1912 나이·직업·취미 알려줬을 뿐인데… AI가 만든 2년 치 카드 내역 봤더니 aimatters갤로그로 이동합니다. 01.14 1443 2
1911 멀티모달 AI 시장, 10년 후 138조 규모로 폭발적 성장... 연평균 40% 급증  aimatters갤로그로 이동합니다. 01.14 35 0
1910 구글, ‘비오 3.1’ 대규모 업데이트… 숏폼 비율에 4K 해상도 지원 aimatters갤로그로 이동합니다. 01.14 37 0
1909 주식은 열광, 채권은 냉담… BIS, "미국 빅테크들 부채로 몰려간다" 경고 aimatters갤로그로 이동합니다. 01.14 46 0
1908 [1월 14일 AI 뉴스 브리핑] 대원CTS, 10억 펀딩 받은 ‘AI 폼롤러’ 와디즈 론칭 외 aimatters갤로그로 이동합니다. 01.14 22 0
1907 애플, AI 시리에 구글 제미나이 선택... "가장 뛰어난 기술" aimatters갤로그로 이동합니다. 01.13 54 0
1906 앤트로픽, 일반인용 코딩 AI '코워크' 출시... 일상 업무에 활용 가능 aimatters갤로그로 이동합니다. 01.13 36 0
1905 "회의 끝나자마자 PPT 완성"... 마누스, 대면 회의용 AI 기능 출시 aimatters갤로그로 이동합니다. 01.13 67 0
1904 젠슨 황 "이제 AI 안 쓰면 일자리 뺏긴다" 경고 [33] aimatters갤로그로 이동합니다. 01.13 2650 12
1903 [신간] "최고의 프롬프트는 '나'"... AI 시대 직업인 생존법 담은 『일을 위한 디자인』 aimatters갤로그로 이동합니다. 01.13 99 0
1902 오픈AI, 오디오 기기 '스위트피' 개발 중… 올해 9월 출시 목표 aimatters갤로그로 이동합니다. 01.13 83 0
1901 AI로 공부하면 머리 나빠진다?... OECD가 밝힌 AI 교육의 명암 [20] aimatters갤로그로 이동합니다. 01.13 1989 4
1900 2030년 일자리의 운명... 세계경제포럼이 경고한 AI 시대 네 가지 시나리오 aimatters갤로그로 이동합니다. 01.13 80 0
1899 KAIST, 2년 내 치매 발병 가능성 예측하는 AI 개발... "진료기록만 주면 끝" aimatters갤로그로 이동합니다. 01.13 36 0
1898 [1월 13일 AI 뉴스 브리핑] 오핌디지털, 영상 생성 AI '씬트' 쇼케이스 개최 외 aimatters갤로그로 이동합니다. 01.13 23 0
1897 앤트로픽, 챗GPT이어 건강 관리 AI 서비스 출시… 의료 현장 AI 활용 본격화 aimatters갤로그로 이동합니다. 01.12 39 0
1896 "저 엄지, AI 아냐?"... 닌텐도, 마케팅 사진에 AI 사용 의혹 [15] aimatters갤로그로 이동합니다. 01.12 1951 1
1895 챗GPT에 '취업' 탭 추가되나... 오픈AI, 구직 지원 기능 ‘jobs’ 테스트 중 aimatters갤로그로 이동합니다. 01.12 51 0
1894 한국, AI 도입 속도 세계 1위... MS "지브리 스타일 이미지 열풍 영향 커" aimatters갤로그로 이동합니다. 01.12 86 0
1893 "AI 보안 강화했더니 비용은 40분의 1로"… 앤트로픽, 탈옥 방어 신기술 공개 aimatters갤로그로 이동합니다. 01.12 39 0
1892 AI 유머 취향 분석했더니... ‘긴 글’과 ‘은어’ 좋아해 aimatters갤로그로 이동합니다. 01.12 35 0
1891 "불가능할 줄 알았는데"... 대학 최고 난이도 수학 시험, AI가 12문제 완벽 증명 aimatters갤로그로 이동합니다. 01.12 40 0
1890 [1월 12일 AI 뉴스 브리핑] 플래티어, 롯데홈쇼핑 에이전틱 AI 플랫폼 1개월 만에 구축 외 aimatters갤로그로 이동합니다. 01.12 21 0
1889 구글-캐릭터AI, 10대 자살 소송 합의... "챗봇이 죽음 부추겨" aimatters갤로그로 이동합니다. 01.09 80 0
1888 구글 "지메일, AI 비서로 진화"... 제미나이 탑재로 이메일 자동 정리·작성   aimatters갤로그로 이동합니다. 01.09 48 0
1887 일론 머스크 "AI·로봇 때문에 모든 물건 가격 떨어진다… 아니면 국가 파산할 것" aimatters갤로그로 이동합니다. 01.09 66 0
1886 일론 머스크 "지금 대학 갈 이유 모르겠다… AI가 개인 교사될 것" [34] aimatters갤로그로 이동합니다. 01.09 2638 18
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2