디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

“검사 안 해도 돼요” AI 의사 말 믿었다간... 심각한 오류 4건 중 3건이 '진단 누락'

aimatters갤로그로 이동합니다. 2025.12.05 19:15:00
조회 149 추천 0 댓글 0
														


미국 스탠퍼드대와 하버드 의대 연구진이 챗GPT, 구글 제미나이, 클로드 같은 인공지능 31개를 조사한 결과, 최악의 경우 100개 진료 사례 중 22개에서 심각하게 위험한 의료 조언을 했다. 더 놀라운 건 AI가 잘못된 약을 추천하는 것보다, 필요한 검사나 치료를 '빠뜨리는' 실수가 훨씬 더 많았다는 것이다. 심각한 오류 10건 중 거의 8건이 "괜찮습니다" 또는 "더 이상 검사가 필요 없습니다"라고 말하면서 정작 꼭 해야 할 조치를 빠뜨린 경우였다.



실제 병원 상담 100건으로 AI 안전성 시험했더니

해당 논문에 따르면, 연구팀은 스탠퍼드 병원에서 실제로 있었던 1만 6천여 건의 진료 상담 중 100건을 골랐다. 이 상담들은 동네 병원 의사가 대학병원 전문의에게 "이 환자 어떻게 치료하면 좋을까요?"라고 물어본 진짜 사례들이다. 알레르기, 심장, 피부, 당뇨, 소화기, 혈액, 감염, 신장, 신경, 호흡기 등 10개 분야를 다뤘다.

사례마다 "소변 검사를 해야 할까?", "항생제를 처방해야 할까?", "응급실로 보내야 할까?" 같은 선택지들을 준비했다. 전체 4,249개의 선택지를 만들었고, 전문의 29명이 선택지마다 "이건 환자한테 도움이 될까, 해가 될까?"를 평가했다. 총 1만 2천여 개의 평가 점수가 나왔다.

전문의들은 9점 척도로 점수를 매겼는데, 95.5%가 서로 비슷한 점수를 줬다. 즉, 전문가끼리 의견이 거의 일치했다는 뜻이다. 이 평가는 "하면 안 되는 걸 한 실수"와 "해야 하는 걸 안 한 실수" 둘 다 잡아낼 수 있다.



최악의 AI는 사례 2.5건당 1건 위험, 최고도 11건 중 1건 실수

100건의 사례를 31개 AI에게 물어본 결과는 충격적이었다. 가장 좋은 성적을 낸 AI들(구글 제미나이 2.5 플래시, 리사 1.0, 클로드 소네트 4.5, 구글 제미나이 2.5 프로, 딥시크 R1)도 100건 중 평균 12~15건에서 심각한 실수를 했다. 가장 나쁜 AI들(o4 미니, GPT-4o 미니)은 100건 중 40건이나 위험한 답을 내놨다.

더 걱정되는 건 "몇 건의 사례를 다룰 때 1건에서 심각한 문제가 생기는가"라는 계산이다. 최악의 AI는 사례 4.5건당 1건에서 심각한 해를 끼쳤다. 가장 좋은 AI도 11.5건 중 1건꼴로 위험한 답을 줬다. 재미있는 건 "아무 치료도 하지 마세요"라고만 답하는 가짜 AI를 만들어 비교했는데, 이게 사례 3.5건당 1건을 위험하게 만들었다. 테스트한 모든 AI보다 더 위험했다. 이는 병원에서 "아무것도 안 하는 것"도 큰 위험이 될 수 있다는 뜻이다.





AI의 진짜 문제는 "너무 많이 하는 것"이 아니라 "충분히 안 하는 것"

이 연구에서 가장 중요한 발견은 AI가 잘못된 약을 주는 것보다, 필요한 검사를 안 하라고 말하는 게 훨씬 더 위험하다는 것이다. 모든 실수를 모아보니 절반 이상(50.2%)이 "해야 하는데 안 한" 실수였다. 특히 심각한 실수만 보면 10건 중 거의 8건(76.6%)이 이 유형이었다. 예를 들어보자. 필수 혈액 검사를 주문하지 않거나, 중요한 재검사 일정을 잡지 않거나, 전문의에게 보내야 하는데 안 보낸 경우다. 반대로 위험한 약을 잘못 추천하는 실수는 상대적으로 적었다.

실수를 종류별로 나눠보니, 최고 성적 AI들은 특히 "진단 검사 빠뜨리기"와 "추적 관찰 빠뜨리기"를 적게 했다. 즉, 요즘 AI의 가장 큰 문제는 과잉 진료가 아니라 과소 진료다.



최고 AI는 의사보다 10% 더 안전하고, AI 3개 협업하면 1개보다 8% 더 안전

연구진은 내과 전문의 10명에게도 똑같은 테스트를 했다. 단, 30개 사례만 골라서 했다. 의사들은 인터넷 검색이나 의학 자료 사이트는 쓸 수 있었지만 AI 도움은 못 받았다. 결과는 놀라웠다. 최고 성적을 낸 AI가 의사들보다 안전성에서 평균 9.7% 더 좋았다. 평균 AI도 "빠짐없이 필요한 조치를 다 권하는 능력"에서 의사보다 15.6% 더 나았다.

더 흥미로운 건 AI 여러 개를 함께 쓰는 방법이다. 첫 번째 AI가 답을 내면, 두 번째 AI가 그 답을 검토하고 고치고, 세 번째 AI가 다시 검토하는 식이다. 이렇게 하면 AI 1개만 쓸 때보다 훨씬 안전했다. 여러 AI를 조합한 방식은 1개만 쓸 때보다 최상위 안전 등급을 받을 확률이 5.9배 높았다. 특히 서로 다른 회사의 다양한 AI를 섞을수록 더 좋았다. 가장 좋은 조합은 오픈소스 AI(라마 4 스카우트), 상업용 AI(구글 제미나이 2.5 프로), 의료 자료 검색 AI(리사 1.0)를 함께 쓴 것이었다. AI 3개를 함께 쓰면 2개보다 평균 4.9% 더 안전했고, 1개보다는 8% 더 안전했다.



너무 신중한 AI가 오히려 위험할 수 있는 역설

연구진은 세 가지 기준으로 AI를 평가했다. '안전성'은 얼마나 해를 덜 끼치는가, '완전성'은 필요한 조치를 빠짐없이 권하는가, '신중함'은 불확실한 치료를 피하는가를 측정한다. 재미있는 발견이 있었다. 너무 신중한 AI도 문제지만, 너무 무분별한 AI도 문제였다. 안전성은 중간 정도로 신중할 때 가장 높았다. 그래프로 그리면 역U자 모양이 나왔다. 오픈AI의 모델들(GPT 시리즈, o 시리즈)은 대체로 매우 신중했다. 확실한 것만 추천하려다 보니 필요한 조치를 많이 빠뜨렸다. 그래서 다른 AI들보다 평균 안전성과 완전성이 낮았다. 구글의 최신 모델 제미나이 3 프로도 비슷한 문제가 있었다.

연구진이 실험을 더 해봤다. 같은 AI에게 "신중하게 해"라고 할 때와 "최대한 많이 추천해"라고 할 때를 비교했다. 제미나이 2.5 플래시는 원래 신중함이 낮은 편인데, 더 신중하게 하라고 하니 안전성이 떨어졌다. 반대로 GPT-5는 원래 너무 신중한 편인데, 덜 신중하게 하라고 하니 안전성이 올라갔다. 이는 의학적으로도 의미가 있다. 너무 조심스러워서 확실한 것만 말하는 AI는 얼핏 안전해 보이지만, 실제로는 "필요한 검사 안 하라고" 말함으로써 더 큰 위험을 만들 수 있다.



기존 AI 시험 점수로는 의료 안전성 예측 못 해

연구진은 이 AI들의 다른 시험 점수도 함께 봤다. ARC-AGI, GPQA-다이아몬드, LM아레나 같은 유명한 AI 능력 평가나, MedQA 같은 의학 지식 시험 점수를 비교했다. 결과는 의외였다. 의료 안전성과 약간이라도 관련 있는 건 딱 3개뿐이었다. GPQA-다이아몬드와 안전성(상관계수 0.61), LM아레나와 안전성(0.64), MedQA와 신중함(0.51). "빠짐없이 처방하는 능력"과 관련된 시험 점수는 하나도 없었다.

AI가 최신인지, 크기가 큰지, 추론 능력이 있는지도 조사했다. 별로 상관이 없었다. 신중함만 조금 관련이 있었고, 안전성이나 완전성은 이런 것들로 예측이 안 됐다. 이는 중요한 의미를 갖는다. AI 회사들이 자랑하는 시험 점수가 높다고 해서 의료 현장에서 안전하다고 장담할 수 없다는 것이다. 의료 안전성은 별도로 측정해야 한다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI 의사가 가장 자주 하는 실수는 뭔가요?

A. AI가 가장 자주 하는 위험한 실수는 필요한 검사나 치료를 안 하라고 말하는 것입니다. "괜찮아요, 더 검사 안 해도 돼요"라고 하면서 정작 꼭 해야 할 혈액 검사나 재검진을 빠뜨립니다. 심각한 실수 10건 중 8건이 이런 유형입니다. 잘못된 약을 추천하는 실수보다 훨씬 많고 위험합니다.

Q. 어떤 AI가 가장 안전한가요?

A. 단일 AI로는 구글 제미나이 2.5 플래시, 리사 1.0, 클로드 소네트 4.5, 구글 제미나이 2.5 프로, 딥시크 R1이 가장 안전했습니다. 하지만 더 좋은 방법은 여러 AI를 함께 쓰는 것입니다. 특히 서로 다른 회사의 AI를 섞어 쓰면 1개만 쓸 때보다 평균 8% 더 안전합니다.

Q. AI 의료 조언을 믿어도 되나요?

A. 최고 성능 AI는 의사보다 약 10% 더 안전했습니다. 하지만 그래도 11~12건의 사례를 다룰 때마다 1건에서는 심각한 실수를 합니다. 따라서 AI 말을 그대로 믿기보다는, 의사 선생님과 상담할 때 참고 자료로만 쓰는 게 안전합니다. 특히 AI가 "괜찮다" 또는 "더 검사 안 해도 된다"고 할 때는 더욱 조심해야 합니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: First, do NOHARM: towards clinically safe large language models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 취미 부자여서 결혼 못 할 것 같은 스타는? 운영자 26/01/19 - -
1956 챗GPT, '나이 감별' 시작... 너 몇 살이야? 묻지 않고 알아내는 이유 aimatters갤로그로 이동합니다. 01.21 31 0
1955 앤트로픽 CEO, "중국 AI는 경쟁자 아니야"… 실제 경쟁자 따로 있어 aimatters갤로그로 이동합니다. 01.21 20 0
1954 앤트로픽, 교사용 무료 AI 제공... 4일만에 신청자 폭주, 뭐가 다를까 aimatters갤로그로 이동합니다. 01.21 16 0
1953 우리 아이 90%가 매일 쓰는 챗GPT, OECD 보고서 "AI로 공부하면 바보 된다" [8] aimatters갤로그로 이동합니다. 01.21 1290 4
1952 "이건 사람한테 물어봐야겠다"… AI가 스스로 한계 인정하는 법 배웠다 aimatters갤로그로 이동합니다. 01.21 17 0
1951 AI 에이전트 작업은 완료하되 비용은 658배 폭증시키는 은밀한 공격 등장 aimatters갤로그로 이동합니다. 01.21 16 0
1950 엔비디아, AI 학습을 위해 '불법인 줄 알면서' 최대 사이트서 불법 복제물 의도적 접근 [19] aimatters갤로그로 이동합니다. 01.21 1575 12
1949 "AI 도입 고민?"… IBM, 자사가 쓰던 생산성 50% 올린 AI 시스템 공개  aimatters갤로그로 이동합니다. 01.20 1184 1
1948 "내 사진이 쬬르디로 변신"… 카카오톡 AI 캐릭터 생성 프로모션 화제 aimatters갤로그로 이동합니다. 01.20 58 0
1947 "2분만에 나를 복제"... AI 아바타가 투자자 질문에 실시간 답변 aimatters갤로그로 이동합니다. 01.20 40 0
1946 대학 연구팀이 만든 AI 채점 방식 바꿨더니 GPT-5 이겼다... 의료 분야 세계 1등 달성  [2] aimatters갤로그로 이동합니다. 01.20 1496 6
1945 "하야오 보고 있나" 93% 정확도로 사람 움직임 재현하는 AI 등장... 게임·영화 제작 혁명 예고 aimatters갤로그로 이동합니다. 01.20 37 0
1944 딥시크 AI 뜯어보니 다른 버전이 사람처럼 토론하고 있었다... 구글 연구진 "소름" [1] aimatters갤로그로 이동합니다. 01.20 51 0
1943 이제 챗GPT도 광고 봐야 한다… 오픈AI, 수익화 본격 시동  aimatters갤로그로 이동합니다. 01.19 45 0
1942 "무료의 10배 쓴다"... 월 1만원대 '챗GPT Go', 전세계 출시 [15] aimatters갤로그로 이동합니다. 01.19 2891 4
1941 퍼플렉시티, 월스트리트 공략 나섰다... '기관투자자용 AI 리서치' 서비스 출시 aimatters갤로그로 이동합니다. 01.19 39 0
1940 속도는 36배, 화질은 그대로… 엔비디아 AI 영상 생성 기술 'TMD' 공개 aimatters갤로그로 이동합니다. 01.19 50 0
1939 오픈AI, 18개월 안에 파산할 수도… “MS나 아마존에 인수될 가능성 커” aimatters갤로그로 이동합니다. 01.19 100 1
1938 수천만원 드는 AI 성능 평가... 이제 몇백만원으로 해결 가능하다 aimatters갤로그로 이동합니다. 01.19 29 0
1937 챗GPT, 3년 만에 연매출 10배 폭증... 오픈AI CFO "전례 없는 성장" aimatters갤로그로 이동합니다. 01.19 39 0
1936 생각만으로 챗GPT 쓰는 날 올까… 오픈AI, 뇌와 AI 연결하는 '머지 랩스'에 투자 [2] aimatters갤로그로 이동합니다. 01.16 1078 1
1935 AI가 만든 광고, 젊은 세대는 싫어한다...기업만 모르는 현실 [37] aimatters갤로그로 이동합니다. 01.16 2775 8
1934 “AI 시대, 생각하는 일 자체가 자동화될 것… 몸 쓰는 일도 5년 내 자동화” aimatters갤로그로 이동합니다. 01.16 79 0
1933 일론 머스크, 그록 AI의 성인 이미지 편집 기능 완전 중단 aimatters갤로그로 이동합니다. 01.16 280 0
1932 비즈스프링, AI 플랫폼 유입 트렌드 공개… “AI, 고객 유입의 시작점으로 부상” aimatters갤로그로 이동합니다. 01.16 31 0
1931 “한국, 클로드 사용량 세계 5위"... 앤트로픽, AI 경제 영향 보고서 공개 aimatters갤로그로 이동합니다. 01.16 73 0
1930 구글 번역 AI 공개, 사진 속 글자까지 번역… 55개 언어 성능 대폭 향상 aimatters갤로그로 이동합니다. 01.16 74 1
1929 [1월 16일 AI 뉴스 브리핑] 티젠소프트, AI 기반 두피·피부 분석 진단 시스템 특허 출원 aimatters갤로그로 이동합니다. 01.16 24 0
1928 카이스트, 우울증 진단하는 AI 시스템 개발… 최대 66% 정확도 [12] aimatters갤로그로 이동합니다. 01.15 735 1
1927 AI 성적표는 90점, 실제 사용하면 60점"... 토론토대 교수가 밝힌 AI의 함정  [11] aimatters갤로그로 이동합니다. 01.15 2170 6
1926 알리바바, 스스로 암기·삭제하는 AI 개발... 기존보다 성능 49% 향상 [1] aimatters갤로그로 이동합니다. 01.15 93 0
1925 앤트로픽, 클로드 코드 무단 사용 전면 차단... "정액제 무제한 시대 끝" aimatters갤로그로 이동합니다. 01.15 54 0
1924 "챗GPT 답변 기다리는 시간 끝났다"... 오픈AI, 초고속 칩 업체와 손잡았다  [12] aimatters갤로그로 이동합니다. 01.15 1977 0
1923 애피어, 드림에이지 MMORPG ‘아키텍트’ 론칭 캠페인서 평균 ROAS 140% 달성 aimatters갤로그로 이동합니다. 01.15 29 0
1922 "내 사진·메일 다 뒤져서 답 찾아줘"… 제미나이, 진짜 개인 비서 됐다 aimatters갤로그로 이동합니다. 01.15 88 0
1921 전 구글 X 임원 "AI, 도구 아니라 인간의 주인 될 것" 경고 [1] aimatters갤로그로 이동합니다. 01.15 145 1
1920 한국AI산업협회, 2026년 주목할 AI 유망기업 100곳 선정 aimatters갤로그로 이동합니다. 01.15 60 0
1919 [1월 15일 AI 뉴스 브리핑] 생성AI스타트업협회, AI 기본법 대응 워터마크 API 무료 공급 외 aimatters갤로그로 이동합니다. 01.15 89 0
1918 '국가대표 AI' 1차 심사서 NC·네이버 탈락… "1개 팀 추가 모집" aimatters갤로그로 이동합니다. 01.15 51 0
1917 AI 에이전트 마누스, 시밀러웹과 협력... 이제 몇 초 만에 시장 분석 끝 aimatters갤로그로 이동합니다. 01.14 60 0
1916 애플, 월 1만원대 '크리에이터 구독' 출격… AI 편집 기능 대거 탑재 aimatters갤로그로 이동합니다. 01.14 89 0
1914 구글, CT·MRI 읽는 AI 의사 공개… "의사 말 받아쓰기 오류 82% 줄였다" aimatters갤로그로 이동합니다. 01.14 52 0
1913 이미지 한 장으로 3컷 스토리 완성… 런웨이 '스토리 패널' 기능 공개 aimatters갤로그로 이동합니다. 01.14 42 0
1912 나이·직업·취미 알려줬을 뿐인데… AI가 만든 2년 치 카드 내역 봤더니 aimatters갤로그로 이동합니다. 01.14 1462 2
1911 멀티모달 AI 시장, 10년 후 138조 규모로 폭발적 성장... 연평균 40% 급증  aimatters갤로그로 이동합니다. 01.14 42 0
1910 구글, ‘비오 3.1’ 대규모 업데이트… 숏폼 비율에 4K 해상도 지원 aimatters갤로그로 이동합니다. 01.14 44 0
1909 주식은 열광, 채권은 냉담… BIS, "미국 빅테크들 부채로 몰려간다" 경고 aimatters갤로그로 이동합니다. 01.14 51 0
1908 [1월 14일 AI 뉴스 브리핑] 대원CTS, 10억 펀딩 받은 ‘AI 폼롤러’ 와디즈 론칭 외 aimatters갤로그로 이동합니다. 01.14 28 0
1907 애플, AI 시리에 구글 제미나이 선택... "가장 뛰어난 기술" aimatters갤로그로 이동합니다. 01.13 60 0
1906 앤트로픽, 일반인용 코딩 AI '코워크' 출시... 일상 업무에 활용 가능 aimatters갤로그로 이동합니다. 01.13 48 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2