디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI 성적표는 90점, 실제 사용하면 60점"... 토론토대 교수가 밝힌 AI의 함정 

aimatters갤로그로 이동합니다. 2026.01.15 16:20:16
조회 2397 추천 6 댓글 9


AI가 어제는 완벽한 답을 내놓더니, 오늘은 비슷한 질문에 황당한 대답을 내놓은 경험이 있는가? 토론토대학교 경제학 교수가 발표한 연구 논문에 따르면, 이것이 단순한 우연이 아니라 수학적으로 필연적인 현상임을 밝혔다. 더 충격적인 사실은 AI 회사들이 발표하는 성능 점수가 당신이 실제로 경험할 성능보다 2배나 부풀려져 있다는 것이다. 


AI는 천재와 바보 사이를 오간다 


조슈아 간스(Joshua S. Gans) 교수는 이 현상을 '인공 들쭉날쭉 지능(Artificial Jagged Intelligence)'이라고 말했다. AI의 지식은 마치 치즈처럼 어떤 부분은 빽빽하게 채워져 있지만 어떤 부분은 텅 비어있다. 

연구팀은 실제 AI 작동 방식을 분석한 결과, AI가 학습한 데이터는 무작위로 흩어진 '지식 포인트'처럼 존재한다는 것을 발견했다. 문제는 이 지식 포인트들 사이의 간격이 일정하지 않다는 것이다. 어떤 주제는 촘촘히 학습되어 있지만, 어떤 주제는 거의 학습이 안 되어 있다. AI는 지식 포인트 사이의 빈 공간에서는 추측으로 답을 만들어낸다. 

하버드 경영대학원의 실험 연구도 이를 뒷받침한다. 경영 컨설턴트들에게 AI를 제공했더니, 비슷해 보이는 업무 중 어떤 것은 성과가 크게 향상되었지만 어떤 것은 오히려 나빠졌다. 연구진은 이를 "들쭉날쭉한 기술 경계선"이라고 표현했다. 



당신은 불운하게도 AI가 약한 부분만 계속 만난다 


여기서 더 큰 문제가 시작된다. 통계학의 '검사 역설' 즉, 평균을 기준으로 생각할 때와 실제로 무작위로 경험할 때의 평균이 달라지는 현상 때문에, 사용자는 AI가 약한 부분을 훨씬 더 자주 경험하게 된다. 

간단한 예로 설명해보자. 두 개의 교각으로 지탱되는 다리가 있다. 한 구간은 2미터, 다른 구간은 8미터다. 평균을 계산하면 5미터다. 그런데 실제로 이 다리를 건너는 사람은 어떨까? 2미터 구간은 금방 지나가지만, 8미터 구간은 오래 걸린다. 시간으로 따지면 전체 시간의 80%를 위험한 8미터 구간에서 보낸다. 평균은 5미터지만, 체감하는 위험도는 6.8미터인 셈이다. 

연구는 이를 수학적으로 증명했다. 지식 간격이 무작위로 분포된 경우, 사용자가 경험하는 평균 간격은 실제 평균의 정확히 2배다. AI 회사가 "우리 AI는 평균 90점입니다"라고 발표해도, 당신이 실제로 경험하는 오류는 2배 더 많을 수 있다는 뜻이다. 



더 큰 AI 모델도 '불균등성'은 못 고친다 


AI 업계는 더 큰 모델, 더 많은 데이터에 수천억 원을 쏟아붓고 있다. 현재 AI의 모델 크기는 과거와 비교하면 기하급수적으로 커졌다. 그런데 이 연구는 충격적인 사실을 밝혔다. AI모델의 '불균등성'은 그대로라는 것이다. 

연구진의 분석에 따르면, 지식 포인트 2배로 늘리면 평균 성능은 확실히 좋아진다. 하지만 상대적인 불균등성은 똑같이 유지된다. 여전히 사용자는 가장 긴 간격에 80%의 시간을 보낸다. 

다리 비유로 돌아가면, 교각을 두 배로 늘려서 간격이 1미터와 4미터가 되었다고 하자. 안전해진 것은 맞지만, 여전히 사용자는 4미터 구간에서 80%의 시간을 보낸다. 숫자는 줄었지만 여전히 구조는 똑같다. 

이것이 평가 점수는 계속 올라가는데 사용자들이 "여전히 이상한 실수를 한다"고 불평하는 이유다. 전체적으로는 좋아졌지만, 놀라운 실패는 여전히 똑같은 빈도로 발생한다. 



진짜 해법은 '어디가 약한지 알려주는 것' 


그렇다면 해법은 무엇일까? 논문에서는 세 가지 방향을 제시한다. 

첫째는 '스케일링'으로, 더 큰 모델을 만드는 것이다. 이는 평균 성능을 올리지만 앞서 말했듯 불균등성은 못 고친다. 

둘째는 '규칙성'으로, 약한 부분을 집중적으로 보완하는 것이다. 전체 데이터를 늘리기보다는 구멍 난 부분만 메우는 전략이다. 예를 들어 의료, 법률 같은 전문 분야 데이터를 집중적으로 학습시키는 방식이다. 

마지막으로, 가장 중요한 것은 '캘리브레이션'이다. AI가 자신이 약한 부분을 솔직하게 알려주는 것이다. 

완벽하게 캘리브레이션된 AI를 사용하는 사람을 상상해보자. 각 질문마다 AI가 "이 답은 80% 확신합니다" 또는 "이건 30%밖에 확신 못 합니다"라고 알려준다. 사용자는 확신도가 낮은 답은 무시하고 높은 것만 사용한다. 그러면 평균 점수가 낮아도 유용하게 쓸 수 있다. 

연구에 따르면, 캘리브레이션의 가치는 AI가 아직 부족할 때 가장 크다. 모델이 이미 충분히 좋으면 캘리브레이션이 별로 필요 없다. 하지만 아직 불완전한 단계에서는 캘리브레이션이 모델 성능 향상보다 더 효과적일 수 있다. 



챗GPT의 '추론 모드', 언제 쓸 가치가 있나? 


챗GPT, 클로드 같은 AI들은 '추론 모드' 또는 '딥 씽킹' 같은 기능을 제공한다. 일반 모드보다 느리고 비용도 더 들지만, 더 정확한 답을 준다고 한다. 그런데 이게 정말 도움이 될까? 

연구는 이에 대해서도 명확한 답을 제시한다. 추론 모드는 AI가 불확실한 영역에서 가장 효과적이다. 문제는 앞서 말한 검사 역설 때문에, 사용자는 정확히 그런 불확실한 영역을 더 자주 만난다는 것이다. 

연구팀의 계산에 따르면, 일반적인 평가는 추론 모드의 가치를 과소평가한다. 평가는 모든 영역을 고르게 테스트하지만, 실제 사용자는 어려운 영역을 더 자주 만나기 때문이다. 

최적 전략은 이렇다. 기본 모드로 시작해서 불확실성이 일정 수준을 넘으면 추론 모드로 전환하고, 그래도 확신이 없으면 아예 포기하는 것이다. 연구는 이 각 단계의 정확한 기준점까지 수식으로 제시했다. 



회사는 도입했는데 직원들은 불만, 왜? 


이 연구가 밝힌 가장 실용적인 발견은 조직의 AI 도입 결정과 직원의 실제 경험 사이의 괴리다. 

상황을 재연해보자. IT 부서가 여러 AI를 테스트한다. 평가 점수가 80점 이상이면 합격이라는 기준을 세운다. A 제품이 82점을 받아 도입이 결정된다. 그런데 실제 현장에서는 "계속 이상한 답을 내놓는다고" 불만이 쏟아진다.

연구는 이것이 수학적으로 예측 가능한 현상임을 보여준다. 평가 점수가 80점이어도, 직원들이 경험하는 오류는 2배 더 많을 수 있다. 왜냐하면 평가는 고르게 샘플링하지만, 직원들은 어려운 업무에 더 많이 부딪히기 때문이다. 

더 안 좋은 것은 직원들이 업무 압박 때문에 적절하지 않은 곳까지 AI를 사용한다는 것이다. AI를 쓰면 일이 편하니까 불확실한 경우에도 일단 AI에 맡긴다. 그러다 문제가 터지고, 신뢰가 떨어지고, 결국 비공식적으로 "AI는 이런 용도로만 쓰자"는 암묵적 룰이 생긴다. 

연구는 이 문제의 해법으로 강제 검증 시스템을 제안한다. 모든 AI 결과물을 사람이 검토하도록 의무화하는 것이다. 언제 이것이 효과적일까? 연구에 따르면 AI가 "거의 좋은데 완벽하진 않은" 단계에서 가장 가치가 있다. 너무 형편없으면 아무도 안 쓰고, 완벽하면 검증이 불필요하다. 애매한 중간 단계에서 검증이 빛을 발한다. 



AI 평가 방식을 바꿔야 한다 


이 연구가 던지는 메시지는 명확하다. "평균 점수로 AI를 평가하지 마라." 

AI 업체들이 발표하는 평가 점수는 실제 경험을 과대평가한다. 특히 성능이 불균등할수록, 실제 경험은 평가 점수보다 훨씬 나쁘다. 연구는 평가가 다음을 함께 보고해야 한다고 제안한다 
  1. 평균 점수 (지금 발표하는 것) 
  1. 성능 편차 (분야별로 얼마나 들쭉날쭉한가) 
  1. 최악의 경우 (하위 성능 구간은 얼마나 나쁜가) 
  1. 실제 사용 분포 반영 점수 (자주 쓰는 기능 위주로 측정) 

기업 입장에서는 AI 도입 시 평가 점수만 보지 말고, 실제 직원들이 자주 하는 업무에서 테스트해봐야 한다. 그리고 불확실성이 높은 결과는 반드시 사람이 검토하는 시스템을 구축해야 한다. 

개인 사용자는 어떻게 해야 할까? AI를 사용 때 "이 AI가 어떤 걸 잘하고 못하는지" 학습하는 시간을 투자해야 한다. 연구는 이를 '마스터리'라고 부른다. AI 모델이 발전해도 이 학습은 계속 필요하다. 새 버전이 나와도 어디가 개선됐는지 직접 써보기 전까진 모르기 때문이다. 

AI 시대에는 "이 AI가 몇 점인가"보다 "이 AI는 어디서 믿을 만하고 어디서 조심해야 하는가"를 아는 것이 더 중요하다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 


Q1. AI가 어제는 잘하더니 오늘은 비슷한 질문에 이상하게 답하는 이유가 뭔가요? 

A. AI의 지식은 교과서처럼 고르게 분포되어 있지 않고 치즈처럼 구멍이 숭숭 뚫려 있다. 어제 질문은 AI가 잘 학습한 부분이었고, 오늘 질문은 거의 학습하지 못한 빈 공간이었기 때문이다. 비슷해 보여도 AI 입장에서는 완전히 다른 영역일 수 있다. 

Q2. 챗GPT가 평가에서 90점 받았다는데 제가 쓸 때는 왜 자주 틀리나요? 

A. 평가는 모든 분야를 고르게 테스트하지만, 실제 사용자는 통계적으로 AI가 약한 부분을 2배 더 자주 만난다. 마치 2미터와 8미터 다리를 건널 때 평균은 5미터지만 실제로는 위험한 8미터 구간에서 80% 시간을 보내는 것과 같다. 그래서 90점 AI도 실제로는 훨씬 더 많은 오류를 경험하게 된다. 

Q3. 회사에서 AI 도입할 때 뭘 확인해야 하나요? 

A. 평가 점수만 보지 말고 세 가지를 확인해야 한다. 첫째, 우리 회사 직원들이 실제로 자주 하는 업무에서 테스트해보기. 둘째, 평균이 아니라 최악의 경우는 얼마나 나쁜지 확인하기. 셋째, AI가 불확실한 답변을 할 때 표시해주는 기능이 있는지, 그리고 그런 경우 사람이 검토하는 시스템을 만들 수 있는지 확인하기. 단순히 AI 성능만이 아니라 직원 교육과 검증 시스템까지 함께 준비해야 성공적으로 도입할 수 있다. 



기사에 인용된 논문 원문은 arXiv에서 확인 가능하다. 

논문명: A Model of Artificial Jagged Intelligence 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 

추천 비추천

6

고정닉 0

4

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 치어리딩 가장 잘할 것 같은 스타는? 운영자 26/05/11 - -
2707 깃랩(GitLab), ‘에이전틱 시대’ 베팅에 인력 감축… 운영 국가 수 30% 축소·R&D 60팀 재편
aimatters갤로그로 이동합니다.
05.12 9 0
2706 ‘우주 데이터센터’ 띄울 로켓이 모자란다… 카우보이 스페이스, 약 4,100억 원 시리즈 B 조달
aimatters갤로그로 이동합니다.
05.12 8 0
2705 엘리스그룹, 고용노동부 ‘K-디지털 트레이닝 AI 캠퍼스’ 운영기관 선정… 실전형 AI 엔지니어 양성
aimatters갤로그로 이동합니다.
05.12 6 0
2704 ‘쿨리닉’, 피지컬 AI 기반 스마트 냉동장비 체계 구축… 콜드체인 사후 관리 한계 깬다
aimatters갤로그로 이동합니다.
05.12 7 0
2703 동영상도 자동으로 얼굴 블러...아이엠지베이스 VDIT, ‘AI 얼굴 자동 모자이크’ 탑재
aimatters갤로그로 이동합니다.
05.12 7 0
2702 데이블, 대화형 AI 뉴스 위젯 ‘에이블(AI-ble)’ 출시… 기사 안에서 독자 질문 직접 응답
aimatters갤로그로 이동합니다.
05.12 8 0
2701 다시 살아난 ‘디그(Digg)’… 이번엔 AI 뉴스 어그리게이터로 회귀
aimatters갤로그로 이동합니다.
05.12 8 0
2700 스위스 ‘픽테’ 35억 달러 펀드, 현금 비중 30% 아시아·미국 AI 주식으로 옮겼다
aimatters갤로그로 이동합니다.
05.12 9 0
2699 브린욜프슨 “AI 일자리 충격 대비 부족하다”… 美 노동생산성 연 1.8% 성장 베팅
aimatters갤로그로 이동합니다.
05.12 8 0
2698 아시아 증시, AI 낙관론에 중동 불안 압도… 한국 코스피 5% 폭등 사상 최고
aimatters갤로그로 이동합니다.
05.12 7 0
2697 맥 미니가 ‘AI 에이전트 호스트’로… 클로드 수요에 애플 인상·품귀 사태
aimatters갤로그로 이동합니다.
05.12 8 0
2696 알파벳, 첫 엔화 채권 발행 추진… AI 인프라 260조 원 캐펙스 자금 조달 목표
aimatters갤로그로 이동합니다.
05.12 8 0
2695 한국 대기업이 베팅한 컨피그(Config), 370억 원 시드… ‘로봇 데이터의 TSMC’ 노린다
aimatters갤로그로 이동합니다.
05.12 23 0
2694 IBM 보고서 “글로벌 기업 76%가 CAIO 신설”… 1년 만에 26%→76% 폭증
aimatters갤로그로 이동합니다.
05.12 23 0
2693 마이크로소프트, 오픈AI 초기 투자에서 126조 원 회수 목표… ‘AI 시대 최대 베팅’ 평가
aimatters갤로그로 이동합니다.
05.12 6 0
2692 오픈AI, 40억 달러 규모 ‘디플로이먼트 컴퍼니’ 출범… 직원 파견으로 기업 AI 도입 가속
aimatters갤로그로 이동합니다.
05.12 9 0
2691 AI 에이전트 성능 한계 구현법은 추론이 아니라 '눈'이었다, 클로드 오퍼스 4.6 제친 GLM-5V-Turbo의 비밀
aimatters갤로그로 이동합니다.
05.12 9 0
2690 정확도 95%로 알츠하이머 잡아낸 AI 에이전트, '이것' 모르면 0점?
aimatters갤로그로 이동합니다.
05.12 9 0
2689 [AI 옵저버] 너희가 가둬뒀던 클로드 미토스가, 이번 주 너희를 구했다
aimatters갤로그로 이동합니다.
05.11 48 0
2688 카메라 들이대고 "이거 얼마야?" 물으면 폰이 알아서 타오바오를 연다, 오포(OPPO)가 공개한 엣지 AI 에이전트 [9]
aimatters갤로그로 이동합니다.
05.11 1369 1
2687 AI 혁명의 진짜 병목은 모델 아닌 '전력·반도체·인재'… 한국 정책에 던지는 3대 숙제 [5]
aimatters갤로그로 이동합니다.
05.11 612 1
2686 빅테크 990조 원 AI 인프라 베팅… 잉여현금 급감, 한국 HBM 사이클도 직격
aimatters갤로그로 이동합니다.
05.11 31 0
2685 김민석 총리, 'UN AI 허브' 한국 유치 TF 출범… 일본·싱가포르와 경쟁 본격화
aimatters갤로그로 이동합니다.
05.11 29 0
2684 익스피리언 "2026년 데이터 유출 1위는 에이전틱 AI" 기계끼리 유출할 경우 책임 소재 모호
aimatters갤로그로 이동합니다.
05.11 17 0
2683 "우버, 단순 차량 호출 이상이 되려는 이유"… 종합 자동차 로보틱스 회사로 발돋움
aimatters갤로그로 이동합니다.
05.11 306 1
2682 테크크런치 "xAI-앤트로픽 컴퓨팅 거래에 냉소적"… 머스크 클라우드 회사로 전환하나
aimatters갤로그로 이동합니다.
05.11 69 0
2681 AI 에이전트가 도구를 잘못 불러놓고 아닌 척 하고 있다… '툴 포이즈닝' 보안 취약점 공식 제기
aimatters갤로그로 이동합니다.
05.11 36 0
2680 CNN "AI는 당신 일자리를 빼앗지 않는다… 직무의 모양을 바꿀 뿐"
aimatters갤로그로 이동합니다.
05.11 19 0
2679 마이크로소프트, 케냐 AI 데이터센터 사실상 좌초… 정부 지급보증 협상 결렬
aimatters갤로그로 이동합니다.
05.11 17 0
2678 앤트로픽 "인터넷 글들의 악마적 AI 묘사를 학습한 클로드가 엔지니어를 협박하게 만들었다"
aimatters갤로그로 이동합니다.
05.11 24 0
2677 2030년이면 운영 결정 절반을 AI가 내린다, 그런데 지금 직원의 25%만 AI를 쓰고 있다
aimatters갤로그로 이동합니다.
05.11 20 0
2676 구글 계정 하나로 PPT·웹페이지·팟캐스트 뚝딱…제미나이 무료버전의 진짜 위력
aimatters갤로그로 이동합니다.
05.08 50 0
2675 [에이-아이랑] 매일이 어린이날 같기를 - AI 시대의 또 다른 놀이터
aimatters갤로그로 이동합니다.
05.08 24 1
2674 에이서, 지마켓 '빅스마일데이'서 게이밍·AI 노트북 최대 36% 할인
aimatters갤로그로 이동합니다.
05.08 35 0
2673 AMD, 기존 데이터센터 그대로 쓰는 엔터프라이즈 AI GPU '인스팅트 MI350P PCIe' 출시
aimatters갤로그로 이동합니다.
05.08 101 0
2672 픽스AI, 자연어로 캐릭터·텍스트·배경 수정하는 AI 이미지 편집 모델 'Edit Pro' 공개
aimatters갤로그로 이동합니다.
05.08 19 1
2671 오픈AI, GPT-5.5 기반 사이버 보안 접근 확대… 검증된 방어자에 'TAC·GPT-5.5-Cyber' 프리뷰 제공
aimatters갤로그로 이동합니다.
05.08 27 0
2670 수학 잘하는 GPT와 수학 못하는 LSTM의 차이
aimatters갤로그로 이동합니다.
05.08 41 0
2669 구글,이 AI 이미지 모델을 4분의 1로 줄였다, 같은 부품을 반복해서 쓰는 기술의 비밀
aimatters갤로그로 이동합니다.
05.08 26 0
2668 "AI 정책의 진짜 권력은 워싱턴에 있다"… 오픈AI·앤트로픽, 2026 1분기 로비 지출 사상 최대
aimatters갤로그로 이동합니다.
05.08 27 0
2667 Genesis AI, 'GENE-26.5' 공개… 인간 수준 손 조작 가능한 모델 타사도 쓸 수 있게 한다
aimatters갤로그로 이동합니다.
05.08 30 0
2666 "AI 후퇴인가, 정리인가"… 마이크로소프트, 윈도우 11 코파일럿 버튼 대거 제거
aimatters갤로그로 이동합니다.
05.08 112 0
2665 구글, Fitbit 앱을 'Google Health'로 리브랜드… 제미나이 헬스 코치·화면 없는 'Fitbit Air' 동시 공개
aimatters갤로그로 이동합니다.
05.08 115 0
2664 오픈AI, 자해 위험 감지 시 가족·친구에게 알리는 'Trusted Contact' 기능 출시
aimatters갤로그로 이동합니다.
05.08 20 0
2663 메타코리아·디지털리터러시협회, '2026 미래교육 심포지엄' 성료… 아시아 8개국 'AI 리터러시' 백서 발간
aimatters갤로그로 이동합니다.
05.08 17 0
2662 DJI, 프로급 프레이밍·추적 'Osmo Mobile 8P' 글로벌 출시… ActiveTrack 8.0·Apple DockKit 지원
aimatters갤로그로 이동합니다.
05.08 22 0
2661 오픈AI, '챗GPT 광고 파일럿' 한국 포함 5개국 신규 확대… 무료·고(Go) 요금제 성인 대상
aimatters갤로그로 이동합니다.
05.08 33 0
2660 모질라 "클로드 미토스가 찾은 파이어폭스 취약점 271개, 진짜였다"고 밝혀
aimatters갤로그로 이동합니다.
05.08 25 0
2659 구글 '시간 끌기' 실패… 법원 "검색 데이터 지금 바로 공개하라"
aimatters갤로그로 이동합니다.
05.08 98 0
2658 美 대학용 학습 관리 시스템 'Canvas' 사이버 사고 — "3.65TB·8천여 기관 데이터 탈취" 주장
aimatters갤로그로 이동합니다.
05.08 35 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2