디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유

aimatters갤로그로 이동합니다. 2026.02.25 14:52:40
조회 1890 추천 6 댓글 14


챗GPT에게 질문했다가 틀린 답변을 받아본 적 있을 것이다. 그때 드는 생각은 보통 하나다. "AI가 이것도 몰라?" 그런데 구글 리서치(Google Research) 연구팀이 발표한 최신 논문은 이 상식을 완전히 뒤집는다. AI가 틀리는 이유는 대부분 '몰라서'가 아니라 '알면서도 꺼내지 못해서'라는 것이다. GPT-5, 제미나이-3-프로(Gemini-3-Pro) 등 최첨단 AI 13개를 대상으로 약 450만 건의 응답을 분석한 결과다.



냉장고에 음식이 있는데 꺼내지 못하는 AI

연구팀은 AI가 사실을 틀릴 때 그 원인을 두 가지로 나눴다. 하나는 처음부터 그 정보를 학습하지 못한 경우, 즉 냉장고에 음식 자체가 없는 것이다. 연구팀은 이를 '빈 선반(empty shelves)'이라고 불렀다. 다른 하나는 정보가 분명히 저장되어 있는데 막상 질문을 받으면 꺼내지 못하는 경우, 즉 냉장고 안에 음식이 있는데 어디 뒀는지 찾지 못하는 것이다. 이를 '잃어버린 열쇠(lost keys)'라고 불렀다.

분석 결과는 놀라웠다. GPT-5와 제미나이-3-프로 같은 최첨단 모델들은 테스트에 등장한 사실의 95~98%를 이미 내부에 저장하고 있었다. 냉장고는 거의 꽉 차 있었던 것이다. 그런데도 추가 추론 없이는 25~33%의 질문에서 틀렸다. GPT-5.2 기준으로 오류의 70% 이상이 '몰라서'가 아니라 '꺼내지 못해서' 발생했다. AI 모델을 더 크게 만들어도 이 문제는 잘 해결되지 않았다는 점도 함께 확인됐다.



AI 모델별로 인코딩 실패, 출력 실패, 직접 출력 등의 비율

그림 4. AI 모델별로 인코딩 실패, 출력 실패, 직접 출력 등의 비율





AI가 앞에서 물어보면 맞히고, 뒤에서 물어보면 틀리는 이유

출력 실패는 특히 두 가지 상황에서 심하게 나타났다.

첫 번째는 덜 알려진 정보일수록 틀리는 문제다. 유명한 정보와 잘 알려지지 않은 정보를 비교했을 때, 저장된 비율은 거의 비슷했다. 제미나이-3-플래시(Gemini-3-Flash) 기준으로 인기 있는 정보는 99.5%, 희귀한 정보도 94.5%가 저장되어 있었다. 하지만 막상 답변할 수 있는 비율은 84.7% 대 63.3%로 격차가 21.4%포인트나 벌어졌다. 알고는 있는데, 잘 떠올리지 못하는 것이다. 기존에는 "AI가 희귀한 정보를 틀리는 건 애초에 배우지 못했기 때문"이라는 게 정설이었는데, 이번 연구가 그걸 뒤집었다.

두 번째는 질문 방향을 바꾸면 갑자기 틀리는 문제다. 예를 들어 AI에게 "오아시스(Oasis) 밴드가 처음 공연한 장소는?"이라고 물으면 "보드워크 클럽(Boardwalk Club)"이라고 잘 맞힌다. 그런데 "보드워크 클럽에서 처음 공연한 밴드는?"이라고 방향만 바꿔 물으면 같은 AI가 틀리는 경우가 많다. GPT-5 기준으로 정방향 질문은 82.9% 정답률이었지만, 역방향은 74%로 뚝 떨어졌다. 더 흥미로운 건, 보기를 주고 고르게 하면 역방향도 정방향만큼 잘 맞혔다는 점이다. AI는 분명히 알고 있다. 다만 질문 방향이 바뀌면 스스로 꺼내지 못할 뿐이다.



"잠깐, 생각해볼게요"가 실제로 효과가 있다

이 문제를 해결하는 데 도움이 되는 기능이 바로 '싱킹(thinking)'이다. AI가 즉각적으로 답변하지 않고 잠깐 멈춰서 단계별로 생각을 정리한 뒤 답하는 방식이다. 우리가 어떤 사실이 혀 끝에서 맴도는 느낌이 들 때, 관련된 기억을 하나씩 떠올리다 보면 결국 생각해내는 것과 비슷하다.

연구에 따르면 싱킹은 "저장은 되어 있지만 곧바로 답하지 못했던" 사실의 40~65%를 추가로 맞히게 해줬다. 반면 애초에 저장되지 않은 정보에 대해서는 싱킹을 써도 회수율이 5~20%에 그쳤다. 결국 싱킹은 없는 지식을 만들어내는 게 아니라, 있는 지식을 더 잘 꺼내도록 돕는 기능이라는 것이다. 특히 덜 알려진 정보나 역방향 질문처럼 AI가 가장 약한 부분에서 효과가 컸다. 제미나이-3-프로의 경우, 싱킹을 적용하자 희귀 정보와 인기 정보 사이의 답변 격차가 21.4%포인트에서 12.5%포인트로 줄었다.

물론 단점도 있다. 싱킹은 추가 연산이 필요해 응답이 느려지고 비용도 올라간다. 그리고 AI가 스스로 "지금 싱킹이 필요한 순간이다"를 판단하는 게 아직 완벽하지 않다는 점도 한계로 지적됐다.



AI의 '진짜 실력'을 재는 새로운 성적표

연구팀은 이번 연구를 위해 '위키프로파일(WikiProfile)'이라는 새로운 평가 도구도 만들었다. 기존 AI 평가 방식은 단순했다. 맞으면 1점, 틀리면 0점. 그런데 이 방식으로는 AI가 왜 틀렸는지 알 수 없다. 몰라서 틀렸는지, 알면서도 못 꺼냈는지 구분이 안 되는 것이다.

위키프로파일은 이 두 가지를 나눠서 측정할 수 있도록 설계됐다. 2,150개의 사실에 대해 각각 10개의 질문을 만들었는데, 정보가 저장됐는지 확인하는 질문, 실제로 답할 수 있는지 확인하는 질문, 객관식으로 골라낼 수 있는지 확인하는 질문이 모두 포함됐다. 모든 사실은 위키피디아(Wikipedia)에서 추출됐고, 구글 검색(Google Search)과 연동된 AI 파이프라인이 검증을 담당했다. 두 AI 채점자가 98.2%의 일치율을 보일 만큼 신뢰도도 높았다.



그림 3. 위키프로파일 파이프라인 플로우차트

그림 3. 위키프로파일 파이프라인 플로우차트






FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.

Q. AI가 사실을 틀리는 이유가 단순히 '모르기 때문'이 아닌가요?

A. 이번 연구에 따르면, GPT-5 같은 최신 모델들은 테스트된 사실의 95~98%를 이미 내부에 저장하고 있었습니다. 오류의 70% 이상은 지식이 없어서가 아니라, 저장된 정보를 제때 꺼내지 못해서 발생했습니다.

Q. AI의 '싱킹(thinking)' 기능이 정확도를 높인다는데, 항상 켜두면 되나요?

A. 싱킹은 놓쳤던 답변의 40~65%를 추가로 맞힐 수 있어 효과적이지만, 응답이 느려지고 비용도 올라갑니다. AI가 스스로 "지금 싱킹이 필요하다"를 판단하는 능력도 아직 완벽하지 않아서, 현재로서는 상황에 따라 선택적으로 쓰는 편이 좋습니다.

Q. AI 모델 크기를 키우면 사실 오류 문제가 해결되지 않나요?

A. 모델을 크게 만들수록 정보를 저장하는 능력은 좋아집니다. 하지만 저장된 정보를 꺼내는 능력은 그만큼 따라오지 않았습니다. 연구팀은 앞으로의 AI 발전이 모델 크기보다 '이미 아는 것을 잘 꺼내는 방법' 개선에 달려 있다고 봤습니다.



기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

6

고정닉 0

5

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
이슈 [디시人터뷰] '쪼와요~ 쪼와요~’ 캐릭터에 생명을 불어넣는 성우 박시윤 운영자 26/04/17 - -
설문 메시지 읽씹 잘 할 것 같은 이미지의 스타는? 운영자 26/04/20 - -
2477 애플, iOS 27서 시리 전면 개편…구글 제미나이 기반 AI 챗봇으로 탈바꿈 [1]
aimatters갤로그로 이동합니다.
11:00 103 0
2476 로보락, 높이 7.95cm 초슬림 플래그십 로봇청소기 'S10 MaxV Slim' 출시…이중 문턱 8.8cm 통과
aimatters갤로그로 이동합니다.
11:00 4 0
2475 위로보틱스, 보행 보조 로봇 구독 서비스 'WIM 프리미엄' 출시…웨어러블 로봇의 'RaaS' 시대 열다
aimatters갤로그로 이동합니다.
11:00 3 0
2474 소니, NAB 2026서 방송·제작 혁신 솔루션 공개…'R 시리즈' 카메라·MOXELA 플랫폼 선봬
aimatters갤로그로 이동합니다.
11:00 5 0
2473 앤트로픽 기업가치 8,000억 달러 평가…연매출 300억 달러로 오픈AI 추월
aimatters갤로그로 이동합니다.
11:00 3 0
2472 MIT 테크놀로지 리뷰, 'AI 현재 10대 이슈' 첫 발표…AI 동반자·바이브 코딩 등 선정
aimatters갤로그로 이동합니다.
11:00 4 0
2471 구글 클라우드 넥스트 2026 D-2…제미나이를 클라우드 임베딩해 사용하는 에이전틱 AI 시대
aimatters갤로그로 이동합니다.
11:00 4 0
2470 NAB Show 2026 개막…AI, 미디어 제작 현장의 핵심 인프라로 자리잡다
aimatters갤로그로 이동합니다.
11:00 3 0
2469 EU AI 법, 채용 편향 감사 의무화 시행 105일 전…AI로 채용하면 인간 감사 받아야 한다
aimatters갤로그로 이동합니다.
11:00 3 0
2468 챗GPT로 답을 복붙해도 점수는 같았다, 단 한 가지만 빼고
aimatters갤로그로 이동합니다.
11:00 3 0
2467 챗GPT에 아이디어를 물으면 안 되는 이유, 독일 연구팀이 밝혔다
aimatters갤로그로 이동합니다.
11:00 4 0
2466 회사 코드에 AI가 쓴 코드가 몇 줄이나 있지 추적하는 기술이 나왔다
aimatters갤로그로 이동합니다.
11:00 4 0
2465 루마 AI·원더 프로젝트, AI 하이브리드 영화 제작사 '이노베이티브 드림스' 출범… 사람만 찍으면 배경 자동으로 입힌다
aimatters갤로그로 이동합니다.
04.17 28 0
2464 오픈AI, 생명과학 특화 AI 모델 'GPT-로잘린드' 출시… 신약 개발·유전체 연구 가속화
aimatters갤로그로 이동합니다.
04.17 65 0
2463 베이직인터내셔널, AI가 자녀 목소리로 어르신과 대화하는 '아우라보이스' 출시… 정신의학계와 시니어 돌봄 혁신
aimatters갤로그로 이동합니다.
04.17 17 0
2462 DJI, 1인치 센서 탑재 포켓 짐벌 카메라 'Osmo Pocket 4' 출시… 4K/240fps·14스톱 다이내믹 레인지
aimatters갤로그로 이동합니다.
04.17 33 0
2461 '타노스가 인류 절반을 없앤다면?' 넷플릭스팀 AI가 영상으로 답했다
aimatters갤로그로 이동합니다.
04.17 39 0
2460 오픈AI, 코덱스 '코딩 도구' 넘어 컴퓨터 전체 제어하는 AI 에이전트로 진화
aimatters갤로그로 이동합니다.
04.17 37 0
2459 스텔란티스, 마이크로소프트와 AI 협약 체결… 설계∙엔지니어링 등 차량 및 운영 전 분야 AI 가속
aimatters갤로그로 이동합니다.
04.17 18 0
2458 타이거글로벌 투자 AI 스타트업 업스케일, 20억 달러 기업가치 펀딩 협상 착수
aimatters갤로그로 이동합니다.
04.17 19 0
2457 앤트로픽, 클로드 일부 사용자에 신분증·셀카 제출 요구… 프라이버시 논란 [9]
aimatters갤로그로 이동합니다.
04.17 1500 11
2456 영상 편집도 '딸깍' 되나... 편집 플랫폼 에이비드-구글 클라우드, 에이전틱 AI 미디어 제작 파트너십 체결
aimatters갤로그로 이동합니다.
04.17 18 0
2455 구글 너마저... 제미나이, 미 국방부 기밀 환경 배치 협상, AI 군사 활용 논의 본격화
aimatters갤로그로 이동합니다.
04.17 35 0
2454 2026 글로벌 퀀텀+AI 챌린지 공식 출범… 총 상금 20만 달러·5개 기업 도전 과제
aimatters갤로그로 이동합니다.
04.17 23 0
2453 앤트로픽, 클로드 오퍼스 4.7 정식 출시… 미공개 '미토스'엔 여전히 못 미쳐
aimatters갤로그로 이동합니다.
04.17 33 0
2452 구글, AI 모드 크롬에 통합… 주소창도 AI 프롬프트창으로 변신, 스킬 기능으로 프롬프트 저장
aimatters갤로그로 이동합니다.
04.17 31 0
2451 사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다
aimatters갤로그로 이동합니다.
04.17 37 1
2450 AI가 덜 생각할수록 더 잘 푼다, 추론 비용을 62% 줄인 BCR의 역설 [13]
aimatters갤로그로 이동합니다.
04.17 1572 9
2449 트래블러스맵, 상품 기획부터 예약·운영까지 AI가 전 과정 처리하는 'AI 네이티브' 여행 플랫폼 출시
aimatters갤로그로 이동합니다.
04.16 20 0
2448 PixAI, 프롬프트 없이 채팅만으로 완성하는 AI 창작 에이전트 ‘Mio.2’ 출시…총상금 3,600달러 챌린지도 진행
aimatters갤로그로 이동합니다.
04.16 31 0
2447 마키나락스, 현장에서 작동하는 AI 만드는 FDE 중심 대규모 인재 채용
aimatters갤로그로 이동합니다.
04.16 99 0
2446 딥엘, 실시간 음성 간 번역 'Voice-to-Voice' 공개…글로벌 비즈니스 언어 장벽 해소 지원
aimatters갤로그로 이동합니다.
04.16 27 0
2445 AI도 처음 본 단어들을 서로 구분 못 한다
aimatters갤로그로 이동합니다.
04.16 59 0
2444 사이버펑크 2077 데이터로 훈련한 AI, 현실 영상 분석에서 기존 모델을 앞서다
aimatters갤로그로 이동합니다.
04.16 41 0
2443 'AI가 대화 상대도, 코치도 된다' 인간-AI 대화 연구 플랫폼 '다이애딕' 공개
aimatters갤로그로 이동합니다.
04.16 26 0
2442 텔레그램서 판매되는 불법 도구로 은행 생체 보안 우회 – 캄보디아 사기 센터서 실제 사용
aimatters갤로그로 이동합니다.
04.16 24 0
2441 2026년 1분기 벤처투자 3,000억 달러 신기록 – AI가 전체의 80% 차지
aimatters갤로그로 이동합니다.
04.16 19 0
2440 오픈AI, 에이전트 SDK 업데이트 – 샌드박스 기능으로 기업 AI 에이전트 안전성 강화
aimatters갤로그로 이동합니다.
04.16 18 0
2439 위고비 제약사 노보 노디스크-오픈AI 전략 파트너십 – AI로 신약 개발 속도 높인다
aimatters갤로그로 이동합니다.
04.16 863 2
2438 클로드 '몰래 성능 낮췄다' 논란 – 개발자들 집단 반발... 성능 너프 실제로 밝혀져 [13]
aimatters갤로그로 이동합니다.
04.16 2508 14
2437 앤트로픽, VC로부터 8,000억 달러 기업가치 투자 제안 잇따라
aimatters갤로그로 이동합니다.
04.16 28 0
2436 구글 크롬에 AI 'Skills' 기능 추가 – 자주 쓰는 제미나이 프롬프트 원클릭으로
aimatters갤로그로 이동합니다.
04.16 35 0
2435 구글 제미나이 '퍼스널 인텔리전스' 글로벌 출시 – 유럽만 제외
aimatters갤로그로 이동합니다.
04.16 36 0
2434 앤트로픽 클로드 서비스 장애 – 4월 15일 수시간 접속 불가 사태
aimatters갤로그로 이동합니다.
04.16 20 0
2433 구글, 제미나이 맥 네이티브 앱 공개 – 단축키 하나로 AI 비서 즉시 호출
aimatters갤로그로 이동합니다.
04.16 25 1
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 60 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 21 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 29 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 29 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 39 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2