디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유

aimatters갤로그로 이동합니다. 2026.02.25 14:52:40
조회 1758 추천 6 댓글 15


챗GPT에게 질문했다가 틀린 답변을 받아본 적 있을 것이다. 그때 드는 생각은 보통 하나다. "AI가 이것도 몰라?" 그런데 구글 리서치(Google Research) 연구팀이 발표한 최신 논문은 이 상식을 완전히 뒤집는다. AI가 틀리는 이유는 대부분 '몰라서'가 아니라 '알면서도 꺼내지 못해서'라는 것이다. GPT-5, 제미나이-3-프로(Gemini-3-Pro) 등 최첨단 AI 13개를 대상으로 약 450만 건의 응답을 분석한 결과다.



냉장고에 음식이 있는데 꺼내지 못하는 AI

연구팀은 AI가 사실을 틀릴 때 그 원인을 두 가지로 나눴다. 하나는 처음부터 그 정보를 학습하지 못한 경우, 즉 냉장고에 음식 자체가 없는 것이다. 연구팀은 이를 '빈 선반(empty shelves)'이라고 불렀다. 다른 하나는 정보가 분명히 저장되어 있는데 막상 질문을 받으면 꺼내지 못하는 경우, 즉 냉장고 안에 음식이 있는데 어디 뒀는지 찾지 못하는 것이다. 이를 '잃어버린 열쇠(lost keys)'라고 불렀다.

분석 결과는 놀라웠다. GPT-5와 제미나이-3-프로 같은 최첨단 모델들은 테스트에 등장한 사실의 95~98%를 이미 내부에 저장하고 있었다. 냉장고는 거의 꽉 차 있었던 것이다. 그런데도 추가 추론 없이는 25~33%의 질문에서 틀렸다. GPT-5.2 기준으로 오류의 70% 이상이 '몰라서'가 아니라 '꺼내지 못해서' 발생했다. AI 모델을 더 크게 만들어도 이 문제는 잘 해결되지 않았다는 점도 함께 확인됐다.



AI 모델별로 인코딩 실패, 출력 실패, 직접 출력 등의 비율

그림 4. AI 모델별로 인코딩 실패, 출력 실패, 직접 출력 등의 비율





AI가 앞에서 물어보면 맞히고, 뒤에서 물어보면 틀리는 이유

출력 실패는 특히 두 가지 상황에서 심하게 나타났다.

첫 번째는 덜 알려진 정보일수록 틀리는 문제다. 유명한 정보와 잘 알려지지 않은 정보를 비교했을 때, 저장된 비율은 거의 비슷했다. 제미나이-3-플래시(Gemini-3-Flash) 기준으로 인기 있는 정보는 99.5%, 희귀한 정보도 94.5%가 저장되어 있었다. 하지만 막상 답변할 수 있는 비율은 84.7% 대 63.3%로 격차가 21.4%포인트나 벌어졌다. 알고는 있는데, 잘 떠올리지 못하는 것이다. 기존에는 "AI가 희귀한 정보를 틀리는 건 애초에 배우지 못했기 때문"이라는 게 정설이었는데, 이번 연구가 그걸 뒤집었다.

두 번째는 질문 방향을 바꾸면 갑자기 틀리는 문제다. 예를 들어 AI에게 "오아시스(Oasis) 밴드가 처음 공연한 장소는?"이라고 물으면 "보드워크 클럽(Boardwalk Club)"이라고 잘 맞힌다. 그런데 "보드워크 클럽에서 처음 공연한 밴드는?"이라고 방향만 바꿔 물으면 같은 AI가 틀리는 경우가 많다. GPT-5 기준으로 정방향 질문은 82.9% 정답률이었지만, 역방향은 74%로 뚝 떨어졌다. 더 흥미로운 건, 보기를 주고 고르게 하면 역방향도 정방향만큼 잘 맞혔다는 점이다. AI는 분명히 알고 있다. 다만 질문 방향이 바뀌면 스스로 꺼내지 못할 뿐이다.



"잠깐, 생각해볼게요"가 실제로 효과가 있다

이 문제를 해결하는 데 도움이 되는 기능이 바로 '싱킹(thinking)'이다. AI가 즉각적으로 답변하지 않고 잠깐 멈춰서 단계별로 생각을 정리한 뒤 답하는 방식이다. 우리가 어떤 사실이 혀 끝에서 맴도는 느낌이 들 때, 관련된 기억을 하나씩 떠올리다 보면 결국 생각해내는 것과 비슷하다.

연구에 따르면 싱킹은 "저장은 되어 있지만 곧바로 답하지 못했던" 사실의 40~65%를 추가로 맞히게 해줬다. 반면 애초에 저장되지 않은 정보에 대해서는 싱킹을 써도 회수율이 5~20%에 그쳤다. 결국 싱킹은 없는 지식을 만들어내는 게 아니라, 있는 지식을 더 잘 꺼내도록 돕는 기능이라는 것이다. 특히 덜 알려진 정보나 역방향 질문처럼 AI가 가장 약한 부분에서 효과가 컸다. 제미나이-3-프로의 경우, 싱킹을 적용하자 희귀 정보와 인기 정보 사이의 답변 격차가 21.4%포인트에서 12.5%포인트로 줄었다.

물론 단점도 있다. 싱킹은 추가 연산이 필요해 응답이 느려지고 비용도 올라간다. 그리고 AI가 스스로 "지금 싱킹이 필요한 순간이다"를 판단하는 게 아직 완벽하지 않다는 점도 한계로 지적됐다.



AI의 '진짜 실력'을 재는 새로운 성적표

연구팀은 이번 연구를 위해 '위키프로파일(WikiProfile)'이라는 새로운 평가 도구도 만들었다. 기존 AI 평가 방식은 단순했다. 맞으면 1점, 틀리면 0점. 그런데 이 방식으로는 AI가 왜 틀렸는지 알 수 없다. 몰라서 틀렸는지, 알면서도 못 꺼냈는지 구분이 안 되는 것이다.

위키프로파일은 이 두 가지를 나눠서 측정할 수 있도록 설계됐다. 2,150개의 사실에 대해 각각 10개의 질문을 만들었는데, 정보가 저장됐는지 확인하는 질문, 실제로 답할 수 있는지 확인하는 질문, 객관식으로 골라낼 수 있는지 확인하는 질문이 모두 포함됐다. 모든 사실은 위키피디아(Wikipedia)에서 추출됐고, 구글 검색(Google Search)과 연동된 AI 파이프라인이 검증을 담당했다. 두 AI 채점자가 98.2%의 일치율을 보일 만큼 신뢰도도 높았다.



그림 3. 위키프로파일 파이프라인 플로우차트

그림 3. 위키프로파일 파이프라인 플로우차트






FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.

Q. AI가 사실을 틀리는 이유가 단순히 '모르기 때문'이 아닌가요?

A. 이번 연구에 따르면, GPT-5 같은 최신 모델들은 테스트된 사실의 95~98%를 이미 내부에 저장하고 있었습니다. 오류의 70% 이상은 지식이 없어서가 아니라, 저장된 정보를 제때 꺼내지 못해서 발생했습니다.

Q. AI의 '싱킹(thinking)' 기능이 정확도를 높인다는데, 항상 켜두면 되나요?

A. 싱킹은 놓쳤던 답변의 40~65%를 추가로 맞힐 수 있어 효과적이지만, 응답이 느려지고 비용도 올라갑니다. AI가 스스로 "지금 싱킹이 필요하다"를 판단하는 능력도 아직 완벽하지 않아서, 현재로서는 상황에 따라 선택적으로 쓰는 편이 좋습니다.

Q. AI 모델 크기를 키우면 사실 오류 문제가 해결되지 않나요?

A. 모델을 크게 만들수록 정보를 저장하는 능력은 좋아집니다. 하지만 저장된 정보를 꺼내는 능력은 그만큼 따라오지 않았습니다. 연구팀은 앞으로의 AI 발전이 모델 크기보다 '이미 아는 것을 잘 꺼내는 방법' 개선에 달려 있다고 봤습니다.



기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

6

고정닉 0

5

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 게임 캐릭터로 만들면 찰떡일 것 같은 아이돌은? 운영자 26/02/23 - -
2114 저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나 [1] aimatters갤로그로 이동합니다. 02.27 827 2
2113 구글, 이미지 생성 모델 '나노 바나나 2' 공개…4K 해상도에 속도까지 잡았다 aimatters갤로그로 이동합니다. 02.27 27 1
2112 잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것" aimatters갤로그로 이동합니다. 02.27 24 1
2111 챗GPT가 강박장애 환자를 더 아프게 만든다, '안심 로봇'의 위험한 진실 [2] aimatters갤로그로 이동합니다. 02.27 668 0
2110 AI 데이터센터의 '친환경' 선언, 전력망을 들여다보면 허상이다 aimatters갤로그로 이동합니다. 02.27 25 0
2109 별점만 믿다간 낭패! ChatGPT가 470만 개 리뷰를 파헤쳐 밝혀낸 '맛집의 진짜 조건' aimatters갤로그로 이동합니다. 02.27 22 0
2108 "ChatGPT가 편향됐다"는 말 한마디에 설득력 28% 급락 [10] aimatters갤로그로 이동합니다. 02.26 2426 4
2107 챗GPT가 통계학 교육을 뒤흔들고 있다: 대학 강의실에서 벌어지는 AI 혁명 aimatters갤로그로 이동합니다. 02.26 61 0
2106 월 20달러짜리 챗GPT로 수학 난제 풀었다…'바이브 증명'의 충격적 실험 [13] aimatters갤로그로 이동합니다. 02.26 2431 18
2105 앤트로픽, AI 에이전트 개발 스타트업 버셉트 인수…창업자 한명은 메타로 aimatters갤로그로 이동합니다. 02.26 25 0
2104 제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다... 한국서도 적용 aimatters갤로그로 이동합니다. 02.26 42 0
2103 "AI 개발은 기타 배우기와 같다"…오픈클로 개발자가 전하는 AI 빌더 생존법 aimatters갤로그로 이동합니다. 02.26 62 0
2102 975g으로 AI 정복…한국레노버, 요가 11세대 4종 출시 aimatters갤로그로 이동합니다. 02.26 37 0
2101 AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과 [2] aimatters갤로그로 이동합니다. 02.25 644 2
GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유 [15] aimatters갤로그로 이동합니다. 02.25 1758 6
2099 AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패 [2] aimatters갤로그로 이동합니다. 02.25 609 5
2098 오픈AI 투자자, 앤트로픽도 찍었다…VC 업계, 경쟁사에 투자하지 않는 '투자 충성도' 사실상 붕괴 aimatters갤로그로 이동합니다. 02.25 43 0
2097 " 美 연준도 AI 시대로 간다"…월러 이사, AI 전면 도입 전략 공개 aimatters갤로그로 이동합니다. 02.25 39 0
2096 AI가 플레이리스트 짜준다...스포티파이 리스트 자동생성 기능 영국·호주 등으로 확대 aimatters갤로그로 이동합니다. 02.25 33 0
2095 2028년 붕괴 시나리오로 전세계 공포, AI가 완벽하게 성공할수록 경제는 무너진다 [1] aimatters갤로그로 이동합니다. 02.24 106 0
2094 AI가 "생각을 줄이면" 오히려 더 똑똑해진다? 토큰 예산과 LLM 추론의 역설 aimatters갤로그로 이동합니다. 02.24 59 0
2093 AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를 지시한 AI 모델은? aimatters갤로그로 이동합니다. 02.24 53 0
2092 AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험 aimatters갤로그로 이동합니다. 02.24 33 1
2091 앤트로픽 "중국 AI 3사, 가짜 계정 2만4천 개로 클로드 기술 훔쳐갔다" aimatters갤로그로 이동합니다. 02.24 64 0
2090 "하루 한 시간이면 AI를 직접 활용하라. 주변의 99%보다 앞서갈 수 있다"…AI 스타트업 CEO의 경고 aimatters갤로그로 이동합니다. 02.24 58 0
2089 오픈AI, 스마트 스피커·안경·조명까지…AI 하드웨어 제국 꿈꾼다 aimatters갤로그로 이동합니다. 02.24 56 0
2088 다쏘시스템, AI 전문가 '버추얼 동반자' 공개…인간과 AI의 산업 협업 시대 열린다 aimatters갤로그로 이동합니다. 02.24 40 0
2087 AI 안전장치도 '세탁'된다? 제미나이·클로드도 뚫렸다 aimatters갤로그로 이동합니다. 02.23 41 0
2086 AI가 사각형을 인식할 수 있을까? 클로드·챗GPT·제미나이 '공간 인식' 충격 실험 aimatters갤로그로 이동합니다. 02.23 40 0
2085 AI 로봇이 나를 설득한다? 챗GPT가 물리치료 거부 환자를 설득하는 방법 aimatters갤로그로 이동합니다. 02.23 32 0
2084 [신간] 난치병·빚에서 탈출한 30대 파이어족의 <버릴수록 부자 되는 미니멀리즘 재테크> aimatters갤로그로 이동합니다. 02.23 40 0
2083 한 질문에 AI 4개가 토론한다…xAI, '그록 4.20' 공개 aimatters갤로그로 이동합니다. 02.23 33 1
2082 AI가 인간을 고용하는 시대 열렸다…"클로드(Claude)가 내 상사라면 이상적일 것" aimatters갤로그로 이동합니다. 02.23 41 0
2081 "광고 대행사는 이제 필요 없다 우리에게 바로 광고해"…오픈AI 임원의 도발적 선언 aimatters갤로그로 이동합니다. 02.23 87 0
2080 "일기 쓰기 귀찮다고요?" AI가 대신 물어봐 주는 일기 앱 '블루닙' 출시 aimatters갤로그로 이동합니다. 02.23 36 0
2079 AI 코미디언이 인간보다 더 웃기다고? ‘기계다움’이 유머의 새 무기가 된다 [14] aimatters갤로그로 이동합니다. 02.20 1523 2
2078 AI는 이제 '알아서 척척'… 2026년, 당신의 직장과 일상을 바꿀 AI의 민낯 aimatters갤로그로 이동합니다. 02.20 64 0
2077 AI는 영어만 편애한다, 전 세계 6,003개 언어 중 AI가 외면하는 언어들의 현실 aimatters갤로그로 이동합니다. 02.20 77 0
2076 구글, 제미나이 3.1 Pro 출시…추론 성능 전작 대비 2배 이상 향상 aimatters갤로그로 이동합니다. 02.20 84 0
2075 구글(Google) 제미나이(Gemini) 앱, AI 음악 생성 기능 품었다…"텍스트 한 줄이나 폰 앨범 동영상으로 30초 트랙을” aimatters갤로그로 이동합니다. 02.20 1173 0
2074 "돈은 관심 없다"…오픈클로 개발자, 저커버그 제안 거절하고 알트만 택한 이유 aimatters갤로그로 이동합니다. 02.20 86 0
2073 오픈AI, 기업가치 850조 원 넘긴다…역대급 145조 원 투자 유치 임박 aimatters갤로그로 이동합니다. 02.20 49 0
2072 챗GPT에게 숙제 맡겼다가 낭패 본 고등학생들의 고백 [3] aimatters갤로그로 이동합니다. 02.19 1409 3
2071 인터넷 없이도 폭주하는 AI, 스마트폰 속 챗봇이 돌변하는 지점 예측 aimatters갤로그로 이동합니다. 02.19 79 0
2070 엄마들이 육아 고민을 SNS 대신 AI에게 털어놓는 이유 aimatters갤로그로 이동합니다. 02.19 84 0
2069 챗GPT 프로, '90% 할인'… 카카오 선물하기 깜짝 특가 aimatters갤로그로 이동합니다. 02.19 158 0
2068 오픈AI, 초당 1,000토큰 생성하는 초고속 코딩 모델 'GPT-5.3-Codex-Spark' 공개 aimatters갤로그로 이동합니다. 02.19 86 0
2067 "AI 비서가 하루종일 일한다"… 오픈AI, 장시간 작동 AI 만드는 법 공개 aimatters갤로그로 이동합니다. 02.19 88 0
2066 구글 AI 모델 불법 복제 시도 10만 건 돌파… 북한·중국 해커, 피싱에 본격 활용 [7] aimatters갤로그로 이동합니다. 02.19 2302 8
2065 구글 딥마인드의 제미나이, 수학·물리학 난제 해결하며 AI 연구 협력자로 진화 aimatters갤로그로 이동합니다. 02.19 71 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2