디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유

aimatters갤로그로 이동합니다. 2026.02.25 14:52:40
조회 1856 추천 6 댓글 14


챗GPT에게 질문했다가 틀린 답변을 받아본 적 있을 것이다. 그때 드는 생각은 보통 하나다. "AI가 이것도 몰라?" 그런데 구글 리서치(Google Research) 연구팀이 발표한 최신 논문은 이 상식을 완전히 뒤집는다. AI가 틀리는 이유는 대부분 '몰라서'가 아니라 '알면서도 꺼내지 못해서'라는 것이다. GPT-5, 제미나이-3-프로(Gemini-3-Pro) 등 최첨단 AI 13개를 대상으로 약 450만 건의 응답을 분석한 결과다.



냉장고에 음식이 있는데 꺼내지 못하는 AI

연구팀은 AI가 사실을 틀릴 때 그 원인을 두 가지로 나눴다. 하나는 처음부터 그 정보를 학습하지 못한 경우, 즉 냉장고에 음식 자체가 없는 것이다. 연구팀은 이를 '빈 선반(empty shelves)'이라고 불렀다. 다른 하나는 정보가 분명히 저장되어 있는데 막상 질문을 받으면 꺼내지 못하는 경우, 즉 냉장고 안에 음식이 있는데 어디 뒀는지 찾지 못하는 것이다. 이를 '잃어버린 열쇠(lost keys)'라고 불렀다.

분석 결과는 놀라웠다. GPT-5와 제미나이-3-프로 같은 최첨단 모델들은 테스트에 등장한 사실의 95~98%를 이미 내부에 저장하고 있었다. 냉장고는 거의 꽉 차 있었던 것이다. 그런데도 추가 추론 없이는 25~33%의 질문에서 틀렸다. GPT-5.2 기준으로 오류의 70% 이상이 '몰라서'가 아니라 '꺼내지 못해서' 발생했다. AI 모델을 더 크게 만들어도 이 문제는 잘 해결되지 않았다는 점도 함께 확인됐다.



AI 모델별로 인코딩 실패, 출력 실패, 직접 출력 등의 비율

그림 4. AI 모델별로 인코딩 실패, 출력 실패, 직접 출력 등의 비율





AI가 앞에서 물어보면 맞히고, 뒤에서 물어보면 틀리는 이유

출력 실패는 특히 두 가지 상황에서 심하게 나타났다.

첫 번째는 덜 알려진 정보일수록 틀리는 문제다. 유명한 정보와 잘 알려지지 않은 정보를 비교했을 때, 저장된 비율은 거의 비슷했다. 제미나이-3-플래시(Gemini-3-Flash) 기준으로 인기 있는 정보는 99.5%, 희귀한 정보도 94.5%가 저장되어 있었다. 하지만 막상 답변할 수 있는 비율은 84.7% 대 63.3%로 격차가 21.4%포인트나 벌어졌다. 알고는 있는데, 잘 떠올리지 못하는 것이다. 기존에는 "AI가 희귀한 정보를 틀리는 건 애초에 배우지 못했기 때문"이라는 게 정설이었는데, 이번 연구가 그걸 뒤집었다.

두 번째는 질문 방향을 바꾸면 갑자기 틀리는 문제다. 예를 들어 AI에게 "오아시스(Oasis) 밴드가 처음 공연한 장소는?"이라고 물으면 "보드워크 클럽(Boardwalk Club)"이라고 잘 맞힌다. 그런데 "보드워크 클럽에서 처음 공연한 밴드는?"이라고 방향만 바꿔 물으면 같은 AI가 틀리는 경우가 많다. GPT-5 기준으로 정방향 질문은 82.9% 정답률이었지만, 역방향은 74%로 뚝 떨어졌다. 더 흥미로운 건, 보기를 주고 고르게 하면 역방향도 정방향만큼 잘 맞혔다는 점이다. AI는 분명히 알고 있다. 다만 질문 방향이 바뀌면 스스로 꺼내지 못할 뿐이다.



"잠깐, 생각해볼게요"가 실제로 효과가 있다

이 문제를 해결하는 데 도움이 되는 기능이 바로 '싱킹(thinking)'이다. AI가 즉각적으로 답변하지 않고 잠깐 멈춰서 단계별로 생각을 정리한 뒤 답하는 방식이다. 우리가 어떤 사실이 혀 끝에서 맴도는 느낌이 들 때, 관련된 기억을 하나씩 떠올리다 보면 결국 생각해내는 것과 비슷하다.

연구에 따르면 싱킹은 "저장은 되어 있지만 곧바로 답하지 못했던" 사실의 40~65%를 추가로 맞히게 해줬다. 반면 애초에 저장되지 않은 정보에 대해서는 싱킹을 써도 회수율이 5~20%에 그쳤다. 결국 싱킹은 없는 지식을 만들어내는 게 아니라, 있는 지식을 더 잘 꺼내도록 돕는 기능이라는 것이다. 특히 덜 알려진 정보나 역방향 질문처럼 AI가 가장 약한 부분에서 효과가 컸다. 제미나이-3-프로의 경우, 싱킹을 적용하자 희귀 정보와 인기 정보 사이의 답변 격차가 21.4%포인트에서 12.5%포인트로 줄었다.

물론 단점도 있다. 싱킹은 추가 연산이 필요해 응답이 느려지고 비용도 올라간다. 그리고 AI가 스스로 "지금 싱킹이 필요한 순간이다"를 판단하는 게 아직 완벽하지 않다는 점도 한계로 지적됐다.



AI의 '진짜 실력'을 재는 새로운 성적표

연구팀은 이번 연구를 위해 '위키프로파일(WikiProfile)'이라는 새로운 평가 도구도 만들었다. 기존 AI 평가 방식은 단순했다. 맞으면 1점, 틀리면 0점. 그런데 이 방식으로는 AI가 왜 틀렸는지 알 수 없다. 몰라서 틀렸는지, 알면서도 못 꺼냈는지 구분이 안 되는 것이다.

위키프로파일은 이 두 가지를 나눠서 측정할 수 있도록 설계됐다. 2,150개의 사실에 대해 각각 10개의 질문을 만들었는데, 정보가 저장됐는지 확인하는 질문, 실제로 답할 수 있는지 확인하는 질문, 객관식으로 골라낼 수 있는지 확인하는 질문이 모두 포함됐다. 모든 사실은 위키피디아(Wikipedia)에서 추출됐고, 구글 검색(Google Search)과 연동된 AI 파이프라인이 검증을 담당했다. 두 AI 채점자가 98.2%의 일치율을 보일 만큼 신뢰도도 높았다.



그림 3. 위키프로파일 파이프라인 플로우차트

그림 3. 위키프로파일 파이프라인 플로우차트






FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.

Q. AI가 사실을 틀리는 이유가 단순히 '모르기 때문'이 아닌가요?

A. 이번 연구에 따르면, GPT-5 같은 최신 모델들은 테스트된 사실의 95~98%를 이미 내부에 저장하고 있었습니다. 오류의 70% 이상은 지식이 없어서가 아니라, 저장된 정보를 제때 꺼내지 못해서 발생했습니다.

Q. AI의 '싱킹(thinking)' 기능이 정확도를 높인다는데, 항상 켜두면 되나요?

A. 싱킹은 놓쳤던 답변의 40~65%를 추가로 맞힐 수 있어 효과적이지만, 응답이 느려지고 비용도 올라갑니다. AI가 스스로 "지금 싱킹이 필요하다"를 판단하는 능력도 아직 완벽하지 않아서, 현재로서는 상황에 따라 선택적으로 쓰는 편이 좋습니다.

Q. AI 모델 크기를 키우면 사실 오류 문제가 해결되지 않나요?

A. 모델을 크게 만들수록 정보를 저장하는 능력은 좋아집니다. 하지만 저장된 정보를 꺼내는 능력은 그만큼 따라오지 않았습니다. 연구팀은 앞으로의 AI 발전이 모델 크기보다 '이미 아는 것을 잘 꺼내는 방법' 개선에 달려 있다고 봤습니다.



기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

6

고정닉 0

5

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 결혼이 오히려 커리어에 손해였던 것 같은 스타는? 운영자 26/03/23 - -
2253 퍼플렉시티 AI 브라우저 '코멧', 드디어 아이폰 상륙…구글 크롬과 본격 맞대결
aimatters갤로그로 이동합니다.
03.24 13 0
2252 구글, AI로 뉴스 헤드라인 몰래 바꾼다…언론사 "서점이 책 표지를 뜯어내는 것"
aimatters갤로그로 이동합니다.
03.24 10 0
2251 AI가 인간보다 똑똑하게 초전도체 비밀을 풀었다
aimatters갤로그로 이동합니다.
03.24 12 0
2250 AI에게 정확히 원하는 것을 얻는 법, 기자처럼 질문하면 된다
aimatters갤로그로 이동합니다.
03.24 12 0
2249 AI 고객 상담, 문제는 해결했는데 왜 고객은 떠날까
aimatters갤로그로 이동합니다.
03.24 8 0
2248 버니 샌더스 vs. 클로드, 샌더스가 AI의 아첨 성향을 이끌어내다
aimatters갤로그로 이동합니다.
03.24 9 0
2247 앤트로픽, 클로드 디스패치 출시... 폰에서 메시지 보내면 맥이 원격 AI 작업한다
aimatters갤로그로 이동합니다.
03.24 9 0
2246 "이번엔 진짜" 애플, WWDC 2026 개최 일정 발표... 'AI 기술 대폭 강화' 예고
aimatters갤로그로 이동합니다.
03.24 9 0
2245 일론 머스크, 테라팹 공개... AI∙자동차∙로봇용 저가 칩부터 우주선용 칩까지 만든다
aimatters갤로그로 이동합니다.
03.24 8 0
2244 앤트로픽, 법정에서 국방부의 주장 반박... “감시 역할 거부한다” 선언
aimatters갤로그로 이동합니다.
03.24 9 0
2243 책상 위에 올라온 AI 슈퍼컴퓨터…델, 워크스테이션 신제품 9종 공개 [5]
aimatters갤로그로 이동합니다.
03.23 1725 3
2242 AI 에이전트가 마케터 대신 일한다… 애피어, '에이전틱 AI 세미나' 성료
aimatters갤로그로 이동합니다.
03.23 51 0
2241 오픈클로(OpenClaw) 업데이트... GPT-5.4 지원·메모리 핫스와핑으로 '에이전트 OS' 시대 열다
aimatters갤로그로 이동합니다.
03.23 56 0
2240 "프롬프트 한 줄로 앱 완성"…구글, AI 스튜디오에 풀스택 바이브 코딩 탑재
aimatters갤로그로 이동합니다.
03.23 32 0
2239 미 국방부 "앤트로픽 클로드 6개월 내 대체 가능" 자신… 현장 군인들은 반발
aimatters갤로그로 이동합니다.
03.23 63 0
2238 오픈AI, 챗GPT·코덱스·아틀라스 합친 데스크톱 슈퍼앱 개발 나선다
aimatters갤로그로 이동합니다.
03.23 61 0
2237 게임 동반자 AI NPC가 상황에 맞게 도와준다… 스퀘어 에닉스, 드래곤 퀘스트 X에 제미나이 통합
aimatters갤로그로 이동합니다.
03.23 23 0
2236 퍼플렉시티, 애플 헬스 데이터로 개인 맞춤 AI 건강 상담 시작
aimatters갤로그로 이동합니다.
03.23 13 0
2235 토큰 100만개당 0.2달러에 불과... 오픈AI, GPT-5.4 mini·nano 공개 [7]
aimatters갤로그로 이동합니다.
03.23 766 1
2234 오픈AI, 연말까지 직원 수 8,000명으로 두 배 확대… 앤트로픽 추격에 맞서 공격적 채용
aimatters갤로그로 이동합니다.
03.23 20 0
2233 로봇 손끝에서 발견된 '촉각의 법칙', AI가 밝혀낸 접촉의 두 가지 원리
aimatters갤로그로 이동합니다.
03.23 16 0
2232 AI가 "왜" 그 행동을 했는지, 이제 수학으로 알아낼 수 있다
aimatters갤로그로 이동합니다.
03.23 20 0
2231 AI가 마케터의 95%를 대체한다고? 살아남는 5%의 비밀
aimatters갤로그로 이동합니다.
03.23 15 0
2230 두 번째 딥시크 쇼크의 주인공은 샤오미였다… 'MiMo-V2-Pro', 오픈라우터 주간 1위 등극
aimatters갤로그로 이동합니다.
03.20 25 0
2229 AI에도 지문이 있다, 몰래 바뀐 모델을 잡아내는 기술의 등장
aimatters갤로그로 이동합니다.
03.20 15 0
2228 챗GPT·클로드 이용약관의 충격적 진실, "품질 보장 없고 책임은 사용자 몫"
aimatters갤로그로 이동합니다.
03.20 16 0
2227 기자 10명 중 8명이 AI 쓰지만 정작 AI 가장 두려워 해 [1]
aimatters갤로그로 이동합니다.
03.20 31 0
2226 구글, 맥용 제미나이 앱 비공개 테스트 돌입… 챗GPT·클로드 대항마로
aimatters갤로그로 이동합니다.
03.20 18 0
2225 마이크로소프트, 코파일럿 AI 리더십 대거 개편… 술레이만은 신모델 개발 집중
aimatters갤로그로 이동합니다.
03.20 15 0
2224 백악관, AI 규제 프레임워크 발표 임박… '4C' 핵심 의제로 부상
aimatters갤로그로 이동합니다.
03.20 15 0
2223 EU 이사회, AI 법 간소화 합의… 비동의 성적 딥페이크 생성 AI 명시적 금지
aimatters갤로그로 이동합니다.
03.20 20 0
2222 "답만 하는 AI는 끝났다"…중국 지푸, 실행형 에이전트 모델 'GLM-5-터보' 공개
aimatters갤로그로 이동합니다.
03.19 26 0
2221 웨어러블 데이터가 심부전 치료를 바꾼다…AI가 7500만 건 분석해 입원율 뚝
aimatters갤로그로 이동합니다.
03.19 100 0
2220 미드저니 V8 알파 공개…이미지 생성 속도 5배 빨라지고 텍스트 렌더링도 대폭 개선
aimatters갤로그로 이동합니다.
03.19 20 0
2219 AI가 미술·디자인 교사의 수업을 바꾼다, 결정적 열쇠는 '자신감'과 '동료 압력'이었다
aimatters갤로그로 이동합니다.
03.19 22 0
2218 AI가 두려울수록 취업 결정을 못 한다, 중국 대학생 315명이 증명했다
aimatters갤로그로 이동합니다.
03.19 28 0
2217 헬스케어 혁명, AI 코치가 탑재된 가상현실 스포츠가 비만 청소년의 뇌까지 바꿨다
aimatters갤로그로 이동합니다.
03.19 15 0
2216 구글, 미국 내 '퍼스널 인텔리전스' 출시… 제미나이가 지메일·포토까지 연결
aimatters갤로그로 이동합니다.
03.19 97 0
2215 오픈AI, IPO 준비 박차… 연매출 250억 달러 돌파, 기업 시장 집중 선언
aimatters갤로그로 이동합니다.
03.19 23 0
2214 "오픈AI도 앤트로픽도 아니다", 기업 AI 시장을 가장 야심차게 노리는 회사는?
aimatters갤로그로 이동합니다.
03.18 20 0
2213 'PUBG 만든' 크래프톤, 진짜 총 만든다…한화에어로스페이스와 방산 AI 동맹
aimatters갤로그로 이동합니다.
03.18 25 0
2212 글로벌 AI 회사들의 명암들... 오픈AI 군사작전 투입 논란∙그록은 아동 성착취물 소송 직면
aimatters갤로그로 이동합니다.
03.18 25 0
2211 펜타곤, AI 기업에 기밀 데이터 학습 허용 검토 중
aimatters갤로그로 이동합니다.
03.18 18 0
2210 AI 코딩 도구 써도 보안 취약점은 그대로, 결국 중요한 건 개발자 경험
aimatters갤로그로 이동합니다.
03.18 24 0
2209 트랜스포머 시대의 균열… 맘바 3, 언어 모델링 정확도 최대 4% 앞섰다
aimatters갤로그로 이동합니다.
03.18 15 0
2208 "챗GPT야, 우리 강아지 좀 살려줘"… AI로 세계 최초 반려견 암 백신 만든 남자
aimatters갤로그로 이동합니다.
03.18 98 0
2207 AI가 유방암 검진 의사를 대체할 수 있을까, 5만 명 임상 연구가 답했다
aimatters갤로그로 이동합니다.
03.18 20 0
2206 AI 군사 활용 논란, 오픈AI·구글 직원 1000명이 반기를 들었다
aimatters갤로그로 이동합니다.
03.18 19 0
2205 AI 창작자라면 주목…2026년 상반기 AI 공모전 총정리
aimatters갤로그로 이동합니다.
03.17 99 0
2204 "내 얼굴로 AI 아바타를?"…런웨이, 대화형 AI 캐릭터의 빛과 그림자를 직접 고백하다
aimatters갤로그로 이동합니다.
03.17 24 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2