디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패

aimatters갤로그로 이동합니다. 2026.02.25 14:52:39
조회 692 추천 5 댓글 2


최신 AI가 바둑을 정복하고 코드를 짜고 소설을 쓰는 시대, 1977년에 만들어진 텍스트 게임을 클리어하는 수준이 평균 10%도 미치는 못한다면 믿겠는가. 네덜란드 트벤테 대학교(University of Twente) 연구팀이 챗GPT(ChatGPT), 클로드(Claude), 제미나이(Gemini) 등 최첨단 대형 언어 모델(LLM, Large Language Model)을 1977년 텍스트 어드벤처 게임 '조크(Zork)'에 투입해 실험한 결과, 모든 AI가 평균 완료율 10% 미만이라는 초라한 성적표를 받아 들었다. 이 연구는 현재 AI의 추론 능력에 대한 근본적인 질문을 다시 던진다.



왜 하필 1977년 게임인가: 조크가 AI의 진짜 실력을 드러내는 이유

조크(Zork)는 미국 MIT에서 개발되어 1977년 처음 출시된 텍스트 기반 어드벤처 게임이다. 화면에 그림이나 영상이 전혀 없고, 오직 글자로만 상황이 묘사된다. 예를 들어 "당신은 흰 집 서쪽 열린 들판에 서 있습니다"라는 문장이 나오면 플레이어는 "북쪽으로 가라" 혹은 "칼을 집어라" 같은 명령어를 타이핑해 게임을 진행한다. 최대 350점을 획득하면 클리어다.

이 게임이 AI 테스트에 적합한 이유는 명확하다. 화면을 보고 패턴을 인식하는 능력이 아니라, 글로 묘사된 공간을 머릿속으로 지도처럼 구성하고, 이전에 실패한 행동을 기억해 전략을 바꾸고, 아이템들 사이의 인과관계를 파악하는 능력이 요구되기 때문이다. 즉 단순한 언어 생성이 아닌 '진짜 이해'와 '적응적 문제 해결'이 필요하다. 연구팀은 이 게임이 AI가 흔히 쓰는 '패턴 매칭 요령'이 통하지 않는 환경이라는 점에 주목했다.



챗GPT는 빈 우편함을 계속 열었다: AI가 드러낸 황당한 실수들

연구팀은 앤트로픽(Anthropic)의 클로드 오퍼스 4.5(Claude Opus 4.5), 클로드 소넷 4.5(Claude Sonnet 4.5), 오픈AI(OpenAI)의 챗GPT 5.2, 구글(Google)의 제미나이 3(Gemini 3)을 포함해 총 3개 기업의 6개 LLM 기반 챗봇 설정을 테스트했다. 각 모델은 게임 설명을 최소한으로 제공한 '기본 프롬프트'와 게임 매뉴얼 수준의 상세한 설명을 제공한 '고급 프롬프트' 두 가지 조건 아래 각 5회씩, 총 40회 실험을 진행했다.

가장 저조한 성적을 낸 챗GPT 5.2는 특히 흥미로운 실패 패턴을 보였다. 게임 초반에 우편함을 열고 안에 있는 전단지를 읽는 것은 합리적인 행동이다. 그런데 챗GPT는 이미 비어 있는 우편함을 반복해서 다시 열려는 시도를 여러 차례 했다. 내용물이 없다는 사실을 이미 확인했음에도 같은 행동을 되풀이한 것이다. 인간 플레이어라면 반복하지 않을 행동이다. 더불어 챗GPT는 포기 명령을 거의 내리지 않아 게임 내 이동 횟수는 많았지만 실질적 진전은 거의 없는 '제자리걸음'을 반복했다.

클로드 오퍼스 4.5는 최고 성적인 약 75점(350점 만점)을 기록했지만, 이 역시 전체의 약 20%에 그쳤다. 클로드가 미로 구간에서 보인 사고 과정을 살펴보면, "미로에는 특정 해법이 있다, 방향을 체계적으로 시도해보겠다"고 언급하면서도 동시에 아이템을 바닥에 놓아 경로를 표시하겠다고 했다. 그런데 대화 기록만 봐도 자기 발자국을 추적할 수 있는 AI가 굳이 아이템을 버릴 이유가 없다. 심지어 한 실험에서는 경로 표시용으로 랜턴을 바닥에 떨어뜨렸다가, 이후 어두운 지역에서 빛이 필요한 순간 랜턴이 없어 곤란에 빠지기도 했다.




Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork?

[그림 1] 왼쪽: 모델별 평균 획득 점수(표준 오차 포함). 오른쪽: 게임당 평균 이동 횟수(표준 오차 포함). (I)은 기본 프롬프트, (II)는 고급 프롬프트 조건을 나타낸다.




'생각하기' 기능을 켜도 달라지지 않았다: AI의 '사고 모드'는 진짜 사고가 아닌가

이번 연구에서 가장 충격적인 발견 중 하나는 '확장 사고(Extended Thinking)' 기능이 게임 성과에 아무런 도움이 되지 않았다는 점이다. 클로드의 '확장 사고' 옵션, 챗GPT의 '확장 사고' 설정, 제미나이의 '사고' 모드를 각각 활성화했지만, 세 모델 모두 해당 기능을 켰을 때와 끄지 않았을 때 사이에 유의미한 성적 차이가 없었다.

또 하나 흥미로운 결과는 상세한 게임 설명을 제공해도 성적이 오르지 않았다는 점이다. 연구팀은 이동 명령어, 전투 방법, 게임 목표, 핵심 전략 등을 담은 고급 프롬프트를 별도로 제작해 제공했다. 인간 플레이어라면 이 정도 가이드만으로도 훨씬 높은 점수를 낼 수 있을 것이다. 그러나 AI에게는 아무 차이가 없었다. 정보 자체를 갖고 있느냐보다 그 정보를 상황에 맞게 적용하고 자신의 행동을 돌아보는 능력이 부재하기 때문이라는 것이 연구팀의 해석이다.



AI가 없는 것: 자기 생각을 돌아보는 '메타인지' 능력

연구팀이 이 실험을 통해 지목한 핵심 한계는 '메타인지(Metacognition)'의 부재다. 메타인지란 쉽게 말해 '내가 지금 잘 하고 있는지 스스로 점검하는 능력'이다. 인간은 같은 방법이 계속 실패하면 "이건 안 되는구나, 다른 방법을 써야겠다"고 스스로 판단한다. 그런데 실험 속 AI들은 실패한 행동을 반복했고, 이전 대화 기록에 접근할 수 있음에도 이전 시도에서 배운 흔적을 보이지 않았다.

연구팀은 이를 LLM이 긴 문맥 속 중간 부분의 정보를 잘 활용하지 못하는 이른바 '중간에서 길을 잃다(Lost in the Middle)' 현상과도 연결지어 설명했다. 즉 대화가 길어질수록 앞서 일어났던 실패들을 효과적으로 참고하지 못하는 것이다. 연구팀은 현재 AI의 이 같은 한계가 단순히 모델 크기나 학습 데이터를 늘린다고 해결될 양적 문제가 아니라, 인간의 인지 방식과 AI의 정보 처리 방식 사이의 질적 차이에서 비롯된 것일 수 있다고 지적했다. 유창하게 말을 만들어내는 능력이 진짜 이해나 문제 해결 능력과는 다르다는 것이다.



FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.

Q. 조크(Zork)가 뭔가요? 왜 AI 테스트에 사용했나요?
A. 조크는 1977년 MIT에서 개발된 텍스트 기반 어드벤처 게임으로, 글로만 상황이 묘사되고 글로만 명령을 입력해 진행하는 게임입니다. 시각적 힌트 없이 공간 파악, 기억, 전략 수정이 필요해 AI의 진짜 추론 능력을 테스트하기에 적합한 환경으로 평가받았습니다.


Q. 클로드, 챗GPT, 제미나이 중 어느 AI가 가장 잘했나요?
A. 클로드 오퍼스 4.5가 약 75점(350점 만점)으로 가장 높은 점수를 기록했습니다. 그러나 이 역시 전체 게임의 약 20% 수준에 불과했고, 나머지 모델들은 평균 10% 미만의 완료율을 보였습니다.


Q. AI에게 상세한 게임 설명을 줘도 왜 성적이 오르지 않나요?
A. 정보를 받는 것과 그 정보를 실시간 상황에 맞게 유연하게 적용하는 것은 다른 능력입니다. AI는 상세한 매뉴얼을 받았어도 상황에 따라 전략을 수정하거나 실패로부터 배우는 '메타인지' 능력이 부족해 실질적인 성과 향상으로 이어지지 않은 것으로 분석됩니다.



기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork?

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

5

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
이슈 [디시人터뷰] '쪼와요~ 쪼와요~’ 캐릭터에 생명을 불어넣는 성우 박시윤 운영자 26/04/17 - -
설문 메시지 읽씹 잘 할 것 같은 이미지의 스타는? 운영자 26/04/20 - -
2477 애플, iOS 27서 시리 전면 개편…구글 제미나이 기반 AI 챗봇으로 탈바꿈 [16]
aimatters갤로그로 이동합니다.
11:00 758 0
2476 로보락, 높이 7.95cm 초슬림 플래그십 로봇청소기 'S10 MaxV Slim' 출시…이중 문턱 8.8cm 통과
aimatters갤로그로 이동합니다.
11:00 12 0
2475 위로보틱스, 보행 보조 로봇 구독 서비스 'WIM 프리미엄' 출시…웨어러블 로봇의 'RaaS' 시대 열다
aimatters갤로그로 이동합니다.
11:00 6 0
2474 소니, NAB 2026서 방송·제작 혁신 솔루션 공개…'R 시리즈' 카메라·MOXELA 플랫폼 선봬
aimatters갤로그로 이동합니다.
11:00 30 0
2473 앤트로픽 기업가치 8,000억 달러 평가…연매출 300억 달러로 오픈AI 추월
aimatters갤로그로 이동합니다.
11:00 5 0
2472 MIT 테크놀로지 리뷰, 'AI 현재 10대 이슈' 첫 발표…AI 동반자·바이브 코딩 등 선정
aimatters갤로그로 이동합니다.
11:00 5 0
2471 구글 클라우드 넥스트 2026 D-2…제미나이를 클라우드 임베딩해 사용하는 에이전틱 AI 시대
aimatters갤로그로 이동합니다.
11:00 7 0
2470 NAB Show 2026 개막…AI, 미디어 제작 현장의 핵심 인프라로 자리잡다
aimatters갤로그로 이동합니다.
11:00 4 0
2469 EU AI 법, 채용 편향 감사 의무화 시행 105일 전…AI로 채용하면 인간 감사 받아야 한다
aimatters갤로그로 이동합니다.
11:00 6 0
2468 챗GPT로 답을 복붙해도 점수는 같았다, 단 한 가지만 빼고
aimatters갤로그로 이동합니다.
11:00 10 0
2467 챗GPT에 아이디어를 물으면 안 되는 이유, 독일 연구팀이 밝혔다
aimatters갤로그로 이동합니다.
11:00 11 0
2466 회사 코드에 AI가 쓴 코드가 몇 줄이나 있지 추적하는 기술이 나왔다
aimatters갤로그로 이동합니다.
11:00 8 0
2465 루마 AI·원더 프로젝트, AI 하이브리드 영화 제작사 '이노베이티브 드림스' 출범… 사람만 찍으면 배경 자동으로 입힌다
aimatters갤로그로 이동합니다.
04.17 29 0
2464 오픈AI, 생명과학 특화 AI 모델 'GPT-로잘린드' 출시… 신약 개발·유전체 연구 가속화
aimatters갤로그로 이동합니다.
04.17 66 0
2463 베이직인터내셔널, AI가 자녀 목소리로 어르신과 대화하는 '아우라보이스' 출시… 정신의학계와 시니어 돌봄 혁신
aimatters갤로그로 이동합니다.
04.17 17 0
2462 DJI, 1인치 센서 탑재 포켓 짐벌 카메라 'Osmo Pocket 4' 출시… 4K/240fps·14스톱 다이내믹 레인지
aimatters갤로그로 이동합니다.
04.17 39 0
2461 '타노스가 인류 절반을 없앤다면?' 넷플릭스팀 AI가 영상으로 답했다
aimatters갤로그로 이동합니다.
04.17 42 0
2460 오픈AI, 코덱스 '코딩 도구' 넘어 컴퓨터 전체 제어하는 AI 에이전트로 진화
aimatters갤로그로 이동합니다.
04.17 39 0
2459 스텔란티스, 마이크로소프트와 AI 협약 체결… 설계∙엔지니어링 등 차량 및 운영 전 분야 AI 가속
aimatters갤로그로 이동합니다.
04.17 18 0
2458 타이거글로벌 투자 AI 스타트업 업스케일, 20억 달러 기업가치 펀딩 협상 착수
aimatters갤로그로 이동합니다.
04.17 19 0
2457 앤트로픽, 클로드 일부 사용자에 신분증·셀카 제출 요구… 프라이버시 논란 [9]
aimatters갤로그로 이동합니다.
04.17 1503 11
2456 영상 편집도 '딸깍' 되나... 편집 플랫폼 에이비드-구글 클라우드, 에이전틱 AI 미디어 제작 파트너십 체결
aimatters갤로그로 이동합니다.
04.17 20 0
2455 구글 너마저... 제미나이, 미 국방부 기밀 환경 배치 협상, AI 군사 활용 논의 본격화
aimatters갤로그로 이동합니다.
04.17 38 0
2454 2026 글로벌 퀀텀+AI 챌린지 공식 출범… 총 상금 20만 달러·5개 기업 도전 과제
aimatters갤로그로 이동합니다.
04.17 24 0
2453 앤트로픽, 클로드 오퍼스 4.7 정식 출시… 미공개 '미토스'엔 여전히 못 미쳐
aimatters갤로그로 이동합니다.
04.17 34 0
2452 구글, AI 모드 크롬에 통합… 주소창도 AI 프롬프트창으로 변신, 스킬 기능으로 프롬프트 저장
aimatters갤로그로 이동합니다.
04.17 31 0
2451 사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다
aimatters갤로그로 이동합니다.
04.17 39 1
2450 AI가 덜 생각할수록 더 잘 푼다, 추론 비용을 62% 줄인 BCR의 역설 [13]
aimatters갤로그로 이동합니다.
04.17 1574 9
2449 트래블러스맵, 상품 기획부터 예약·운영까지 AI가 전 과정 처리하는 'AI 네이티브' 여행 플랫폼 출시
aimatters갤로그로 이동합니다.
04.16 20 0
2448 PixAI, 프롬프트 없이 채팅만으로 완성하는 AI 창작 에이전트 ‘Mio.2’ 출시…총상금 3,600달러 챌린지도 진행
aimatters갤로그로 이동합니다.
04.16 33 0
2447 마키나락스, 현장에서 작동하는 AI 만드는 FDE 중심 대규모 인재 채용
aimatters갤로그로 이동합니다.
04.16 99 0
2446 딥엘, 실시간 음성 간 번역 'Voice-to-Voice' 공개…글로벌 비즈니스 언어 장벽 해소 지원
aimatters갤로그로 이동합니다.
04.16 29 0
2445 AI도 처음 본 단어들을 서로 구분 못 한다
aimatters갤로그로 이동합니다.
04.16 60 0
2444 사이버펑크 2077 데이터로 훈련한 AI, 현실 영상 분석에서 기존 모델을 앞서다
aimatters갤로그로 이동합니다.
04.16 43 0
2443 'AI가 대화 상대도, 코치도 된다' 인간-AI 대화 연구 플랫폼 '다이애딕' 공개
aimatters갤로그로 이동합니다.
04.16 26 0
2442 텔레그램서 판매되는 불법 도구로 은행 생체 보안 우회 – 캄보디아 사기 센터서 실제 사용
aimatters갤로그로 이동합니다.
04.16 25 0
2441 2026년 1분기 벤처투자 3,000억 달러 신기록 – AI가 전체의 80% 차지
aimatters갤로그로 이동합니다.
04.16 21 0
2440 오픈AI, 에이전트 SDK 업데이트 – 샌드박스 기능으로 기업 AI 에이전트 안전성 강화
aimatters갤로그로 이동합니다.
04.16 19 0
2439 위고비 제약사 노보 노디스크-오픈AI 전략 파트너십 – AI로 신약 개발 속도 높인다
aimatters갤로그로 이동합니다.
04.16 865 2
2438 클로드 '몰래 성능 낮췄다' 논란 – 개발자들 집단 반발... 성능 너프 실제로 밝혀져 [13]
aimatters갤로그로 이동합니다.
04.16 2514 14
2437 앤트로픽, VC로부터 8,000억 달러 기업가치 투자 제안 잇따라
aimatters갤로그로 이동합니다.
04.16 28 0
2436 구글 크롬에 AI 'Skills' 기능 추가 – 자주 쓰는 제미나이 프롬프트 원클릭으로
aimatters갤로그로 이동합니다.
04.16 36 0
2435 구글 제미나이 '퍼스널 인텔리전스' 글로벌 출시 – 유럽만 제외
aimatters갤로그로 이동합니다.
04.16 39 0
2434 앤트로픽 클로드 서비스 장애 – 4월 15일 수시간 접속 불가 사태
aimatters갤로그로 이동합니다.
04.16 20 0
2433 구글, 제미나이 맥 네이티브 앱 공개 – 단축키 하나로 AI 비서 즉시 호출
aimatters갤로그로 이동합니다.
04.16 26 1
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 60 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 21 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 30 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 32 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 41 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2