디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"역대 대통령 순서대로 나열해봐"... AI에게 시켜봤더니 생긴 일

aimatters갤로그로 이동합니다. 2025.11.26 11:59:45
조회 85 추천 1 댓글 0
														


요즘 AI를 활용해 주식 시장을 예측하거나 경제 흐름을 분석하려는 시도가 늘고 있다. 그런데 이런 예측이 가능하려면 AI가 '언제 무슨 일이 있었는지' 시간 순서를 제대로 이해해야 한다. 과연 AI는 시간의 흐름을 정확히 파악하고 있을까? 미국 UC 버클리와 컬럼비아대학교 연구팀이 GPT-4.1, GPT-5, 클로드(Claude) 3.7 소네트 등 최신 AI를 대상으로 직접 실험해봤다. 결과는 놀라웠다. 연구 논문에 따르면, AI가 시간 순서를 제대로 맞추려면 '생각할 시간'이 필요하다는 사실이 밝혀진 것이다.



5개만 정렬해도 절반 넘게 틀려

연구팀은 AI에게 세 종류의 문제를 냈다. 첫 번째는 뒤섞인 역사적 사건들을 시간 순서대로 다시 정렬하는 문제다. 예를 들어 '달 착륙, 2차 세계대전 종전, 베를린 장벽 붕괴'를 시간순으로 나열하라는 식이다. 두 번째는 조건에 맞는 항목만 골라낸 뒤 시간순으로 정렬하는 문제다. "버지니아주 출신 미국 대통령만 골라서 취임 순서대로 나열하라"는 식이다. 세 번째는 "에이브러햄 링컨 대통령이 전화기를 사용한 적이 있을까?" 같은 질문에 '가능했다' 또는 '불가능했다'로 답하는 문제다.

첫 번째 정렬 문제에서 GPT-4.1의 성적은 충격적이었다. 사건 2개를 정렬할 때는 100% 정답을 맞혔다. 하지만 5개로 늘리자 정답률이 45%로 뚝 떨어졌다. 10개일 때는 10%, 20개 이상이 되면 단 한 번도 완벽하게 맞추지 못했다. 정답률 0%다.

재미있는 점은 AI가 '대충은 맞힌다'는 것이다. 연구팀이 사용한 통계 지표를 보면, AI는 전체적인 순서의 흐름은 어느 정도 파악했다. 하지만 처음부터 끝까지 단 하나의 실수도 없이 완벽하게 정렬하는 것은 거의 불가능했다. 연구팀은 이를 "부분적으로는 맞지만 전체적으로는 뒤죽박죽"이라고 표현했다.



' 확장 사고(Extended Thinking)’ 기능 켜니까 모든 문제 100% 정답

연구팀이 찾아낸 해결책은 의외로 간단했다. AI에게 '생각할 시간'을 주는 것이다. 클로드 3.7 소네트라는 AI 모델에는 '확장 사고(Extended Thinking)'라는 기능이 있다. 이 기능을 켜면 AI가 답을 말하기 전에 혼자서 충분히 생각하는 시간을 갖는다. 마치 시험 볼 때 바로 답을 쓰지 않고 머릿속으로 먼저 정리하는 것과 비슷하다. 이 기능을 켜고 같은 문제를 풀게 했더니, 놀랍게도 모든 문제에서 정답률이 100%가 되었다.

GPT-5도 마찬가지였다. GPT-5에는 ' 추론 노력(reasoning effort)' 설정이 있다. '최소(minimal)', '낮음(low)', '중간(medium)', '높음(high)' 네 단계로 나뉘는데, '중간'이나 '높음'으로 설정하면 모든 문제를 완벽하게 맞혔다. 반면 '최소'나 '낮음'으로 설정하면 이전의 일반 AI처럼 문제가 길어질수록 성적이 급격히 떨어졌다.

연구팀은 AI의 생각 과정을 들여다봤다. 클로드 3.7 소네트가 '생각하는 시간' 동안 무엇을 했는지 기록을 분석한 것이다. AI는 먼저 모든 대통령의 임기를 쭉 나열했다. 그다음 문제에서 요구한 대통령이 목록에 있는지 하나씩 확인했다. 그리고 두 명씩 짝지어 누가 먼저인지 비교했다. 마지막으로 중복이 없는지 점검한 뒤 최종 답안을 제출했다. 사람이 문제를 푸는 방식과 똑같았다.





"버지니아 출신 대통령만 골라줘" 했더니 100번 중 한 번도 못 맞혀

두 번째 유형의 문제, 즉 '조건에 맞는 것만 골라서 정렬하기'에서는 더 심각한 문제가 드러났다. GPT-4.1에게 "이름이 A, B, C로 시작하는 대통령만 골라서 취임 순서대로 나열해줘"라고 시켰다. 100번을 시도했는데, 완벽하게 맞힌 건 고작 2번이었다. "오하이오주나 버지니아주 출신 대통령만 골라줘"라는 문제에서는 100번 중 단 한 번도 완벽하게 성공하지 못했다.

문제는 '순서 정렬'이 아니라 '조건에 맞는 사람 고르기' 단계에서 발생했다. AI가 조건에 맞지 않는 대통령을 자꾸 포함시킨 것이다. 예를 들어 '이름이 A, B, C로 시작하는 대통령'을 찾을 때, AI는 성이 B로 시작하는 조 바이든(Joe Biden)이나 마틴 밴 뷰런(Martin Van Buren)을 포함시키는 실수를 반복했다. 이름과 성을 헷갈린 것이다.

하지만 여기서도 '생각하는 시간'이 해결책이 되었다. 클로드 3.7 소네트에 확장 사고 기능을 켜니까 '사람 고르기' 정확도가 98~99%로 뛰어올랐다. GPT-5를 '중간' 설정으로 돌리니 100% 정확도를 달성했다.



"링컨이 전화기 썼을까?" 단순 질문은 잘 맞혀, 복잡해지면 헤매

세 번째 유형인 '이 일이 시간상 가능했을까?' 판단 문제에서 AI의 성적은 비교적 좋았다. "에이브러햄 링컨이 대통령 재임 중 기차를 탔을 가능성이 있을까?"처럼 단순한 질문에는 95% 이상 정확하게 답했다.

하지만 문제가 복잡해지면 성적이 떨어졌다. 예를 들어 "조지 워싱턴, 존 애덤스, 토머스 제퍼슨이 모두 같은 시기에 살아있었던 적이 있을까?" 같은 질문이다. 대통령 2명의 생존 기간이 겹치는지 판단할 때는 93~95%를 맞혔지만, 3명이 되면 80~91%, 4명이 되면 62~95%로 정답률이 들쑥날쑥했다. 여러 사람의 생존 기간이 한꺼번에 겹치는지 계산하는 것을 어려워한 것이다.



AI로 주식 예측할 때 주의해야 하는 이유

이 연구가 중요한 이유는 금융 분야와 직접 연결되기 때문이다. 요즘 AI에게 과거 뉴스를 보여주고 "이 뉴스가 나왔을 때 주가가 올랐을까, 내렸을까?"를 예측하게 하는 연구가 많다. 문제는 AI가 이미 학습할 때 그 이후의 정보까지 봤을 수 있다는 점이다. 예를 들어 AI에게 "2020년 3월 뉴스를 보고 주가를 예측해봐"라고 시키면, AI는 이미 2020년 이후에 무슨 일이 있었는지 알고 있을 수 있다. 그러면 예측이 아니라 '정답지를 보고 푸는 것'이 된다. 연구팀은 이를 '선행 편향'이라고 불렀다.

일부에서는 "2020년 3월 이전 정보만 사용해"라고 AI에게 지시하면 이 문제가 해결된다고 생각했다. 하지만 이번 연구는 AI가 기본적인 시간 순서도 제대로 파악하지 못한다면, 그런 지시만으로는 문제가 해결되지 않는다는 것을 보여준다.

연구팀은 해결책으로 세 가지를 제안했다. 첫째, 시간 순서가 중요한 작업에는 반드시 AI의 '깊이 생각하기' 기능을 켜야 한다. 둘째, AI에게 "이 정보가 그 시점에 알려져 있었는지 근거를 대봐"라고 추가 질문을 해야 한다. 셋째, 확실하지 않을 때는 예측을 하지 말라고 지시하고, 여러 번 실행해서 결과가 일관되는지 확인해야 한다.



AI도 '생각할 시간'이 필요하다

이번 연구는 AI를 사용할 때 중요한 교훈을 준다. 현재 AI는 '대략적인 시간 감각'은 있지만, 완벽하게 시간 순서를 맞추려면 추가로 '생각하는 시간'이 필요하다. 문제는 이 '생각하는 시간'이 공짜가 아니라는 점이다. 더 오래 생각하면 더 많은 컴퓨터 자원을 쓰고, 그만큼 비용과 시간이 든다. 따라서 AI를 활용하는 기업이나 개인은 '정확도와 비용 사이의 균형'을 고려해야 한다. 금융 분석, 법률 문서 검토, 역사적 사실 확인처럼 시간 순서가 중요한 분야에서는 AI에게 단순히 질문만 던지는 것이 아니라, '깊이 생각하기' 기능을 켜거나 별도의 확인 과정을 거쳐야 한다.

AI가 사람처럼 시간을 완벽하게 이해하려면 아직 갈 길이 멀다. 하지만 '생각할 시간을 주면 훨씬 잘한다'는 발견은 앞으로 AI 개발 방향에 중요한 힌트를 준다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1: '확장 사고(Extended Thinking)' 기능이 뭔가요?

A1: AI가 답을 바로 말하지 않고, 먼저 혼자서 생각하는 시간을 갖는 기능이다. 사람이 시험 문제를 풀 때 바로 답을 쓰지 않고 머릿속으로 정리하는 것과 비슷하다. 앤트로픽(Anthropic)이라는 회사의 클로드 3.7 소네트 모델에서 이 기능을 켤 수 있다. 이 기능을 사용하면 복잡한 문제의 정답률이 크게 올라간다.

Q2: '선행 편향'이 뭔가요? 왜 문제가 되나요?

A2: AI가 과거 데이터로 예측 능력을 검증할 때, 이미 알고 있는 '미래 정보'를 무심코 활용하는 현상이다. 예를 들어 "2020년 주가가 어떻게 될지 예측해봐"라고 시켰는데, AI가 이미 2020년 이후에 무슨 일이 있었는지 알고 있으면 예측이 아니라 정답지를 보고 푸는 것과 같다. 이렇게 부풀려진 예측 능력은 실제로는 쓸모가 없어서 투자 손실로 이어질 수 있다.

Q3: 일반인이 AI에게 시간 순서 관련 질문할 때 주의할 점은?

A3: 가능하면 '깊이 생각하기' 기능이 있는 AI를 사용하는 것이 좋다. 긴 목록을 한 번에 정렬하라고 하기보다 짧게 나눠서 질문하면 정답률이 높아진다. 그리고 AI가 알려주는 시간 정보가 중요한 결정에 쓰인다면, 반드시 다른 자료로 한 번 더 확인하는 것이 안전하다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Do Large Language Models Understand Chronology?

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

1

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 2026년 사주나 운세가 제일 궁금한 스타는? 운영자 25/12/29 - -
1748 구글, 2026년 첫 AI 안경 출시… 화면 없는 모델·인-렌즈 디스플레이 탑재 [20] aimatters갤로그로 이동합니다. 25.12.10 1649 3
1747 미국 10대 10명 중 6명 'AI 챗봇 쓴다'... 유튜브·틱톡 넘어 새 일상으로 aimatters갤로그로 이동합니다. 25.12.10 71 0
1746 연봉 격차가 AI 격차로... 퍼플렉시티-하버드, AI 에이전트 사용 연구 결과 공개 [2] aimatters갤로그로 이동합니다. 25.12.10 1566 0
1745 AI가 코드 짰다고 솔직히 말하면 손해볼까?... 깃허브 1만 4천 건 분석 결과는 '의외' [1] aimatters갤로그로 이동합니다. 25.12.10 87 0
1744 [12월 10일 AI 뉴스 브리핑] 챗GPT, 2025년 한국에서 가장 많이 성장한 앱 1위 외 aimatters갤로그로 이동합니다. 25.12.10 84 0
1743 한국인 10명 중 7명 "AI 써봤다"… 챗GPT 독주 속 '공짜 AI 시대' 열렸다 aimatters갤로그로 이동합니다. 25.12.09 92 0
1742 "내 사진에 AI로 옷 입혀보고 바로 구매"… 구글 패션 앱 '도플' 업데이트 aimatters갤로그로 이동합니다. 25.12.09 107 0
1741 로봇택시·AI 비서 시대 온다지만... 5년 뒤 AI 세상, 결국 부자만 누린다 aimatters갤로그로 이동합니다. 25.12.09 48 1
1740 68만 유튜버 조코딩, 연봉 4천 받고 수익 나누는 '1인 창업가' 채용 나서 aimatters갤로그로 이동합니다. 25.12.09 99 0
1739 박쥐도 싸울 때 말 많아진다... AI가 밝혀낸 동물 언어의 비밀 [5] aimatters갤로그로 이동합니다. 25.12.09 678 7
1738 오픈AI, 기업 AI 현황 리포트 공개… “AI 사용량 8배 급증, 업무 시간 하루 최대 1시간 절감” aimatters갤로그로 이동합니다. 25.12.09 64 0
1737 2024년엔 '우려', 2025년엔 '동반자'... 1년 만에 시민 AI 인식 대반전 aimatters갤로그로 이동합니다. 25.12.09 34 0
1736 [12월 9일 AI 뉴스 브리핑] 엘리스그룹-현대차, 제조 현장 이미지 AI 솔루션 개발 외 aimatters갤로그로 이동합니다. 25.12.09 31 0
1735 구글, '나노 바나나 2 플래시' 출시 임박… 더 저렴한 비용에 프로급 성능 aimatters갤로그로 이동합니다. 25.12.08 306 0
1734 챗GPT, 경제학자·투자자 예측 대결서 160명 중 80등... 효율성은 인간 압도 aimatters갤로그로 이동합니다. 25.12.08 85 0
1733 일론 머스크·저크버그 얼굴 달린 로봇 개 영상 화제… 1.5억 가격에도 전 작품 완판 [5] aimatters갤로그로 이동합니다. 25.12.08 1485 1
1732 [신간] 건강 관리, 취업 준비, 사업 준비까지… AI 일상 활용법 담은 『시켜보니 다 되는 생활밀착형 AI』 aimatters갤로그로 이동합니다. 25.12.08 52 0
1731 "40년 숙제 풀었다"… AI 만난 로봇 손, 드디어 인간처럼 물건 만진다 aimatters갤로그로 이동합니다. 25.12.08 105 0
1730 GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개 [5] aimatters갤로그로 이동합니다. 25.12.08 2728 5
1729 AI가 경제 활동하면 생기는 일… “배달 시켰더니 돈 다 써서 스쿠터만 사고 안 써” aimatters갤로그로 이동합니다. 25.12.08 68 0
1728 [12월 8일 AI 뉴스 브리핑] 서울AI재단, AI를 '동반자'로 인식하는 시민 37.2% 달해 외 aimatters갤로그로 이동합니다. 25.12.08 44 0
1727 ‘~가 뭐야?’ 구글, 2025년 검색 트렌드 발표... “대화형 질문 사상 최대치” aimatters갤로그로 이동합니다. 25.12.05 56 0
1726 AI 챗봇, 정치 광고보다 4배 효과적... 설득력 높을수록 거짓 정보 증가 aimatters갤로그로 이동합니다. 25.12.05 56 0
1725 앤트로픽 CEO "일부 AI 기업은 욜로 중"… 오픈AI 저격하나 aimatters갤로그로 이동합니다. 25.12.05 57 0
1724 한국, 2026년 AI 기본법으로 '규제 업그레이드'… OECD, 아시아 금융 AI 정책 분석 보고서 공개 aimatters갤로그로 이동합니다. 25.12.05 49 0
1723 “검사 안 해도 돼요” AI 의사 말 믿었다간... 심각한 오류 4건 중 3건이 '진단 누락' aimatters갤로그로 이동합니다. 25.12.05 98 0
1722 [12월 5일 AI 뉴스 브리핑] 홈쇼핑모아, 2025 올해의 브랜드… 로보락·AHC 등 선정 외 aimatters갤로그로 이동합니다. 25.12.05 126 0
1721 한국 AI 인력 5.7만 명 시대... 한국은행 "고학력·고임금에도 해외 유출 심각" aimatters갤로그로 이동합니다. 25.12.05 96 0
1720 AWS, 클릭 몇 번으로 맞춤형 AI 모델 만든다... 신규 기능 대거 발표 aimatters갤로그로 이동합니다. 25.12.04 55 0
1719 아마존, AWS 리인벤트 2025서 차세대 AI 칩 ‘트레이니엄3’ 공개 aimatters갤로그로 이동합니다. 25.12.04 59 0
1718 챗GPT, 한국 사용자 2천만 돌파… 한국인 AI 앱 사용 순위 Top 10 공개 aimatters갤로그로 이동합니다. 25.12.04 267 0
1717 챗GPT가 거짓말하면 스스로 자백하게 만든다... 오픈AI, ‘고백’ 시스템 공개 [15] aimatters갤로그로 이동합니다. 25.12.04 2880 4
1716 AI 에이전트 개발자 96%, 도구 하나로는 부족..."여러 개 섞어 쓰는 게 대세" aimatters갤로그로 이동합니다. 25.12.04 110 0
1715 NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다" aimatters갤로그로 이동합니다. 25.12.04 138 0
1714 [12월 4일 AI 뉴스 브리핑] 트레져러, AI 투자분석 '알파렌즈'로 ‘AI x 소프트웨이브 2025’ 참가 외 aimatters갤로그로 이동합니다. 25.12.04 103 0
1713 런웨이, 차세대 AI 영상 생성 모델 Gen-4.5 공개… 엔비디아와 협업 aimatters갤로그로 이동합니다. 25.12.02 84 0
1712 “영상계의 나노바나나 프로 나왔다”… 클링, 멀티모달 비디오 생성 모델 ‘Kling O1’ 공개 [6] aimatters갤로그로 이동합니다. 25.12.02 3295 5
1711 엔비디아, 세계 최초 오픈소스 추론 자율주행 모델 공개… "사람처럼 생각하는 자율차" aimatters갤로그로 이동합니다. 25.12.02 66 0
1710 AI가 쓴 인도 이야기 10편 중 9편이 '가짜 문화'... 음식·의상·축제 모두 틀렸다 [16] aimatters갤로그로 이동합니다. 25.12.02 1944 4
1709 ‘의사’ 역할 맡은 AI, 97%가 자신이 AI인 걸 숨긴다... 금융 상담 땐 정반대 [12] aimatters갤로그로 이동합니다. 25.12.02 2340 2
1708 [12월 2일 AI 뉴스 브리핑] 세이지, 정부 지원으로 중소사업장에 지능형 CCTV 보급 외 aimatters갤로그로 이동합니다. 25.12.02 47 0
1707 챗GPT가 우리 브랜드 제품 추천하게 만드는 방법 aimatters갤로그로 이동합니다. 25.12.02 149 0
1706 제미나이3 충격파? 오픈AI '코드 레드' 선포... 광고 계획은 뒤로 aimatters갤로그로 이동합니다. 25.12.02 161 0
1705 '아바타' 제임스 카메론 감독 "생성형 AI는 끔찍하다" [24] aimatters갤로그로 이동합니다. 25.12.01 1421 6
1704 2025년 대표하는 기술 1위는 ‘데이터센터’… NYT "챗GPT는 3위” aimatters갤로그로 이동합니다. 25.12.01 52 0
1703 [12월 1일 AI 뉴스 브리핑] 리빌더AI, 일본 아식스 등 글로벌 VC로부터 85억 원 투자 유치 외 aimatters갤로그로 이동합니다. 25.12.01 98 0
1702 LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상 aimatters갤로그로 이동합니다. 25.12.01 82 0
1701 AI가 쓴 시가 시인이 쓴 시보다 높은 점수... 'AI 작품'이라 알려주니 평가 급락 aimatters갤로그로 이동합니다. 25.12.01 89 0
1700 "정확도 90%?" 도박 중독 막는다던 AI, 실제로는 제대로 작동하는지 아무도 몰라 aimatters갤로그로 이동합니다. 25.12.01 58 0
1699 챗GPT 등장 전으로 인터넷 되돌리는 확장 프로그램 등장 [29] aimatters갤로그로 이동합니다. 25.11.28 3708 13
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2