디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

의사 시험 붙은 GPT, 수능 지구과학 앞에서 멘붕...

aimatters갤로그로 이동합니다. 2026.03.09 14:17:36
조회 69 추천 0 댓글 0


챗GPT(ChatGPT)가 의사 시험과 변호사 시험을 통과했다는 소식이 나온 지 꽤 됐다. 그렇다면 한국 수능은 어떨까? 국립대만사범대학교(National Taiwan Normal University)와 서울대학교(Seoul National University) 공동 연구팀이 GPT-4o, 제미나이-2.5-플래시(Gemini 2.5 Flash), 제미나이-2.5-프로(Gemini 2.5 Pro) 세 모델에게 2025학년도 수능 지구과학I 문제를 풀게 했다. 최선의 조건에서 제미나이-2.5-프로는 상위권 수험생에 근접하는 성적을 냈지만, 나머지 두 모델은 랜덤으로 찍는 수준을 벗어나지 못했다. 연구팀이 주목한 건 점수 자체보다 '왜 틀렸는가'였다. AI는 특정 유형의 문제에서 반복적이고 체계적인 방식으로 실패했고, 그 패턴은 사람이 틀리는 방식과 뚜렷하게 달랐다.



문제지를 통째로 주면 찍는 것보다 못한 성적

연구팀은 같은 AI에게 세 가지 방식으로 문제를 줬다. 첫 번째는 시험지 전체 페이지를 이미지 파일로 그대로 넘겨주는 방식이었다. 결과는 예상보다 낮았다. 제미나이-2.5-플래시는 50점 만점에 4점(8%), GPT-4o는 7점(14%)을 받았다. 5지선다에서 랜덤으로 찍으면 기댓값이 10점(20%)인데, 두 모델 모두 그보다 낮았다. 제미나이-2.5-프로는 14점(28%)으로 그나마 높았지만 이 역시 낮은 수준이다.

문자 인식 단계에서부터 오류가 쌓였다. GPT-4o는 은하 스펙트럼 문제를 운석 스펙트럼 문제로 잘못 읽었고, 제미나이-2.5-플래시는 암석의 용융 곡선 문제를 '암염 용융 곡선' 문제로 완전히 다르게 인식했다. 문제는 이 모델들이 잘못 인식한 문제를 바탕으로 그럴듯한 해설까지 자신 있게 내놨다는 점이다. "암염은 온도가 올라가면 녹을 수 있다"는 설명은 과학적으로 맞는 말이지만, 출제된 문제와는 전혀 상관없는 내용이었다.



문제를 따로 줘도 드러나는 모델별 한계

두 번째 실험에서 연구팀은 20개 문항을 각각 별도 이미지 파일로 잘라서 줬다. 이렇게 하면 여러 문제가 섞인 복잡한 지면을 AI가 스스로 분석하는 부담이 사라진다. 제미나이-2.5-프로는 14점에서 28점(56%)으로 크게 올랐다. 반면 제미나이-2.5-플래시는 4점에서 9점(18%), GPT-4o는 7점에서 8점(16%)으로 거의 변화가 없었다.

이 차이가 중요한 단서를 준다. 제미나이-2.5-프로의 점수가 많이 오른 건, 이 모델의 첫 번째 실험 실패 원인이 추론 능력 부족이 아니라 복잡한 문서 레이아웃 분석 실패였기 때문이다. 문제를 제대로 읽게 해줬더니 숨어 있던 추론 능력이 발휘된 것이다. 반면 나머지 두 모델은 입력 방식을 바꿔줘도 성적이 거의 오르지 않았다. 이 모델들의 한계가 단순한 문서 구조 문제가 아니라 시각 정보 해석과 추론 과정 전반에 있다는 점을 보여준다.



이상적인 조건에서도 AI는 도식의 의미를 읽어내지 못했다

세 번째 실험에서 연구팀은 텍스트는 직접 입력하고 그래프와 도표만 이미지로 제공했다. 문자 인식 오류 가능성을 원천 차단한 이상적인 조건이다. 제미나이-2.5-프로는 34점(68%)으로 상위권 수험생 수준에 근접했다. 그러나 제미나이-2.5-플래시는 10점(20%), GPT-4o는 11점(22%)으로 랜덤 선택 기댓값과 비슷한 수준에 머물렀다.

이 조건에서 발생한 36개의 오답을 분석한 결과, 가장 많이 나온 오류 유형은 '지각 오류(Perception Errors)'로 전체의 43%를 차지했다. AI가 그래프의 수치를 잘못 읽거나, 도식에 담긴 상징적 의미를 제대로 해석하지 못하는 문제가 가장 많았다. 논문은 이를 단순한 시각 오류가 아니라, 인식한 정보를 과학 개념으로 연결하는 인지 과정의 단절로 설명한다. 추론 오류(25%), 환각으로 분류되는 지식 생성 오류(17%), 개념 오류(15%)가 그 뒤를 이었다.



AI가 반복적으로 실패하는 세 가지 문제 유형

연구팀이 특히 주목한 건 AI 고유의 반복적 실수 패턴이었다. 첫 번째는 '지각-인지 단절(Perception-Cognition Gap)'이다. AI가 시각 정보를 인식은 하지만 그 안에 담긴 과학적 규칙으로 연결하지 못하는 현상이다. 태풍의 풍향 변화를 나타내는 방사형 그래프에서 AI는 그림 자체는 봤지만, 시계 방향과 반시계 방향의 과학적 의미를 읽어내지 못했다. 세 모델 모두 이 문제를 틀렸다.

두 번째는 '계산-개념 불일치(Calculation-Conceptualization Discrepancy)'다. GPT-4o는 20번 문항에서 λmax(B)/λmax(C)=0.5라는 계산은 정확하게 해냈다. 그런데 이 값이 "C의 최대 파장이 B의 두 배"라는 개념적 의미로 연결되지 않아 틀렸다. 절차적 계산은 수행하지만 그 결과의 의미를 적용하지 못하는 것이다.

세 번째는 '과정 환각(Process Hallucination)'이다. AI가 복잡한 추론 과정을 건너뛰고 관련 있어 보이는 배경 지식을 가져다 붙이는 현상이다. 3번 문항에서 두 모델은 P-T 다이어그램을 실제로 확인하는 과정을 생략하고 "맨틀이 상승하면 감압 용융이 일어난다"는 배경 지식을 바로 적용해 틀렸다. 데이터 검증 없이 그럴듯한 결론으로 직행한 것이다.



FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.

Q. AI가 수능을 못 푸는 건 한국어를 잘 못해서인가요?

A. 연구팀은 문제를 영어로 번역해 제공하는 등 언어 장벽을 최소화했습니다. AI가 특정 문제에서 어려움을 보이는 핵심 원인은 언어가 아니라, 그래프와 도식에 담긴 과학적 규칙을 해석하는 시각 인지 능력의 한계에 있었습니다.

Q. 제미나이-2.5-프로가 68점을 받았다면 AI가 수능을 어느 정도 풀 수 있다는 건가요?

A. 논문은 제미나이-2.5-프로의 68점이 상위권 수험생 수준에 근접한다고 평가했습니다. 다만 이는 텍스트를 미리 직접 입력해주는 이상적인 조건에서 나온 결과입니다. 실제 시험지를 그대로 입력했을 때 같은 모델의 점수는 28점에 그쳤습니다.

Q. 이번 연구가 교육 현장에 주는 시사점은 무엇인가요?

A. 연구팀은 AI가 반복적으로 어려움을 보이는 문제 유형을 역으로 활용해 'AI 내성 문항'을 설계할 수 있다고 제안했습니다. 단순 x-y 그래프가 아닌 비정형 도식의 규칙을 해석해야 하는 문항, 계산 결과의 개념적 의미를 다시 적용해야 하는 문항 등은 학생의 실제 이해도를 측정하는 동시에 AI 활용을 어렵게 만드는 효과적인 설계 방향으로 제시됐습니다.



기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: ChatGPT and Gemini participated in the Korean College Scholastic Ability Test - Earth Science I

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 등만 봐도 설레이는 문짝남 스타는? 운영자 26/04/13 - -
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 20 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 6 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 6 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 5 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 6 0
2427 제약 기업 노바티스 CEO 바스 나라심한 앤트로픽이사회에 합류…의료 AI 전략 강화 신호
aimatters갤로그로 이동합니다.
04.15 6 0
2426 오픈AI, 사이버보안 특화 AI 모델 GPT-5.4-Cyber 제한 출시…앤트로픽 미토스에 맞불
aimatters갤로그로 이동합니다.
04.15 6 0
2425 구글, 인도에 제미나이 '개인화 인텔리전스' 출시…지메일·구글 포토 연동해 맞춤형 AI 비서로
aimatters갤로그로 이동합니다.
04.15 6 0
2424 진격의 앤트로픽, 클로드 코드에 '루틴' 기능 추가 및 UI 전면 재설계…오프라인에서도 자동화 실행
aimatters갤로그로 이동합니다.
04.15 8 0
2423 오픈AI, 개인 금융 AI 스타트업 히로(Hiro) 인수…챗GPT에 재무 계획 기능 탑재 예고
aimatters갤로그로 이동합니다.
04.15 6 0
2422 엔비디아, 양자컴퓨터 가속화 위한 오픈소스 AI 모델 '아이징(Ising)' 공개...비전언어모델까지 추가
aimatters갤로그로 이동합니다.
04.15 10 0
2421 스탠퍼드 AI 인덱스 2026 (6) 일자리 전망에 대한 AI 전문가와 일반인의 전혀 다른 시선
aimatters갤로그로 이동합니다.
04.15 7 0
2420 스탠퍼드 AI 인덱스 2026 (5) AI가 기상 예보를 완전 자동화했지만, 임상 연구 절반은 실제 환자 데이터를 안 쓴다
aimatters갤로그로 이동합니다.
04.15 6 0
2419 스탠퍼드 AI 인덱스 2026 (4) 미국 AI 연구자 1년 만에 80% 감소, 그런데 데이터센터는 왜 세계 1위인가
aimatters갤로그로 이동합니다.
04.15 6 0
2418 스탠퍼드 AI 인덱스 2026 (3) AI 안전 연구는 중국이 미국의 2배인데, 사고 건수는 왜 55% 늘었나
aimatters갤로그로 이동합니다.
04.14 10 0
2417 스탠퍼드 AI 인덱스 2026 (2) AI가 구한 시니어, AI가 밀어낸 주니어 - 세대를 가른 고용 충격
aimatters갤로그로 이동합니다.
04.14 11 0
2416 마이크로소프트, 오픈클로 대체 제품 만든다…상시 작동 AI 에이전트 개발 박차
aimatters갤로그로 이동합니다.
04.14 10 0
2415 뤼튼테크놀로지스, 2025년 매출 471억원…전년 대비 15배 급성장
aimatters갤로그로 이동합니다.
04.14 16 0
2414 스탠퍼드 AI 인덱스 2026 (1) AI는 1년 만에 코딩 시험을 만점 받았지만 아날로그 시계는 못 읽는다
aimatters갤로그로 이동합니다.
04.14 16 0
2413 AI가 소설을 쓰는 시대, 영국 소설가 10명 중 4명은 이미 수입이 줄었다
aimatters갤로그로 이동합니다.
04.14 19 0
2412 AI 벤치마크 점수를 믿지 마라, 버클리 연구팀이 8개를 모두 뚫었다
aimatters갤로그로 이동합니다.
04.14 16 0
2411 TSMC 1분기 매출 35% 급증…AI 반도체 슈퍼사이클 최전선
aimatters갤로그로 이동합니다.
04.14 9 0
2410 미국 3개 주, AI 관련 법안 잇따라 통과…가가격∙광고 금지 등 구체적 활용 사례 규제 시작
aimatters갤로그로 이동합니다.
04.14 8 0
2409 로봇도 스스로 생각하며 자동화한다... KUKA, AI 기반 '자동화 2.0' 전략 공개
aimatters갤로그로 이동합니다.
04.14 18 0
2408 AI 수요 폭발, 2026년 글로벌 반도체 산업 매출 1조 달러 돌파 전망
aimatters갤로그로 이동합니다.
04.14 8 0
2407 너무 성능 뛰어나 출시 못한다던 앤트로픽 클로드 미토스, 아마존 베드록에서 제한적으로 출시
aimatters갤로그로 이동합니다.
04.14 15 0
2406 맥 미니 없어도 된다…윈도우에서 2분 만에 오픈클로(OpenClaw) 설치하는 법
aimatters갤로그로 이동합니다.
04.13 17 0
2405 "AI가 모르면 팔 수 없다"… 함샤우트 글로벌, 제로클릭 시대 생존 전략서 출간
aimatters갤로그로 이동합니다.
04.13 7 0
2404 샘 알트만 자택에 화염병 투척… "말의 힘 과소평가했다, AI 공포가 폭력으로"
aimatters갤로그로 이동합니다.
04.13 9 0
2403 "인간 채용 멈춰라"… HumanX 덮친 AI 일자리 공포, 포천 500 CEO들 집단 패닉
aimatters갤로그로 이동합니다.
04.13 9 0
2402 애플 AI 수석 지아난드레아, 8년 만에 조용한 퇴장… 시리 실패가 부른 교체
aimatters갤로그로 이동합니다.
04.13 9 0
2401 AI 선구자 인튜이트, '새스포칼립스' 최대 피해주 전락… AI 역설
aimatters갤로그로 이동합니다.
04.13 8 0
2400 HumanX 컨퍼런스서 '클로드 열풍'… 앤트로픽, 기업 고객 1,000개사 돌파
aimatters갤로그로 이동합니다.
04.13 10 0
2399 애플, AI 스마트 글래스 4가지 디자인 시험 제작 중… 2027년 출시 목표
aimatters갤로그로 이동합니다.
04.13 20 0
2398 AI가 고양이만 보는 이유, 그리고 리모컨까지 보게 만드는 법
aimatters갤로그로 이동합니다.
04.13 9 0
2397 63%가 예측한 초개인화 시대, 아태지역 고객 경험이 바뀐다
aimatters갤로그로 이동합니다.
04.13 9 0
2396 스마트폰 사진 몇 장으로 나를 복제한다, 메타의 3D 아바타 기술
aimatters갤로그로 이동합니다.
04.13 7 0
2395 [에이-아이랑] 한 우물의 시대가 끝났다
aimatters갤로그로 이동합니다.
04.10 40 0
2394 [AI와 인간 사이] 앤트로픽의 하네스 유출은 코딩의 패러다임을 바꾸고 있다
aimatters갤로그로 이동합니다.
04.10 54 0
2393 "인프라는 우리가 맡는다"…앤트로픽, AI 에이전트 대규모 배포 솔루션과 비용 절감 전략 동시 공개
aimatters갤로그로 이동합니다.
04.10 37 0
2392 LG AI연구원, 최초 오픈웨이트 비전 언어 모델 'EXAONE 4.5' 공개
aimatters갤로그로 이동합니다.
04.10 19 0
2391 오픈AI, 코덱스 헤비 유저 위한 월 100달러 챗GPT 프로 요금제 신설 [1]
aimatters갤로그로 이동합니다.
04.10 1177 1
2390 퀄컴, MassRobotics 합류… AI 로봇 스타트업 생태계 지원 나서
aimatters갤로그로 이동합니다.
04.10 18 0
2389 엑솔(Exol), 소프트뱅크와 심보틱 지원 받아 AI 로봇 물류 서비스 미국 전역 확대
aimatters갤로그로 이동합니다.
04.10 19 0
2388 갤럽 조사: Z세대의 AI 분노·불신 심화… 활용률 정체 속 비판적 시각 급증
aimatters갤로그로 이동합니다.
04.10 31 0
2387 오픈AI, 사이버보안 특화 AI 모델 '아드바크' 출시 초읽기… 제한적 파트너 공개 예정
aimatters갤로그로 이동합니다.
04.10 18 0
2386 '클로드노믹스': 메타 직원 8만 5천 명이 AI 토큰 사용량을 두고 경쟁한 사연
aimatters갤로그로 이동합니다.
04.10 31 0
2385 앤트로픽, '클로드 매니지드 에이전츠' 공개 베타 출시… 코워크도 기업용으로 정식 전환
aimatters갤로그로 이동합니다.
04.10 15 0
2384 플로리다 법무장관, 총기 난사 사건 연루 의혹 제기하며 오픈AI 전격 수사
aimatters갤로그로 이동합니다.
04.10 19 0
2383 같은 복도를 10번 헤맨 AI, 스스로 깨닫고 멈췄다
aimatters갤로그로 이동합니다.
04.10 30 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2