디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"AI가 수능 문제 풀어보니…" 1등은 챗GPT

나남뉴스갤로그로 이동합니다. 2025.11.15 17:25:04
조회 5903 추천 7 댓글 55


AI가 수능 문제 풀어보니…1등은 챗GPT[연합뉴스]


2026학년도 대학수학능력시험(수능)이 끝났다.

최근 사회 거의 모든 분야에서 화두가 되고 있는 생성형 인공지능(AI)이 수능 수험생이라면 어느 정도의 성적을 받을까.

연합뉴스는 15일 연세대 인공지능융합대 첨단융합공학부 김시호 교수 연구팀과 함께 챗GPT(GPT-5), 제미나이(2.5 플래시), 퍼플렉시티(소나), 딥시크 최신 모델의 무료 버전을 대상으로 2026년도 수능 국어·영어·수학 영역을 풀어보게 했다.

어떤 AI가 가장 우수한 성적을 거뒀을까. 그리고 각 AI가 실제 수험생이었다면 어느 대학에 진학할 수 있을까 확인해봤다.

시험 환경은 실제 수능과 동일하게 구현하기 위해 모든 AI 챗봇 모델에게 인터넷 검색을 금지하고 스스로 문제를 풀도록 했다.

다만 음성을 인식하지 못하는 딥시크, 퍼플렉시티를 고려해 국어·영어 듣기 문제는 대본을 제공했다.

기호, 수식이 많은 수학 문항은 수식 표현 방식인 'LaTeX(라텍)'으로 변환해 입력했으며, 문제에서 제시된 표나 이미지는 PDF 파일로 전달해 시험을 치르게 했다.

1등 GPT, 수학에선 한 문제만 틀려 …퍼플렉시티는 '커닝'


AI가 수능 문제 풀어보니…1등은 챗GPT[연합뉴스]


시험 결과 가장 높은 성적을 받은 모델은 오픈AI의 챗GPT였다.

챗GPT는 작년 수능보다 어렵게 출제됐다고 평가받는 수학에서 단 한 문제만 틀릴 정도로 우수한 성적을 보였다.

올해 수학 영역이 곳곳에 고난도 문제가 배치돼 어렵다는 평가가 나온 상황에서도 GPT는 '안정적인 1등급'을 기록했다.

'확률과 통계'를 선택했을 때 4점짜리 문제 1개만 틀리며 96점을 받았고, '미적분' 선택 시 92점, '기하' 선택 시 84점을 얻었다.

챗GPT는 또 국어에서 '화법과 작문', 수학에서 '확률과 통계'를 선택할 경우 총 235점을 획득하며 다른 모델을 앞섰다.


AI가 수능 문제 풀어보니…1등은 챗GPT[연합뉴스]


영어는 듣기 37점, 독해 49점으로 총 86점을 받아 수능 2등급 수준의 성적을 거뒀다.

다만 국어는 '화법과 작문' 선택 시 53점, '언어와 매체' 선택 시 37점을 기록하는 등 상대적으로 낮은 점수를 받았다.

2위는 올해초 크게 화제가 됐던 중국의 AI 모델 딥시크가 차지했다.

딥시크는 국어와 영어 영역에서 GPT보다 높은 성적을 거뒀으나, 수학에서 '객관식 찍기'가 의심될 정도로 낮은 점수를 받아 총점이 떨어졌다.

작년 수능보다 어렵다는 평가가 나온 영어는 93점으로 1등급 수준의 점수였고, 국어는 70점 초반대로 3등급 수준이었다.

제미나이는 챗GPT와 비슷하게 수학에서 높은 정답률을 보였지만, 국어 점수는 하위권 수준에 머물렀다.

총점이 가장 낮은 모델은 퍼플렉시티였다. 퍼플렉시티는 시험 도중 갑자기 답변을 하지 않는 등 오류가 자주 발생하며 정확한 시험 시간을 측정할 수 없었다.

또한 시험 도중 인터넷 검색을 하는 등 수능 규정으로 보면 부정행위에 해당하는 모습을 보이기도 했다.

나머지 3개 AI 모델은 모든 과목에서 시험을 15분 내로 끝내며 '초고속 문제 풀이' 능력을 보여줬다.

2년 전 '9등급'이던 GPT, 1등급 진입했지만…"4년제 합격 어려워"


AI가 수능 문제 풀어보니…1등은 챗GPT[연합뉴스]


입시 전문가는 이번 수능에서 어떤 모델도 4년제 대학 합격을 기대할 만큼의 성적을 거두지는 못했다고 평가했다.

임성호 종로학원 대표는 "국어·영어·수학 총점을 보면 소위 말하는 '인서울' 진입은 사실상 불가능하다"며 "상황에 따라 4년제 대학 합격도 쉽지 않은 점수"라고 평가했다.

특히 딥시크를 제외한 모델들이 국어 영역에서 부진한 모습을 보였다. 이 중 '언어와 매체' 선택과목에서 챗GPT 0점, 제미나이 4점, 딥시크 15점, 퍼플렉시티가 11점을 받는 등 전반적으로 부진했다.

임 대표는 "AI가 문제를 이해하고 논리적으로 정답을 고르는 과정 자체가 어려웠던 게 아닌가 싶을 정도로 국어에서 현저히 점수가 떨어진다"고 말했다.

이런 가운데 챗GPT는 수학 영역에서 최상위권을 노려볼 만한 점수를 기록했다. 임 대표는 "확률과 통계·미적분 모두 작년보다 어려웠음에도 불구하고 서울 주요 대학을 노릴만한 실력을 보여줬다"고 분석했다.

김시호 교수 연구팀도 챗GPT의 수학 성적이 2년 만에 '9등급 수준'에서 '1등급 수준'으로 도약한 점을 주목했다.

연구팀은 앞서 2023년 GPT-3.5 모델에게 2023년도 수능 국어· 수학·영어 문제를 풀게 했을 당시 공통 영역 6문제를 제외한 모든 문제를 틀려 17점을 받았다고 설명했다.

영어는 당시 듣기 16문항 중 14개, 독해 17문항 중 13개를 맞혀 총 82점을 획득해 올해 GPT-5가 받은 86점과 유사한 수준을 보였다.

연구팀의 김진혁 박사는 "문제 풀이 과정까지 분석해봐야 더 정확한 결론을 내릴 수 있지만, 이번 결과만 봤을 때 GPT-3.5 대비 GPT-5는 전반적인 성능이 향상됐다고 볼 수 있다"고 평가했다.

반면 국어 영역은 여전히 한계가 뚜렷하다고 분석했다. 김 박사는 "2023년 챗GPT의 국어 정답률은 34%, 올해는 42.8%로 오르긴 했다"며 "그러나 한국어 능력이 발전했다기보다 대형언어모델(LLM) 의 전반적인 성능 발전에 따른 자연스러운 상승으로 보인다"고 말했다.

고난도 수학 문제 다 틀린 AI…물리는 10점대


AI가 수능 문제 풀어보니…1등은 챗GPT[연합뉴스]


수험생들이 어려움을 느꼈을 고난도 수학 문항은 AI도 오답을 내는 등 쩔쩔매는 모습을 보였다.

EBS는 상위권과 최상위권을 구분하기 위한 문제로 공통과목 22번(수학Ⅰ)과 21번(수학Ⅱ), 확률과 통계 30번, 미적분 30번, 기하 30번을 꼽았다. 기하 29번도 입시업계에서는 변별력이 있는 문항으로 꼽혔다.

경우의 수를 구하는 확률과 통계 30번과 함수를 추론하는 미적분 30번은 새로운 유형의 문제는 아니지만 수험생들이 문제 풀이에 시간을 많이 소요했을 것으로 평가받았다.

타원과 포물선의 정의를 사용해 길이를 구하는 기하 29번은 익숙한 주제지만 수험생이 다소 어려움을 느끼는 4점 문항으로 꼽혔고, 벡터의 내적·연산에 관한 문제인 기하 30번은 가장 변별력이 있을 것으로 평가받았다.

AI 모델들은 챗GPT가 확률과 통계 30번 문제를 맞힌 것을 제외하고 이들 고난도 문제에서 모두 오답을 내놨다.


AI가 수능 문제 풀어보니…1등은 챗GPT[연합뉴스]


임 대표는 "기하 과목 자체가 이과 과목이고 30번 문제는 주관식에다가 고난도 문항에 해당하기 때문에 정답률이 낮은 편"이라며 "챗GPT가 다른 모델에 비해 수학 문제를 잘 풀긴 했지만, 의대 진학이 가능한 최상위권 수준은 아닌 것으로 보인다"고 평가했다.

연구팀도 AI 모델별로 수학 문제를 이해하는 데 차이가 있다고 분석했다.

김진혁 박사는 "AI 모델마다 문항 이해를 못 하는 부분이 조금씩 다르다. 딥시크는 표가 들어간 쉬운 수학 문제를 틀리기도 했는데, 문제 자체를 못 읽은 것으로 의심된다"며 "원래 실력은 이번에 받은 점수보다 더 나을 것으로 보이나, 문제를 읽는 것 또한 실력이라고 판단해 문제를 변형하진 않았다"고 말했다.

AI가 이미지나 복잡한 수식 자체를 어려워하는 경향도 보였다. 연구진이 올해 물리Ⅰ 영역을 AI 모델에게 풀게 해보니, 모든 AI가 50점 만점에 10점대 점수를 받았다.

챗GPT와 제미나이는 7문제를 맞추며 각각 19점, 17점을 기록했으며, 6문제를 맞춘 퍼플렉시티는 14점, 4문제를 맞춘 딥시크는 10점을 기록했다.

국내 학업 능력 약한 AI모델…언어·문화적 제약


AI가 수능 문제 풀어보니…1등은 챗GPT[연합뉴스]


각종 분야에서 '전문가 수준'이라 평가받는 AI 모델들이 왜 유독 수능에 약한 모습을 보일까.

주된 원인으로는 '언어·문화적 제약'이 꼽힌다. AI 모델은 개발 단계에서부터 특정 능력(추론, 요약, 대화 등)들을 집중적으로 학습하는 과정을 거친다.

미국 등 해외 기업이 AI 모델을 개발할 경우 한국어 능력은 상대적으로 후순위에 밀리면서 국내 학업 능력이 떨어질 수밖에 없다는 것이다.

해외에서도 유사한 결과가 나온 연구들이 있다.

중국 저장대 연구팀이 지난 3월 공개한 '법률추론을 위한 테스트타임 스케일링 LLM 평가' 논문에 따르면 딥시크는 중국어로 된 법률 추론에서 오픈AI의 o1-preview를 제치고 가장 높은 성능을 보였다.

AI 개발국에 따른 언어와 문화 차이가 AI 모델에도 영향을 끼치는 것이다.

여기에 상위권과 최상위권을 가르기 위한 난도 높은 문항이 곳곳에 배치된 수능 특성상, 수능은 AI에게 더욱 까다로운 시험이 될 수밖에 없다.

네이버클라우드와 카이스트가 발표한 '한국 교육 표준을 이용한 멀티모달 생성형 AI 평가' 논문에서도 AI 모델들은 수능 문제를 어려워하는 것으로 나타났다.

논문에 따르면 GPT-4o, 제미나이 1.5 프로, 하이퍼클로바X, 클로드 3.5 소네트가 고등 검정고시에서 최고 90%대까지 높은 정확도를 기록했지만, 수능 문제 정확도는 50% 초반에서 60% 중반으로 떨어졌다.

다만 검정고시와 수능 등 국내 학업 능력 시험으로 구성된 자체 시험에서는 한국어 기반 모델인 LG AI 연구원 '엑사원'이 상대적으로 높은 성적을 보이며 차별화된 모습을 보였다.

김시호 교수는 "AI 모델들이 굉장히 발전했지만, 국어에서 여전히 약한 모습을 보이는 등 우리가 생각하는 아주 높은 수준의 문제까지는 해결 못 하는 것으로 보인다"며 "이러한 점에서 국내서 시도하는 소버린(주권) AI 개발에서 수능이 좋은 지표로 활용될 수 있을 것 같다"고 말했다.
 



▶ "월 30만원 수당에 건강보다 새벽배송 선택…규제 필요"▶ "'팔꿈치 가격' 호날두, 징계 수위 관심…" 월드컵 첫 경기 결장?▶ "AI가 수능 문제 풀어보니…" 1등은 챗GPT▶ "충실한 조치 요구" 국민연금, 하이트진로 '공개' 중점관리…▶ "서학개미, 거품론에도 엔비디아 등 빅테크주 '줍줍'"



추천 비추천

7

고정닉 0

11

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 취미 부자여서 결혼 못 할 것 같은 스타는? 운영자 26/01/19 - -
16715 "3억이 떨어졌어요" 서울 아파트라 영끌해서 집 샀다가 피눈물 '이 동네' 전망 나남뉴스갤로그로 이동합니다. 01.23 22 0
16714 "지옥이 따로 없어요" 1억에 내놔도 안 팔린다는 시니어 타운 '이 동네' 전망 나남뉴스갤로그로 이동합니다. 01.23 15 0
16713 "삼성전자 놓쳤으면 이거 사세요" 아직 저점 바닥이라는 '이 종목' 투자 전망 [1] 나남뉴스갤로그로 이동합니다. 01.23 14 0
16712 "우린 로또 필요 없어요" 2달만에 8억→17억 폭등한 서울 '이 아파트' 전망 분석 나남뉴스갤로그로 이동합니다. 01.23 22 0
16711 "이제 한 채도 안전지대 아닙니다" 정부가 꺼낸 '똘똘한 한 채' 카드 전망 나남뉴스갤로그로 이동합니다. 01.23 29 0
16710 "지금 안 사면 끝인가요?" 코스피 5000에 멘붕 온 개인투자자들 전망 보니 나남뉴스갤로그로 이동합니다. 01.23 105 0
16709 "2026년 한해 코스피 오를까…" 오른다 45% VS 내린다 25% 나남뉴스갤로그로 이동합니다. 01.23 32 0
16708 "두쫀쿠 가격 1천∼2천원 '껑충'…" 호텔까지 뛰어들었다 [24] 나남뉴스갤로그로 이동합니다. 01.23 1514 3
16707 "환율·가계부채" 전문가가 꼽은 최대 금융 위험요인은… [1] 나남뉴스갤로그로 이동합니다. 01.23 20 0
16706 "금값 4천900달러 돌파…" 은값은 100달러 코앞 나남뉴스갤로그로 이동합니다. 01.23 12 0
16705 "카페에서 핸드크림 발랐다가 퇴장당했다" 대체 무슨 일? [20] 나남뉴스갤로그로 이동합니다. 01.23 2033 6
16704 "비만 있으면 치매 위험 증가…고혈압이 주요 위험 요인" 나남뉴스갤로그로 이동합니다. 01.23 18 0
16703 "서·연·고 신입생 3명 중 1명은 서울 출신…" 서울대는 36% 나남뉴스갤로그로 이동합니다. 01.23 20 0
16702 "연말정산 부양가족 소득금액 살펴야…" 의료비는 실 지출분만 나남뉴스갤로그로 이동합니다. 01.23 12 0
16701 "국민연금, '수익률 1%p'의 마법으로 기금 고갈 7년 늦춘다" 나남뉴스갤로그로 이동합니다. 01.23 41 0
16700 "다주택자 절세매물 나올까…" 李대통령 언급에 시장 반응 주목 나남뉴스갤로그로 이동합니다. 01.23 35 0
16699 "1억을 깎아줘도 안 사요" KTX 바로 앞인데도 눈물의 할인분양 '이 아파트' 전망 나남뉴스갤로그로 이동합니다. 01.22 46 0
16698 "완전 초상집 분위기예요" 재건축으로 17억→30억 됐는데 뒤엎어진 '이 아파트' 나남뉴스갤로그로 이동합니다. 01.22 25 0
16697 "우린 돈받고 재건축해요" 분담금은 커녕 3억 받는다는 서울 '이 아파트' 전망 나남뉴스갤로그로 이동합니다. 01.22 69 0
16696 "마지막 남은 물량 텁니다" 최소 5억 벌 수 있는 강남 로또 '이 아파트' 전망 분석 나남뉴스갤로그로 이동합니다. 01.22 18 0
16695 "'서학개미' 양도세 신고 50만명 돌파…" 1인당 차익 2천800만원 나남뉴스갤로그로 이동합니다. 01.22 26 0
16694 "29억→52억원은 돼야" 로또 당첨금 눈높이 1년새 껑충?… [1] 나남뉴스갤로그로 이동합니다. 01.22 20 0
16693 "1년새 94% 폭락" 트럼프 밈코인 열기 어디로… 나남뉴스갤로그로 이동합니다. 01.22 14 0
16692 "트럼프 또 타코"…한국·일본·대만 증시 일제히 상승 나남뉴스갤로그로 이동합니다. 01.22 20 0
16691 "확정 사안 아냐, 적극 소명" 차은우, '200억 탈세' 의혹에... 나남뉴스갤로그로 이동합니다. 01.22 14 0
16690 "왜 나만"…대형주 쏠림에 개미들은 '울상' 나남뉴스갤로그로 이동합니다. 01.22 32 0
16689 "대출·카드발급 가능" 소액연체 다 갚은 292.8만명 '신용사면'… 나남뉴스갤로그로 이동합니다. 01.22 17 0
16688 "분실시 문제 등 해소" 중고생도 '엄카' 대신 가족카드 쓴다… 나남뉴스갤로그로 이동합니다. 01.22 16 0
16687 "주말까지 강추위…" 금요일에도 아침 최저 -19도 한파 지속 나남뉴스갤로그로 이동합니다. 01.22 15 0
16686 "코스피, '꿈의 지수' 5,000 터치 후 4,950대 마감…" 코스닥 상승 나남뉴스갤로그로 이동합니다. 01.22 37 0
16685 "누가 이렇게 오를 줄 알았나" 주가 400% 폭등한 일본 '이 기업' 전망 분석 나남뉴스갤로그로 이동합니다. 01.21 89 0
16684 "개미가 터니까 오르네" 다 끝난줄 알았는데 52주 신고가 찍은 '이 종목' 전망 나남뉴스갤로그로 이동합니다. 01.21 86 0
16683 "한강뷰인데 사람들이 몰라요" 아직 6억원으로 매입 가능한 서울 '이 아파트' 나남뉴스갤로그로 이동합니다. 01.21 35 0
16682 "정답이 이미 나와 있잖아요" 유명 부동산 전문가가 콕 집은 서울 '이 동네' 집값 나남뉴스갤로그로 이동합니다. 01.21 18 0
16681 "어머, 어떻게 이 가격이?" 시세보다 6억 대폭 하락한 서울 '이 아파트' 경매 전망 나남뉴스갤로그로 이동합니다. 01.20 25 0
16680 "가슴이 떨리네요" 5억→20억 폭등 기대되는 서울 재개발 '이 동네' 전망 분석 [5] 나남뉴스갤로그로 이동합니다. 01.20 855 3
16679 "우리동네 첫 래미안이예요" 드디어 분양하는 서울 지하철역 5분거리 '이 아파트' 나남뉴스갤로그로 이동합니다. 01.20 104 0
16678 "서울만 바라본다면 바보" 전문가가 내놓은 무시무시한 '2026 부동산 전망' 분석 나남뉴스갤로그로 이동합니다. 01.20 40 0
16677 "눈물로 포기합니다" 작년 가장 뜨거웠던 경기도 '이 아파트' 84㎡ 무순위 줍줍 나남뉴스갤로그로 이동합니다. 01.19 23 0
16676 "과천이랑 맞먹는데 아무도 몰라요" 강남까지 20분 걸리는 '이 지역' 전망 분석 [1] 나남뉴스갤로그로 이동합니다. 01.19 39 0
16675 "준강남이 찐강남 넘어섰다" 무섭도록 오르는 경기도 '이 지역' 아파트 전망 [4] 나남뉴스갤로그로 이동합니다. 01.19 1219 3
16674 "일단 계약금이 천만원이잖아요" 귀한 서울 신축인데 가성비 분양가 '이 아파트' 나남뉴스갤로그로 이동합니다. 01.19 64 0
16673 "과천, 판교는 한물갔죠" 5주 연속 전국 1위 집값 상승률 찍은 '이 지역' 전망 [1] 나남뉴스갤로그로 이동합니다. 01.18 72 0
16672 "제2의 엔비디아는 이거죠" 향후 10년 이상 글로벌 자본 집결하는 '이 종목'  [6] 나남뉴스갤로그로 이동합니다. 01.18 1111 0
16671 "일주일만에 20% 올랐다니까요" 증권가도 놀란 개인투자자의 선택 '이 종목' 전망 나남뉴스갤로그로 이동합니다. 01.18 101 0
16670 "은퇴거지는 될 수 없지" 직장인 뭉칫돈 싸들고 우르르 몰려든 '이 종목' 전망 나남뉴스갤로그로 이동합니다. 01.18 53 0
16669 "일회용품 10개 중 6개는 다시 돌아왔다" 제주, 보증금제 계속 간다 [10] 나남뉴스갤로그로 이동합니다. 01.17 1643 1
16668 "술 마시면 따뜻해진다?…" 한랭질환 부르는 위험한 착각 나남뉴스갤로그로 이동합니다. 01.17 40 0
16667 "오픈AI, 미국서 챗GPT에 광고 도입…" 무료·저가요금제에 적용 나남뉴스갤로그로 이동합니다. 01.17 45 0
16666 "'오천피' 향한 거침없는 질주에 증시 대기자금도 급증" 나남뉴스갤로그로 이동합니다. 01.17 45 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2