디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

성능은 '제법', 실사용은 '글쎄'··· 사용자 평가 엇갈리는 GPT-5

IT동아갤로그로 이동합니다. 2025.08.11 17:55:52
조회 2834 추천 1 댓글 0
[IT동아 남시현 기자] 기대치가 높으면 실망도 큰 법이다. 지난 8일 오픈AI가 새로운 AI 모델인 GPT-5를 정식 공개했다. GPT-5는 직전까지 비추론 모델인 GPT-4.5와 추론 모델인 o 시리즈로 나뉘어있던 라인업을 하나로 합친 모델로, 추론 기능을 내장해 신뢰성과 정확성이 크게 향상됐다. 틀린 대답을 생성하는 환각 현상을은 줄고, 코딩과 글쓰기, 헬스케어 등의 활용도가 훨씬 좋아졌다. 하지만 출시 후 첫 주말을 보낸 후 사용자들의 평가는 다소 엇갈리고 있다.


오픈AI는 지난 8일 추론 및 비추론 모델이 통합된 GPT-5를 공개했다 / 출처=오픈AI



샘 알트만 오픈AI CEO는 출시를 앞두고 “박사급 전문가 팀을 주머니 속에 둔 것과 같다”라며 인공 일반지능 달성을 위한 중요한 진전이 있었다고 발언했고, 닉 털리(Nick Turley) 오픈AI 챗GPT 부문 부사장도 “새로운 모델은 지금까지 출시된 모델 중 가장 똑똑하고 빠르며, 더욱 자연스럽고 인간적인 대화 스타일을 제공할 것”이라며 시장의 기대치를 한껏 높여놨다.

성능 측면에서는 코딩 성능을 크게 강화한 덕분에 깃허브 난제를 해결하는 SWE-벤치 베리파이드에서 전작인 GPT-4o가 30.8%의 정확도를 기록할 때 GPT-5는 74.9%를 기록했고, o3 대비 도구 호출은 45%, 출력 토큰도 22% 절감하는 등 성능과 효율이 모두 올랐다. 환각 발생률도 GPT-4o 대비 약 45% 감소했고, 모르는 문제에 대해서는 지어내지 않고 모른다고 답변하는 등의 기능도 적용됐다. 그럼에도 불구하고 실사용자들의 평가가 엇갈리는 이유는 무엇일까?

GPT-5, 기술적인 진보와 성능 향상 이뤘나


현재 생성형 AI 언어 모델의 성능을 확인하는 방법으로는 벤치마크가 쓰인다. 언어모델에 추론이나 논리가 필요한 어려운 문제를 제시하고 얼마나 정확하게 해석하고 맞추는지를 가늠한다. 어려운 문제를 맞히는 것 만으로 언어모델의 실사용 성능이나 효용성까지 모두 확인할 수는 없지만, 각 모델의 성능을 가장 단순하고 변별력 있게 구분할 수 있는 방법이다.


시계 방향으로 GPQA 다이아몬드 테스트, AIME 2025 테스트, SWE 벤치마크, 폴리글롯 벤치마크, 할루시네이션 등장 비율 / 출처=오픈AI



GPT-5는 도구 사용과 코딩 능력에서 큰 진보를 이뤘다. 우선 성능 향상을 위해 도구 호출 성능을 강화했다. 두 달 전 발표된 T2-벤치 텔레콤 벤치마크의 경우 지금까지 49% 이상의 점수를 받은 모델이 없다. 이 벤치마크는 언어모델이 도구를 사용 중이면서 사용자와 소통할 때 언어 성능이 저하되는 현상을 집중적으로 파고드는데, GPT-4.1이 34%, o3가 58%일 때 GPT-5는 97%를 획득했다. 즉 도구를 불러오면서 대화를 인식하는 성능 저하가 거의 발생하지 않는다는 의미다.

대수학, 기하학, 수론, 조합론 등이 포함된 수학 추론 능력 테스트인 AIME 2025 벤치마크에서 도구 없이 94.6%의 정확성을 기록했고, GPT-5 프로 모델이 파이썬 도구를 활용했을 때 정확도는 100%에 달했다. 전 세대인 o3가 도구를 사용했을 때의 정확도는 98.4%, GPT-4o는 도구를 써도 정확도가 42.1%에 불과하다.

448개의 대학원급 생물학, 물리학, 화학 문제로 구성된 GPQA 다이아몬드 테스트는 GPT-5 프로가 도구 사용 시 89.4%의 정확성을, GPT-5가 도구 없는 조건에서도 85.7%의 정확성을 기록했다. GPT-4o는 도구 없이 70.1%의 정확성을 보여준다. 즉 기본 무료 모델을 사용해도 이공계열 대학원생 수준의 질문까지는 상당히 높은 정확도로 대답한다.

다국어 코드 편집 성능을 확인하는 에이다 폴리글롯(Aidar Polyglot)은 o3가 79.6%, GPT-4o가 25.8% 일 때 GPT-5는 88%의 정확도를 보여줬다. 오류 비율은 o3 대비 3분의 1로 감소했다. 또한 커서, 윈드서프, 깃허브 코파일럿, 코덱스 CLI같은 에이전트 기반 코딩에서 원활한 성능을 내도록 조정됐다. API 사용 시 입력 가능한 토큰은 최대 27만 2000개의 입력 토큰을 허용하며, 최대 12만 8000개의 추론 및 출력 토큰을 내놓는다. 사용 가능한 콘텍스트의 길이는 40만 개로 매우 길어졌다.

그간 GPT의 효용성을 떨어뜨린 환각 발생률은 GPT-4o 대비 약 45%가 감소했으며, 심층 추론 모드를 활용하면 1%까지 감소한다. 실제 사람에게 미치는 영향이 큰 건강 관련 질의로 구성된 헬스벤치에서도 환각률은 1.6%로 GPT-4o의 12.9%보다 크게 낮아졌다. 오픈AI는 모르면 지어서라도 얘기했던 이전 모델들과 달리 모른다고 답변하도록 기능을 개선했다.


GPT-5를 활용해 3분 만에 실제 웹페이지를 설계하고 확인하는 코드를 생성했다. 다만 홈페이지의 유지 보수나 향후 지속 가능성 등을 고려한 결과는 아니다. 이런 부분에서 실제 성능과 괴리가 있다 / 출처=오픈AI



다만 벤치마크 점수는 모델의 기술적 성능을 객관적으로 표기하는 지표일 뿐, 실제 작업 환경에서의 실용적 가치와 인식 능력까지 평가하는 수단이 아니다. 예를 들어 SWE-벤치 베리파이드 벤치마크의 경우 ‘특정 코드 오류를 수정한 것이 잘 작동하는지’를 평가할 뿐 생성된 코드를 유지보수하거나 다른 사용자가 지속 가능하게 쓸 수 있는지, 팀의 코딩 표준을 준수했는지 같은 내용까지 고려하진 않는다. 특히나 벤치마크의 성능은 전문 영역에서 체감이 크기 때문에 수많은 실사용자들 사이에서의 의견이 엇갈리는 것이다.

이미 시작된 GPT-5 코딩 전쟁, ‘단 한 줄로 게임까지 생성’



오픈AI는 GPT-5를 통해 단 한줄로 프로그램을 만들 수 있다고 소개했다. 실제로 주말 사이 많은 개발자들이 GPT-5를 활용해 다양한 프로그램을 개발하고 배포한 바 있다 / 출처=오픈AI



GPT-5의 성능을 간단히 체감할 수 있는 부분이 코딩이다. 이미 GPT-5를 활용해 반응형 웹사이트나 앱, 3D 게임 등을 직접 구현하는 사례가 나오고 있다. 유튜버 ‘바룬 마야(Varun Mayya)’는 게시물을 통해 트위터 형태의 앱을 GPT-5 코딩으로 제작하는 법, 고객관계관리(CRM) 성립 및 실패 코드 구축, 2D 게임 만들기, 웹사이트 구축 방법 등 코딩에 대한 간단한 이해가 있는 경우에 만들 수 있는 도입 사례를 소개했다. 레딧의 특이점 서브레딧 페이지에는 GPT-5의 테스트 버전으로 추정되는 ‘호라이즌 알파’를 활용해 마인크래프트를 코딩으로 구현하는 사례가 등장하기도 했다.


GPT-5를 끌어다 쓰는데 드는 비용, 전작 대비 두 배 가까이 저렴해졌다 / 출처=오픈AI



전작에 비해 가격대가 저렴해진 점도 개발자들이 반기는 부분이다. GPT-5 API는 코딩 및 에이전트 작업에 최적화된 GPT-5, 잘 정의된 작업을 위한 저렴한 모델인 GPT-5 mini, 요약 및 분류 등의 가벼운 작업을 위한 GPT-5 nano 모델로 나뉜다. 이중 핵심 모델인 GPT-5의 가격은 입력 100만 토큰당 1.25달러(1735원), 출력 100만 토큰당 10달러(1만 3894원)다.

전작인 GPT-4o가 입력 100만 토큰당 5달러(6947원), 출력 100만 토큰당 15달러(2만 841원)인 점과 비교해도 절반 가까운 가격이고, 경쟁사의 최신 모델인 앤스로픽 클로드 오퍼스 4.1이 입력 100만 토큰당 15달러, 출력 100만 토큰당 75달러(10만 4205원)인 점과 비교하면 7분의 1 가격이다. 효율이나 성능을 배재하더라도 대규모 활용 시의 큰 이점이 있다.

소문난 잔치에 왜 질문에 제대로 대답해주는 AI가 없나



GPT-5는 질문 유형에 따라 세 가지 모델이 실시간 라우터의 결정에 따라 자동으로 선택된다. 무료 이용자는 사용자가 이를 선택할 수 없게 출시됐다 / 출처=오픈AI



실사용자들 사이에서는 GPT-5의 체감 성능이 전작보다 못하다는 얘기가 나온다. 이전까지는 GPT-4o, o3, o-mini 등으로 사용자가 직접 모델을 선택해서 써야했다. GPT-5부터는 ‘실시간 라우터’ 기능을 통해 질의응답을 구분하고 자동으로 최적의 모델을 선택한다. 따라서 간단한 질문은 자동으로 GPT-5 Mini, nano 등이 동원되고, 고급 질문은 GPT-5나 추론 기능이 포함된 Thinking 기능이 사용되는 식이다. 또한 환각 감소 및 아첨을 줄이기 위한 안전 완성(Safe-completions)이 적용된다.


해외 이용자들 사이에서 GPT-5에 대한 악평이 이어지고 있다 / 출처=레딧



문제는 첫날부터 사용자 질문에 따라 모델을 결정하는 실시간 라우터가 제대로 동작하지 않았다. GPT-5로 답변해야할 고급 질문을 GPT-5 Mini가 답변하는 등의 문제가 발생했고, 많은 사용자들이 GPT-5의 실질 성능에 의문을 제기했다. 또한 LLM의 구조적 특징 중 하나인 학습된 내용과 실제 응답의 활용 범위가 달라 발생하는 분포이동이 발생하면 추론 능력이 급격히 저하되는 경우도 보고됐으며, 앞서 추론 모드로 답변을 했다가 이후 비추론 모델이 동작했을 때 결과 응답이 원활하지 않아 성능이 저하되는 등의 문제도 확인됐다.


오픈AI 개발자 커뮤니티를 비롯해 다양한 개발자 포럼에서 GPT-5에 대한 오류나 불만 사항이 계속 보고되고 있다 / 출처=오픈AI



실제 사용 환경에서는 많은 사용자들이 영문과 한국어를 혼용해서 대답하는 경우를 접하거나, GPT-5가 사용자에게 역으로 질문하는 등의 문제를 겪었다. GPT-5의 지식 마감일이 1년 전인 작년 9월 30일인 점도 아쉬움으로 남는다. 오픈AI는 주말 사이 GPT-5의 실시간 라우터에 문제가 있었음을 인정하고, 향후 어떤 모델이 답변했는지 알 수 있도록 조치하겠다고 밝혔다. 또한 유료 고객들을 상대로 GPT-4o 재사용을 검토하고 사용량 제한도 늘리겠다고 발표했지만, 근본적인 사용성이 바뀌는 것은 아니어서 사용자들의 불만은 당분간 이어질 전망이다.

GPT-5 가이드 발표한 오픈AI, 향후 행방은?



오픈AI는 ‘Cookbook’ 페이지를 통해 새 모델이 나올 때마다 전문가를 위한 가이드북을 공개해왔다. 이제는 일반 사용자용 가이드도 필요한 시점이라고 본다 / 출처=오픈AI



GPT-5에 대한 평가는 한 편의 예술영화 같다. 평론가 평점은 잘 나오지만 반대로 관객 평점은 낮은 그런 상황이다. 실질적으로 문제 해결 능력과 성능은 올랐음에도 일반 사용자들을 위한 질문이나 이해 능력은 크게 체감하기 어렵다. 오픈AI는 ‘똑똑한 사람에게는 똑똑하게 질문해야 하는 법’이라는 논리로 프롬프트 가이드, GPT-5를 사용한 코딩 방법, 도구 활용 및 전환 방법 등을 연달아 공개하며 사용자 활용도 높이기에 나섰다. 실제로 사용자가 질문을 구체적이고 정확하게 제공할수록 LLM이 더 세밀하고 정확하게 대답한다. 하지만 사용자가 적당히 질문해도 좋은 대답을 하도록 설계했어야 하지 않을까?

오픈AI의 새로운 모델은 출시할 때마다 삐걱거렸다. 장점으로 부각된 경우도 많았지만 별로라는 부분도 많았다. 특히 차세대 모델은 GPT-4o, 4.1, 4.5, o3, o3-mini-high처럼 파편화하지 않겠다고 했지만, 정작 GPT-5에 GPT-5 mini, nano, Thinking, Thinking-mini, Thinking-Pro 등 또다시 다양한 모델로 나누고 사용자가 이를 선택할 수 없도록 하는 등 사용자에 대한 배려가 부족한 모습도 보인다. GPT-5가 인공 일반지능에 가깝다거나, GPT-5를 전후로 세상이 바뀔 것이라는 말에는 다소 과장이 있었지만, 어쨌든 모델 자체의 성능이 출중한 것은 사실이다. 다음 모델이 나오기 전까지 어떤 성과를 낼 수 있을지는 지켜볼 일이다.

IT동아 남시현 기자 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ AI 프로젝트의 80%는 실패, '렛서'가 제시하는 구축·운영의 비책은?▶ [스타트업-ing] 바이버 “전문가 보증으로 신뢰 높인 명품 시계거래 플랫폼”▶ SKT 에이닷 4.0으로 보는 최근 AI 업계의 추구 방향은?



추천 비추천

1

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 시구, 시축 했다가 이미지가 더 나빠진 스타는? 운영자 25/08/11 - -
5683 “이것은 영상인가 게임인가” 구글 지니3가 보여준 파격 행보 [1] IT동아갤로그로 이동합니다. 08.12 67 0
5682 [자동차와 法] 사례로 살펴보는 교통사고 법적 진실과 실체적 진실의 차이 [1] IT동아갤로그로 이동합니다. 08.12 61 0
5681 키엘연구원 "AR 3D HUD 화질 저하 막고 고품질 제품 양산 도울 국제표준 개발" [1] IT동아갤로그로 이동합니다. 08.12 3204 0
5680 [서울과기대 x 글로벌 뉴스] 코르카 "연구자를 위한 AI 동료, 여기 있습니다" IT동아갤로그로 이동합니다. 08.12 43 0
5679 [스타트업을 위한 회계·세무] 스톡옵션 행사하면 세금은 얼마나 낼까? [1] IT동아갤로그로 이동합니다. 08.12 79 0
성능은 '제법', 실사용은 '글쎄'··· 사용자 평가 엇갈리는 GPT-5 IT동아갤로그로 이동합니다. 08.11 2834 1
5677 [주간투자동향] 퓨리오사AI, 1700억 원 규모 시리즈C 브릿지 투자 유치 外 IT동아갤로그로 이동합니다. 08.11 5916 0
5676 가상자산 거래소, 테마 지수·분할 주문 등 ‘거래 편의 기능’ 추가 IT동아갤로그로 이동합니다. 08.08 356 0
5675 AI 프로젝트의 80%는 실패, '렛서'가 제시하는 구축·운영의 비책은? [3] IT동아갤로그로 이동합니다. 08.08 7857 0
5674 [스타트업-ing] 바이버 “전문가 보증으로 신뢰 높인 명품 시계거래 플랫폼” IT동아갤로그로 이동합니다. 08.08 292 0
5673 [투자를IT다] 2025년 8월 1주차 IT기업 주요 소식과 시장 전망 IT동아갤로그로 이동합니다. 08.08 293 0
5672 SKT 에이닷 4.0으로 보는 최근 AI 업계의 추구 방향은? IT동아갤로그로 이동합니다. 08.08 227 0
5671 [농업이 IT(잇)다] 코트그린 "친환경 코팅기술로 노지 농업 스마트화 실현" IT동아갤로그로 이동합니다. 08.08 214 0
5670 [서울과기대 x 글로벌 뉴스] 픽스업헬스 “미국 재활치료 모니터링 시장의 새 기준 만들 것” IT동아갤로그로 이동합니다. 08.07 256 0
5669 "서울시민도 제주서 책 빌린다" 책이음 하나로 전국 도서관 이용 가능 IT동아갤로그로 이동합니다. 08.07 2502 2
5668 [IT애정남] 단톡방 방장이 갑자기 나간 경우, 어떻게 하면 되나요? [3] IT동아갤로그로 이동합니다. 08.07 8267 0
5667 [퀀텀 스타트업] 8. '실행'하는 정부가 만드는 양자 경쟁력 우위 IT동아갤로그로 이동합니다. 08.07 227 0
5666 성장하는 한국 반도체 스타트업, '서울대 SIPC'의 숨은 노력 있었다 IT동아갤로그로 이동합니다. 08.07 264 0
5665 최용석 서경대 교수 “K팝 데몬 헌터스, 韓 콘텐츠 산업 성찰 계기 삼아야” [4] IT동아갤로그로 이동합니다. 08.07 2809 1
5664 [리뷰] 360도 카메라의 새로운 기준, DJI 오즈모 360 IT동아갤로그로 이동합니다. 08.07 223 0
5663 [SBA x IT동아] “아내 설거지하는 모습서 영감” 리빙크리에이터, 한국형 이케아 꿈꾼다 IT동아갤로그로 이동합니다. 08.06 296 0
5662 BMW 수입차 독주 체제 강화…벤츠와 격차 5720대로 확대 IT동아갤로그로 이동합니다. 08.06 260 0
5661 [주간스타트업동향] TEN “한국 포함, 세계 창업 협력 모델 만들고파” 外 IT동아갤로그로 이동합니다. 08.06 224 0
5660 예금 보호 한도 “5000만 원에서 1억 원”으로 확대, 어떤 예금이 보호받을까? IT동아갤로그로 이동합니다. 08.06 297 0
5659 [ETF Q&A] 퇴직연금으로 투자하는 TDF ETF는 무엇인가요? IT동아갤로그로 이동합니다. 08.06 7068 0
5658 [리뷰] 존재감 발군의 게이밍 노트북, 에이수스 ROG 스트릭스 G18 IT동아갤로그로 이동합니다. 08.06 262 0
5657 6년 만에 공개 모델 내놓은 오픈AI, gpt-oss에 깔린 의도는 순수할까 IT동아갤로그로 이동합니다. 08.06 2610 0
5656 산불·산사태 신고부터 실시간 정보까지 한눈에…스마트산림재난 앱 IT동아갤로그로 이동합니다. 08.05 280 0
5655 반도체 수출 비중 높은 대한민국, 상호 관세 이어 반도체 품목 관세 파도 넘어야 IT동아갤로그로 이동합니다. 08.05 372 0
5654 S2W “IPO 딛고 세계 빅데이터 분석 AI 기업으로” [1] IT동아갤로그로 이동합니다. 08.05 458 0
5653 관세 타결...최악은 피했지만 여전히 과제 남은 車 업계 IT동아갤로그로 이동합니다. 08.05 2371 0
5652 닻 올린 '한국형 AI'··· 각 컨소시엄 구성과 목표, 그리고 해외 동향은 [10] IT동아갤로그로 이동합니다. 08.05 6646 1
5651 [신차공개] 현대차 ‘더 뉴 아이오닉 6’·’2026 ST1’ 출시 IT동아갤로그로 이동합니다. 08.04 303 0
5650 리벨리온, 마벨과 전략적 관계··· '수요 맞춤형 반도체 설계'로 소버린AI 시장 공략 IT동아갤로그로 이동합니다. 08.04 282 0
5649 궁금한 제품 정보 당장 알고 싶다면? 네이버 ‘스마트렌즈 x AI 브리핑’ IT동아갤로그로 이동합니다. 08.04 255 0
5648 카방 “자동차 이전등록 시 의무보험 가입 필수” 소화기 증정 이벤트 진행 IT동아갤로그로 이동합니다. 08.04 247 0
5647 보안이 필요한 중요문서, 안전하게 전송할 땐 이렇게! [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 08.04 334 0
5646 [리뷰] ‘무난히 좋은 노트북’의 미덕, 에이수스 비보북 S16(M3607KA) [8] IT동아갤로그로 이동합니다. 08.04 10383 2
5645 [생활 속 IT] “범죄 악용 NO” 안전하게 지하철 물품 보관하려면 또타라커 앱 IT동아갤로그로 이동합니다. 08.01 7990 1
5644 [투자를IT다] 2025년 7월 5주차 IT기업 주요 소식과 시장 전망 IT동아갤로그로 이동합니다. 08.01 7499 1
5643 [농업이IT(잇)다] 그린씨드 “유통 관리 플랫폼으로 생산부터 유통까지 데이터 기반 농업 구축할 것” IT동아갤로그로 이동합니다. 08.01 356 0
5642 [크립토퀵서치] 거래소의 가상자산 대여 서비스, 금융당국이 우려하는 이유는? [1] IT동아갤로그로 이동합니다. 08.01 7664 1
5641 [리뷰] AI·고연산 처리에 최적, AMD 라이젠 스레드리퍼 9980X IT동아갤로그로 이동합니다. 08.01 408 0
5640 유튜브는 왜 인급동을 없앴을까? [10] IT동아갤로그로 이동합니다. 08.01 3936 1
5639 [동국대 캠퍼스타운 2025] 모먼트컬처, 통합형 전시 기술로 미디어아트 새 역사 쓴다 IT동아갤로그로 이동합니다. 08.01 317 0
5638 [생성 AI 길라잡이] 교사들이 직접 만든 생성 AI 기반 교육 플랫폼 ‘우리 아이(AI)’ IT동아갤로그로 이동합니다. 08.01 324 0
5637 “AI 반도체는 GPU 대안 아닌 새로운 방향··· 메모리 접근해 LPU 차별화” IT동아갤로그로 이동합니다. 07.31 415 0
5636 [스케일업] 릿툰 [1] 도영민 대표 “서비스 시작 전, 안정적인 사업 구조를 구축하라” IT동아갤로그로 이동합니다. 07.31 393 0
5635 [스케일업] 퍼슬리 [1] 케어닥 “사업의 도구와 본질 구분하고, 성장 단계별 목표 세워라” IT동아갤로그로 이동합니다. 07.31 374 0
5634 [서울과기대 초창패 2025] 하이퍼센트 “백룸 시리즈로 글로벌 게임 시장에 도전장” IT동아갤로그로 이동합니다. 07.31 303 0
뉴스 정동원, 박진영과 ‘집대성’ 출연! “신곡 비하인드와 세대 공감 토크” 디시트렌드 08.11
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2