"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격

aimatters

2025.11.06 18:23:30

조회 10184 추천 11 댓글 69

메릴랜드 대학교와 UMass Amherst 연구진이 26개 언어로 대형 언어 모델의 긴 맥락 처리 능력을 평가한 원룰러(OneRuler) 벤치마크를 공개했다. 해당 연구 논문에 따르면, 한국어는 26개 언어 중 22위로 하위권에 머물렀으며, 맥락 길이가 늘어날수록 성능 저하가 더욱 심각해지는 것으로 나타났다. 폴란드어가 1위를 차지한 가운데, 영어조차 6위에 그쳤다는 점에서 언어별 성능 격차가 예상을 뛰어넘는다.

한국어 성능 22위... 폴란드어는 1위

연구진이 6만 4천~12만 8천 토큰 길이의 긴 맥락 과제를 평가한 결과, 한국어는 26개 언어 중 22위를 기록했다. 원룰러 벤치마크의 니들 인 헤이스택(NIAH) 과제 평가에서 한국어는 중국어, 타밀어, 스와힐리어, 세소토어와 함께 하위권에 속했다. 흥미롭게도 폴란드어가 평균 정확도 88%로 1위를 차지했고, 영어는 83.9%로 6위에 머물렀다. 중국어는 62.1%로 하위 4위를 기록했다. 대부분의 AI 모델이 영어와 중국어 데이터로 주로 학습된다는 점을 고려하면 이는 매우 의외의 결과다. 상위 10개 언어는 대부분 슬라브어, 로망스어, 게르만어 계통으로 위키피디아 문서 수가 많고 라틴 문자를 사용하는 언어들이었다.

맥락 8K→128K로 늘면 언어 격차 3배 확대

맥락 길이가 8천 토큰일 때 상위 5개 언어와 하위 5개 언어 간 정확도 차이는 11%에 불과했다. 그러나 맥락이 12만 8천 토큰으로 늘어나자 이 격차는 34%로 세 배 이상 확대됐다. 한국어는 위키피디아 문서 수 기준으로 약 70만 개를 보유해 공식적으로는 저자원 언어로 분류되지 않지만, 실제 평가에서는 하위권에 머물렀다. 논문에서 저자원 언어로 정의한 힌디어, 세소토어, 스와힐리어, 타밀어는 모두 하위 6위 안에 포함됐으며, 짧은 맥락에서도 어려움을 겪었고 긴 맥락에서는 성능 저하가 더욱 두드러졌다. 연구진은 이러한 현상이 긴 맥락 확장 학습 데이터에서 비영어권 언어가 부족하기 때문으로 추정한다. 제미나이 1.5 플래시(Gemini 1.5 Flash)와 큐엔 2.5 72B(Qwen 2.5 72B)만이 12만 8천 토큰에서도 비교적 우수한 성능을 보였다.

한국어 지시문 사용하면 성능 20% 하락

연구진은 지시문과 맥락의 언어가 다른 교차 언어 시나리오를 영어, 폴란드어, 한국어 3개 언어로 테스트했다. 영어 맥락에 한국어 지시문을 사용하면 6만 4천 토큰 기준 평균 정확도가 91%에서 71%로 20% 하락했다. 반대로 한국어 맥락에 영어 지시문을 사용하면 12만 8천 토큰 기준 정확도가 61%에서 77%로 향상됐다. 폴란드어 지시문을 사용했을 때도 유사하게 향상됐다. 이는 지시 언어의 선택이 전체 성능에 최대 20%의 차이를 만들 수 있음을 보여준다. 현재로서는 한국어 지시문보다 영어 지시문을 사용하는 것이 더 나은 결과를 제공할 수 있다.

'답이 없다' 선택지만 추가해도 o3-미니 성능 32% 급락

연구진은 기존 니들 인 헤이스택(NIAH) 과제에 '답이 존재하지 않을 수 있음'이라는 선택지를 추가했다. 이 간단한 변경만으로 o3-미니-하이(o3-mini-high) 모델의 경우 영어 기준 12만 8천 토큰에서 정확도가 32% 하락했다. 모든 모델이 답이 실제로 존재함에도 불구하고 '없음'으로 잘못 응답하는 경우가 빈번했다. 특히 o3-미니-하이는 다른 모델들에 비해 '없음' 오답을 훨씬 더 많이 생성했다. 제미나이 1.5 플래시도 일부 고자원 언어에서 상당한 수의 '없음' 오류를 보였다. 중국어에 특화된 큐엔(Qwen) 모델도 중국어 단일 NIAH 과제에서 다수의 '없음' 오류를 생성했다.

단어 빈도 집계는 모든 모델이 실패

단어 빈도 추출(Common Word Extraction, CWE) 과제에서는 모든 모델이 고전했다. 가장 빈번한 단어 10개를 찾는 쉬운 버전에서 영어 평균 정확도는 31.5%에 불과했다. 빈도 차이를 줄인 어려운 버전에서는 모든 모델이 1% 미만의 정확도를 기록했다. 라마 3.3 70B(Llama 3.3 70B), 큐엔 2.5 72B, 제미나이 1.5 플래시 세 모델만이 8천 토큰에서 80% 이상의 성능을 달성했지만, 맥락 길이가 늘어나면서 급격히 하락했다. o3-미니-하이와 딥시크-R1(Deepseek-R1)은 이 과제에서 설정된 최대 출력 토큰 한도를 초과하는 경우가 빈번했으며, 틀린 답변을 생성할 때 정답보다 훨씬 더 많은 추론 토큰을 사용했다.

다국어 AI의 한계

이번 연구는 현재 대형 언어 모델들이 다국어, 특히 비영어권 언어의 긴 맥락 처리에서 상당한 한계를 가지고 있음을 보여준다. 한국어를 포함한 많은 언어가 짧은 맥락에서는 비교적 괜찮은 성능을 보이지만, 실제 업무에서 자주 필요한 긴 문서 처리에서는 크게 뒤처진다. 연구진은 원룰러 벤치마크 공개를 통해 다국어 및 교차 언어 긴 맥락 학습 파이프라인 개선 연구가 활성화되기를 기대한다고 밝혔다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 한국어가 이렇게 낮은 성능을 보이는 이유는 무엇인가요?

A. 연구진은 긴 맥락 확장 학습 데이터의 부족을 주요 원인으로 지목했습니다. 대부분의 AI 모델은 영어와 중국어를 중심으로 학습되며, 한국어는 위키피디아 문서 수가 약 70만 개로 중간 수준이지만 긴 맥락 학습에는 충분한 데이터가 제공되지 않은 것으로 보입니다. 긴 맥락 처리 능력이 언어 간에 쉽게 전이되지 않는다는 점도 영향을 미쳤습니다.

Q. 니들 인 헤이스택(NIAH) 과제는 무엇인가요?

A. 긴 문서 속에 특정 정보('바늘')를 숨기고 AI 모델이 이를 찾아낼 수 있는지 테스트하는 과제입니다. 실제 문서 요약이나 질의응답 과제를 평가하기 어렵고 비용이 많이 들기 때문에, 긴 맥락 처리 능력을 측정하는 대용 지표로 널리 사용됩니다. 한국어 계약서에서 특정 조항을 찾거나, 긴 회의록에서 결정 사항을 추출하는 실무 작업과 유사합니다.

Q. 왜 영어보다 폴란드어가 더 높은 성능을 보였나요?

A. 명확한 이유는 밝혀지지 않았지만, 위키피디아 문서 수가 많고 라틴 문자를 사용하는 슬라브어, 로망스어, 게르만어 계통 언어들이 상위권을 차지했습니다. 단순한 데이터양보다는 언어 계통, 사용 문자, 그리고 긴 맥락 학습 파이프라인에서의 언어별 처리 방식이 복합적으로 영향을 미친 것으로 추정됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: One ruler to measure them all: Benchmarking multilingual long-context language models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

고정닉 0

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	주변 사람 잘 챙기고 인맥 관리 잘 할 것 같은 스타는?	운영자	26/03/30	-	-
2303	소프트뱅크, 오픈AI에 2차 100억 달러 투자금 납입... 총 투자 계획 순항	aimatters	13:28	1	0
2302	오픈AI, 대학생 대상 '코덱스 크리에이터 챌린지' 개최... AI 크레딧 100달러 지원	aimatters	13:28	1	0
2301	앤트로픽 클로드 코드, npm 소스맵 오류로 소스코드 51만 줄 노출	aimatters	13:28	1	0
2300	음성 AI의 역설: 접근성 높아지자 성차별도 함께 증가했다	aimatters	03.31	11	0
2299	강바닥 모래와 자갈, AI가 레이저로 구분한다: 헬기 띄워 3차원 지도 완성	aimatters	03.31	9	0
2298	AI 건강 챗봇, 쏟아지지만… "효과 검증은 아직"	aimatters	03.31	8	0
2297	메타, AI 학습 데이터 토렌트 사용 혐의 소송서 대법원 판결 방패 삼아 반격	aimatters	03.31	10	0
2296	앤트로픽 광란의 3월… 한 달 14개 이상 업데이트 발표	aimatters	03.31	10	0
2295	"AI가 내 상사라고요?" 미국인 15%, AI 직속 상관 수용 의사 밝혀	aimatters	03.31	8	0
2294	보험 산업이 AI로 재편되는 이유, 처리 속도 40% 단축이 만든 격변	aimatters	03.31	7	0
2293	TTA, 전문가에서 대학생까지 차세대 AI 핵심 인재 발굴의 장 열다	aimatters	03.31	6	0
2292	ChatGPT, 월 광고 수익 1억 달러 돌파…4월 셀프서브 광고 플랫폼 출시	aimatters	03.31	11	0
2291	델 테크놀로지스, AI 시대 기업용 PC 전면 혁신…'델 프로' 신제품 10종 한꺼번에 쏟아냈다	aimatters	03.30	21	0
2290	앤트로픽 경제 지수, AI 혜택은 이미 불평등하게 분배되고 있다	aimatters	03.30	18	0
2289	챗봇은 죽었다, 2026년 AI가 고객 경험을 완전히 다시 쓰는 5가지 방법	aimatters	03.30	1346	2
2288	AI가 결제 버튼을 대신 누르는 시대, 결제 산업은 어떻게 바뀌나	aimatters	03.30	19	0
2287	유튜브 추천 AI가 광고 수익까지 챙긴다, 구글이 공개한 '돈 버는 추천 알고리즘'	aimatters	03.30	17	0
2286	앤트로픽, 차원이 다른 성능 차세대 AI 모델 '클로드 미토스' 유출	aimatters	03.30	25	0
2285	앤트로픽 클로드 유료 구독자, 2026년 들어 두 배 이상 급증	aimatters	03.30	17	0
2284	“안경도 카메라 달린 펜도 아니다” 전 애플 디자이너가 만드는 AI 인터페이스의 비밀	aimatters	03.30	18	0
2283	오픈AI가 SORA를 접으며 준비한 것은 피지컬 AI와 '스퍼드(Spud)'	aimatters	03.30	19	0
2282	코딩 몰라도 내 챗봇 뚝딱… 제미나이·클로드·챗GPT 한 권에 담았다	aimatters	03.27	102	0
2281	시리에서 챗GPT∙클로드∙제미나이 쓴다...iOS 27에서 AI 어시스턴트 개방 [2]	aimatters	03.27	994	1
2280	기존보다 50배 빠른 AI 영상 화질 개선 기술이 실시간 처리 시대를 열다 [2]	aimatters	03.27	611	0
2279	AI가 단백질과 약물의 궁합을 예측해 신약 개발 판도를 바꾼다	aimatters	03.27	69	0
2278	유튜브 영상 5만개 보고 가위질 배운 AI 로봇	aimatters	03.27	86	0
2277	앤트로픽 클로드, 마우스·키보드까지 직접 조종…'컴퓨터 유즈' 기능 공개	aimatters	03.27	78	0
2276	제미나이, 타 AI 챗 히스토리 업로드 기능으로 챗GPT에서 이사할 수 있는 기능 출시	aimatters	03.27	68	0
2275	쇼피파이, AI 에이전트 스토어프런트 출시...챗GPT에서 즉시 구매 가능	aimatters	03.27	68	0
2274	유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다	aimatters	03.26	96	0
2273	유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다	aimatters	03.26	84	0
2272	AI 패권 전쟁의 진짜 승부처는 알고리즘이 아닌 반도체 공급망	aimatters	03.26	82	0
2271	AI가 기업 리스크 관리의 판도를 바꾼다, HBR이 밝힌 GRC 혁신의 실체	aimatters	03.26	83	0
2270	EBS도 AI 물들었다…2026년 봄, 죽은 철학자가 말을 걸어온다	aimatters	03.26	80	0
2269	"기획부터 개발까지 90% 단축"…원티드랩, AI 에이전트용 디자인 시스템 '몽타주' 공개	aimatters	03.26	83	0
2268	애플 시리, 구글 제미나이로 탈바꿈 - iOS 26.5에 탑재, WWDC서 공식 공개 예정	aimatters	03.26	81	0
2267	챗GPT 쇼핑 기능 전면 개편 - 인스턴트 결제 포기하고 상품 탐색에 집중	aimatters	03.26	75	0
2266	구글 제미나이, 다크웹 하루 1000만 건 분석... AI 위협 인텔리전스 서비스 출시	aimatters	03.26	87	0
2265	클로드, 전 세계 동시 장애 발생 - 앤트로픽, 수시간 만에 복구 완료	aimatters	03.26	76	0
2264	구글, AI 모델 압축 기술 터보퀀트 공개 - 성능 손실 없이 모델 크기 절반으로	aimatters	03.26	76	0
2263	ARM, AGI 시대 겨냥한 첫 자체 AI 칩 공개 - 데이터센터용 CPU·GPU 직접 설계	aimatters	03.26	73	0
2262	원고 넣으면 3분 만에 책 한 권 뚝딱…루미너리북스, AI가 내지 디자인까지 자동화	aimatters	03.26	79	0
2261	8만 명이 AI에게 원하는 것은 더 나은 삶이었다	aimatters	03.25	25	0
2260	AI가 일자리를 빼앗는다는 말, 데이터로 따져보니 범인은 따로 있었다 [3]	aimatters	03.25	1055	0
2259	AI 가전 쓰고 싶은데 왜 점점 더 불안해질까, 소비자 심리의 역전	aimatters	03.25	27	0
2258	오픈AI, 소라(Sora) 비디오 앱 종료...생성형 AI 전략 선회	aimatters	03.25	24	0
2257	"AI야, 네가 할 수 있어?" 묻고 나서 답한다… 애피어, '역량 캘리브레이션' 기술 공개	aimatters	03.25	25	0
2256	오픈AI 재단, 생명공학 분야 10억 달러 규모 자선 프로그램 발표	aimatters	03.25	19	0
2255	갭, 구글 제미나이 내 직접 결제 기능 통합...AI 쇼핑 시대 개막	aimatters	03.25	28	0
2254	TV에 질문하고 학습한다… 구글 TV, 제미나이 AI로 스포츠·뉴스·교육 강화	aimatters	03.25	20	0