디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격

aimatters갤로그로 이동합니다. 2025.11.06 18:23:30
조회 10050 추천 11 댓글 69
														


메릴랜드 대학교와 UMass Amherst 연구진이 26개 언어로 대형 언어 모델의 긴 맥락 처리 능력을 평가한 원룰러(OneRuler) 벤치마크를 공개했다. 해당 연구 논문에 따르면, 한국어는 26개 언어 중 22위로 하위권에 머물렀으며, 맥락 길이가 늘어날수록 성능 저하가 더욱 심각해지는 것으로 나타났다. 폴란드어가 1위를 차지한 가운데, 영어조차 6위에 그쳤다는 점에서 언어별 성능 격차가 예상을 뛰어넘는다.



한국어 성능 22위... 폴란드어는 1위

연구진이 6만 4천~12만 8천 토큰 길이의 긴 맥락 과제를 평가한 결과, 한국어는 26개 언어 중 22위를 기록했다. 원룰러 벤치마크의 니들 인 헤이스택(NIAH) 과제 평가에서 한국어는 중국어, 타밀어, 스와힐리어, 세소토어와 함께 하위권에 속했다. 흥미롭게도 폴란드어가 평균 정확도 88%로 1위를 차지했고, 영어는 83.9%로 6위에 머물렀다. 중국어는 62.1%로 하위 4위를 기록했다. 대부분의 AI 모델이 영어와 중국어 데이터로 주로 학습된다는 점을 고려하면 이는 매우 의외의 결과다. 상위 10개 언어는 대부분 슬라브어, 로망스어, 게르만어 계통으로 위키피디아 문서 수가 많고 라틴 문자를 사용하는 언어들이었다.





맥락 8K→128K로 늘면 언어 격차 3배 확대

맥락 길이가 8천 토큰일 때 상위 5개 언어와 하위 5개 언어 간 정확도 차이는 11%에 불과했다. 그러나 맥락이 12만 8천 토큰으로 늘어나자 이 격차는 34%로 세 배 이상 확대됐다. 한국어는 위키피디아 문서 수 기준으로 약 70만 개를 보유해 공식적으로는 저자원 언어로 분류되지 않지만, 실제 평가에서는 하위권에 머물렀다. 논문에서 저자원 언어로 정의한 힌디어, 세소토어, 스와힐리어, 타밀어는 모두 하위 6위 안에 포함됐으며, 짧은 맥락에서도 어려움을 겪었고 긴 맥락에서는 성능 저하가 더욱 두드러졌다. 연구진은 이러한 현상이 긴 맥락 확장 학습 데이터에서 비영어권 언어가 부족하기 때문으로 추정한다. 제미나이 1.5 플래시(Gemini 1.5 Flash)와 큐엔 2.5 72B(Qwen 2.5 72B)만이 12만 8천 토큰에서도 비교적 우수한 성능을 보였다.



한국어 지시문 사용하면 성능 20% 하락

연구진은 지시문과 맥락의 언어가 다른 교차 언어 시나리오를 영어, 폴란드어, 한국어 3개 언어로 테스트했다. 영어 맥락에 한국어 지시문을 사용하면 6만 4천 토큰 기준 평균 정확도가 91%에서 71%로 20% 하락했다. 반대로 한국어 맥락에 영어 지시문을 사용하면 12만 8천 토큰 기준 정확도가 61%에서 77%로 향상됐다. 폴란드어 지시문을 사용했을 때도 유사하게 향상됐다. 이는 지시 언어의 선택이 전체 성능에 최대 20%의 차이를 만들 수 있음을 보여준다. 현재로서는 한국어 지시문보다 영어 지시문을 사용하는 것이 더 나은 결과를 제공할 수 있다.



'답이 없다' 선택지만 추가해도 o3-미니 성능 32% 급락

연구진은 기존 니들 인 헤이스택(NIAH) 과제에 '답이 존재하지 않을 수 있음'이라는 선택지를 추가했다. 이 간단한 변경만으로 o3-미니-하이(o3-mini-high) 모델의 경우 영어 기준 12만 8천 토큰에서 정확도가 32% 하락했다. 모든 모델이 답이 실제로 존재함에도 불구하고 '없음'으로 잘못 응답하는 경우가 빈번했다. 특히 o3-미니-하이는 다른 모델들에 비해 '없음' 오답을 훨씬 더 많이 생성했다. 제미나이 1.5 플래시도 일부 고자원 언어에서 상당한 수의 '없음' 오류를 보였다. 중국어에 특화된 큐엔(Qwen) 모델도 중국어 단일 NIAH 과제에서 다수의 '없음' 오류를 생성했다.



단어 빈도 집계는 모든 모델이 실패

단어 빈도 추출(Common Word Extraction, CWE) 과제에서는 모든 모델이 고전했다. 가장 빈번한 단어 10개를 찾는 쉬운 버전에서 영어 평균 정확도는 31.5%에 불과했다. 빈도 차이를 줄인 어려운 버전에서는 모든 모델이 1% 미만의 정확도를 기록했다. 라마 3.3 70B(Llama 3.3 70B), 큐엔 2.5 72B, 제미나이 1.5 플래시 세 모델만이 8천 토큰에서 80% 이상의 성능을 달성했지만, 맥락 길이가 늘어나면서 급격히 하락했다. o3-미니-하이와 딥시크-R1(Deepseek-R1)은 이 과제에서 설정된 최대 출력 토큰 한도를 초과하는 경우가 빈번했으며, 틀린 답변을 생성할 때 정답보다 훨씬 더 많은 추론 토큰을 사용했다.



다국어 AI의 한계

이번 연구는 현재 대형 언어 모델들이 다국어, 특히 비영어권 언어의 긴 맥락 처리에서 상당한 한계를 가지고 있음을 보여준다. 한국어를 포함한 많은 언어가 짧은 맥락에서는 비교적 괜찮은 성능을 보이지만, 실제 업무에서 자주 필요한 긴 문서 처리에서는 크게 뒤처진다. 연구진은 원룰러 벤치마크 공개를 통해 다국어 및 교차 언어 긴 맥락 학습 파이프라인 개선 연구가 활성화되기를 기대한다고 밝혔다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 한국어가 이렇게 낮은 성능을 보이는 이유는 무엇인가요?

A. 연구진은 긴 맥락 확장 학습 데이터의 부족을 주요 원인으로 지목했습니다. 대부분의 AI 모델은 영어와 중국어를 중심으로 학습되며, 한국어는 위키피디아 문서 수가 약 70만 개로 중간 수준이지만 긴 맥락 학습에는 충분한 데이터가 제공되지 않은 것으로 보입니다. 긴 맥락 처리 능력이 언어 간에 쉽게 전이되지 않는다는 점도 영향을 미쳤습니다.

Q. 니들 인 헤이스택(NIAH) 과제는 무엇인가요?

A. 긴 문서 속에 특정 정보('바늘')를 숨기고 AI 모델이 이를 찾아낼 수 있는지 테스트하는 과제입니다. 실제 문서 요약이나 질의응답 과제를 평가하기 어렵고 비용이 많이 들기 때문에, 긴 맥락 처리 능력을 측정하는 대용 지표로 널리 사용됩니다. 한국어 계약서에서 특정 조항을 찾거나, 긴 회의록에서 결정 사항을 추출하는 실무 작업과 유사합니다.

Q. 왜 영어보다 폴란드어가 더 높은 성능을 보였나요?

A. 명확한 이유는 밝혀지지 않았지만, 위키피디아 문서 수가 많고 라틴 문자를 사용하는 슬라브어, 로망스어, 게르만어 계통 언어들이 상위권을 차지했습니다. 단순한 데이터양보다는 언어 계통, 사용 문자, 그리고 긴 맥락 학습 파이프라인에서의 언어별 처리 방식이 복합적으로 영향을 미친 것으로 추정됩니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: One ruler to measure them all: Benchmarking multilingual long-context language models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

11

고정닉 0

8

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 관리 맡기고 싶은 재태크 고수 같은 스타는? 운영자 26/01/12 - -
1907 애플, AI 시리에 구글 제미나이 선택... "가장 뛰어난 기술" aimatters갤로그로 이동합니다. 01.13 25 0
1906 앤트로픽, 일반인용 코딩 AI '코워크' 출시... 일상 업무에 활용 가능 aimatters갤로그로 이동합니다. 01.13 14 0
1905 "회의 끝나자마자 PPT 완성"... 마누스, 대면 회의용 AI 기능 출시 aimatters갤로그로 이동합니다. 01.13 13 0
1904 젠슨 황 "이제 AI 안 쓰면 일자리 뺏긴다" 경고 [16] aimatters갤로그로 이동합니다. 01.13 1316 4
1903 [신간] "최고의 프롬프트는 '나'"... AI 시대 직업인 생존법 담은 『일을 위한 디자인』 aimatters갤로그로 이동합니다. 01.13 13 0
1902 오픈AI, 오디오 기기 '스위트피' 개발 중… 올해 9월 출시 목표 aimatters갤로그로 이동합니다. 01.13 7 0
1901 AI로 공부하면 머리 나빠진다?... OECD가 밝힌 AI 교육의 명암 [12] aimatters갤로그로 이동합니다. 01.13 1030 2
1900 2030년 일자리의 운명... 세계경제포럼이 경고한 AI 시대 네 가지 시나리오 aimatters갤로그로 이동합니다. 01.13 21 0
1899 KAIST, 2년 내 치매 발병 가능성 예측하는 AI 개발... "진료기록만 주면 끝" aimatters갤로그로 이동합니다. 01.13 8 0
1898 [1월 13일 AI 뉴스 브리핑] 오핌디지털, 영상 생성 AI '씬트' 쇼케이스 개최 외 aimatters갤로그로 이동합니다. 01.13 5 0
1897 앤트로픽, 챗GPT이어 건강 관리 AI 서비스 출시… 의료 현장 AI 활용 본격화 aimatters갤로그로 이동합니다. 01.12 29 0
1896 "저 엄지, AI 아냐?"... 닌텐도, 마케팅 사진에 AI 사용 의혹 [15] aimatters갤로그로 이동합니다. 01.12 1876 1
1895 챗GPT에 '취업' 탭 추가되나... 오픈AI, 구직 지원 기능 ‘jobs’ 테스트 중 aimatters갤로그로 이동합니다. 01.12 37 0
1894 한국, AI 도입 속도 세계 1위... MS "지브리 스타일 이미지 열풍 영향 커" aimatters갤로그로 이동합니다. 01.12 53 0
1893 "AI 보안 강화했더니 비용은 40분의 1로"… 앤트로픽, 탈옥 방어 신기술 공개 aimatters갤로그로 이동합니다. 01.12 30 0
1892 AI 유머 취향 분석했더니... ‘긴 글’과 ‘은어’ 좋아해 aimatters갤로그로 이동합니다. 01.12 23 0
1891 "불가능할 줄 알았는데"... 대학 최고 난이도 수학 시험, AI가 12문제 완벽 증명 aimatters갤로그로 이동합니다. 01.12 25 0
1890 [1월 12일 AI 뉴스 브리핑] 플래티어, 롯데홈쇼핑 에이전틱 AI 플랫폼 1개월 만에 구축 외 aimatters갤로그로 이동합니다. 01.12 16 0
1889 구글-캐릭터AI, 10대 자살 소송 합의... "챗봇이 죽음 부추겨" aimatters갤로그로 이동합니다. 01.09 68 0
1888 구글 "지메일, AI 비서로 진화"... 제미나이 탑재로 이메일 자동 정리·작성   aimatters갤로그로 이동합니다. 01.09 40 0
1887 일론 머스크 "AI·로봇 때문에 모든 물건 가격 떨어진다… 아니면 국가 파산할 것" aimatters갤로그로 이동합니다. 01.09 52 0
1886 일론 머스크 "지금 대학 갈 이유 모르겠다… AI가 개인 교사될 것" [34] aimatters갤로그로 이동합니다. 01.09 2460 17
1885 지원자는 AI로 자소서 쓰고, 기업은 AI로 평가… 2026년 AI 채용 트렌드 분석 aimatters갤로그로 이동합니다. 01.09 85 0
1884 남성은 쓰고 여성은 망설인다... AI 격차가 만들 새로운 '성별 격차'  aimatters갤로그로 이동합니다. 01.09 78 0
1883 저소득 국가, AI 시대에 낙오 위기... OECD "생산성 격차 2배로 벌어질 것" aimatters갤로그로 이동합니다. 01.09 37 0
1882 [1월 9일 AI 뉴스 브리핑] 레노버, 2026 FIFA 월드컵 AI 솔루션 공개 외 aimatters갤로그로 이동합니다. 01.09 20 0
1881 오픈AI, 건강 관리 AI '챗GPT 헬스' 출시... 개인 맞춤형 의료 상담해준다 [1] aimatters갤로그로 이동합니다. 01.08 574 2
1880 미국 유타주, AI 처방전 발급 허용… 의사 없어도 약 받는다 aimatters갤로그로 이동합니다. 01.08 46 0
1879 AI로 음식에 파리 합성해 환불..? 배달앱 대상 사기 급증 [29] aimatters갤로그로 이동합니다. 01.08 2998 16
1878 일론 머스크 "의대 갈 필요 없어… 3년 안에 로봇이 최고 외과의 능가" aimatters갤로그로 이동합니다. 01.08 83 0
1877 이제 잠만 자도 질병 예측 가능? 스탠퍼드 AI, 하룻밤 수면으로 130가지 병 찾아낸다 [5] aimatters갤로그로 이동합니다. 01.08 1077 5
1876 일론 머스크 "올해 AGI 도달할 것… 현재 AI로 화이트칼라 절반 이상 대체 가능" [1] aimatters갤로그로 이동합니다. 01.08 122 0
1875 AI, 처음으로 일본 변호사 시험 합격... 96점으로 합격선 93점 돌파 aimatters갤로그로 이동합니다. 01.08 74 0
1874 [1월 8일 AI 뉴스 브리핑] 레노버, PC·스마트폰 연동하는 AI 에이전트 공개 외 aimatters갤로그로 이동합니다. 01.08 114 0
1873 AI 시대, 두뇌에 투자하면 6.2조 달러 번다... WEF·맥킨지 보고서 aimatters갤로그로 이동합니다. 01.08 45 0
1872 메타, AI 안경에 텔레프롬프터 기능 추가… 손가락 필기로 메시지 전송까지 [1] aimatters갤로그로 이동합니다. 01.07 1076 3
1871 국내 첫 정부공인 AI 자격증 나왔다… SK AX ‘생성형AI 활용 자격증’ 정부 공인 획득 [20] aimatters갤로그로 이동합니다. 01.07 2532 6
1870 아마존, AI 챗봇 '알렉사+' 웹 버전 공개… 챗GPT처럼 사용 가능 aimatters갤로그로 이동합니다. 01.07 30 0
1869 챗GPT 전체 대화 5%가 건강 상담... 오픈AI, 챗GPT 의료 활용 보고서 공개 aimatters갤로그로 이동합니다. 01.07 79 0
1868 “답변 40% 작성 시점에 오답 예측”… AI 스스로 오류 검증하는 기술 등장 aimatters갤로그로 이동합니다. 01.07 57 1
1867 챗GPT 독주 끝났나… 제미나이에 밀려 트래픽 22% 급락 [38] aimatters갤로그로 이동합니다. 01.07 4207 25
1866 [1월 7일 AI 뉴스 브리핑] 레노버, CES서 하이브리드 AI 포트폴리오 대거 공개 외 aimatters갤로그로 이동합니다. 01.07 37 0
1865 '하나로 다 되는' AI 등장... 이미지-영상 생성·편집 동시에 처리한다 aimatters갤로그로 이동합니다. 01.07 56 0
1864 [1월 5일 AI 뉴스 브리핑] 엘솔루, 국내 최초 GS 인증 AI 번역기 출시 외 aimatters갤로그로 이동합니다. 01.06 26 0
1863 [CES 2026] 현대차, 아틀라스에 제미나이 로보틱스 탑재… 2028년 공장 투입한다 aimatters갤로그로 이동합니다. 01.06 34 0
1862 [CES 2026] 엔비디아, '생각'하며 운전하는 자율주행 AI '알파마요' 공개 aimatters갤로그로 이동합니다. 01.06 105 0
1861 삼성전자, 제미나이 탑재 기기 1년 만에 2배 확대… 올해 8억대 목표 aimatters갤로그로 이동합니다. 01.06 202 0
1860 AI가 정부 업무 생산성 52% 높인다... 액센츄어 "5대 핵심 영역부터 시작하라" aimatters갤로그로 이동합니다. 01.06 36 0
1859 스위스 시계 장인 손동작까지 3D 기록... 명품 브랜드, AI로 '사라지는 기술' 보존 나섰다 aimatters갤로그로 이동합니다. 01.06 35 0
1858 제약회사들, AI로 신약개발 기간 절반으로 줄이고 비용 30% 아꼈다 aimatters갤로그로 이동합니다. 01.06 50 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2