디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격

aimatters갤로그로 이동합니다. 2025.11.06 18:23:30
조회 10000 추천 10 댓글 69
														


메릴랜드 대학교와 UMass Amherst 연구진이 26개 언어로 대형 언어 모델의 긴 맥락 처리 능력을 평가한 원룰러(OneRuler) 벤치마크를 공개했다. 해당 연구 논문에 따르면, 한국어는 26개 언어 중 22위로 하위권에 머물렀으며, 맥락 길이가 늘어날수록 성능 저하가 더욱 심각해지는 것으로 나타났다. 폴란드어가 1위를 차지한 가운데, 영어조차 6위에 그쳤다는 점에서 언어별 성능 격차가 예상을 뛰어넘는다.



한국어 성능 22위... 폴란드어는 1위

연구진이 6만 4천~12만 8천 토큰 길이의 긴 맥락 과제를 평가한 결과, 한국어는 26개 언어 중 22위를 기록했다. 원룰러 벤치마크의 니들 인 헤이스택(NIAH) 과제 평가에서 한국어는 중국어, 타밀어, 스와힐리어, 세소토어와 함께 하위권에 속했다. 흥미롭게도 폴란드어가 평균 정확도 88%로 1위를 차지했고, 영어는 83.9%로 6위에 머물렀다. 중국어는 62.1%로 하위 4위를 기록했다. 대부분의 AI 모델이 영어와 중국어 데이터로 주로 학습된다는 점을 고려하면 이는 매우 의외의 결과다. 상위 10개 언어는 대부분 슬라브어, 로망스어, 게르만어 계통으로 위키피디아 문서 수가 많고 라틴 문자를 사용하는 언어들이었다.





맥락 8K→128K로 늘면 언어 격차 3배 확대

맥락 길이가 8천 토큰일 때 상위 5개 언어와 하위 5개 언어 간 정확도 차이는 11%에 불과했다. 그러나 맥락이 12만 8천 토큰으로 늘어나자 이 격차는 34%로 세 배 이상 확대됐다. 한국어는 위키피디아 문서 수 기준으로 약 70만 개를 보유해 공식적으로는 저자원 언어로 분류되지 않지만, 실제 평가에서는 하위권에 머물렀다. 논문에서 저자원 언어로 정의한 힌디어, 세소토어, 스와힐리어, 타밀어는 모두 하위 6위 안에 포함됐으며, 짧은 맥락에서도 어려움을 겪었고 긴 맥락에서는 성능 저하가 더욱 두드러졌다. 연구진은 이러한 현상이 긴 맥락 확장 학습 데이터에서 비영어권 언어가 부족하기 때문으로 추정한다. 제미나이 1.5 플래시(Gemini 1.5 Flash)와 큐엔 2.5 72B(Qwen 2.5 72B)만이 12만 8천 토큰에서도 비교적 우수한 성능을 보였다.



한국어 지시문 사용하면 성능 20% 하락

연구진은 지시문과 맥락의 언어가 다른 교차 언어 시나리오를 영어, 폴란드어, 한국어 3개 언어로 테스트했다. 영어 맥락에 한국어 지시문을 사용하면 6만 4천 토큰 기준 평균 정확도가 91%에서 71%로 20% 하락했다. 반대로 한국어 맥락에 영어 지시문을 사용하면 12만 8천 토큰 기준 정확도가 61%에서 77%로 향상됐다. 폴란드어 지시문을 사용했을 때도 유사하게 향상됐다. 이는 지시 언어의 선택이 전체 성능에 최대 20%의 차이를 만들 수 있음을 보여준다. 현재로서는 한국어 지시문보다 영어 지시문을 사용하는 것이 더 나은 결과를 제공할 수 있다.



'답이 없다' 선택지만 추가해도 o3-미니 성능 32% 급락

연구진은 기존 니들 인 헤이스택(NIAH) 과제에 '답이 존재하지 않을 수 있음'이라는 선택지를 추가했다. 이 간단한 변경만으로 o3-미니-하이(o3-mini-high) 모델의 경우 영어 기준 12만 8천 토큰에서 정확도가 32% 하락했다. 모든 모델이 답이 실제로 존재함에도 불구하고 '없음'으로 잘못 응답하는 경우가 빈번했다. 특히 o3-미니-하이는 다른 모델들에 비해 '없음' 오답을 훨씬 더 많이 생성했다. 제미나이 1.5 플래시도 일부 고자원 언어에서 상당한 수의 '없음' 오류를 보였다. 중국어에 특화된 큐엔(Qwen) 모델도 중국어 단일 NIAH 과제에서 다수의 '없음' 오류를 생성했다.



단어 빈도 집계는 모든 모델이 실패

단어 빈도 추출(Common Word Extraction, CWE) 과제에서는 모든 모델이 고전했다. 가장 빈번한 단어 10개를 찾는 쉬운 버전에서 영어 평균 정확도는 31.5%에 불과했다. 빈도 차이를 줄인 어려운 버전에서는 모든 모델이 1% 미만의 정확도를 기록했다. 라마 3.3 70B(Llama 3.3 70B), 큐엔 2.5 72B, 제미나이 1.5 플래시 세 모델만이 8천 토큰에서 80% 이상의 성능을 달성했지만, 맥락 길이가 늘어나면서 급격히 하락했다. o3-미니-하이와 딥시크-R1(Deepseek-R1)은 이 과제에서 설정된 최대 출력 토큰 한도를 초과하는 경우가 빈번했으며, 틀린 답변을 생성할 때 정답보다 훨씬 더 많은 추론 토큰을 사용했다.



다국어 AI의 한계

이번 연구는 현재 대형 언어 모델들이 다국어, 특히 비영어권 언어의 긴 맥락 처리에서 상당한 한계를 가지고 있음을 보여준다. 한국어를 포함한 많은 언어가 짧은 맥락에서는 비교적 괜찮은 성능을 보이지만, 실제 업무에서 자주 필요한 긴 문서 처리에서는 크게 뒤처진다. 연구진은 원룰러 벤치마크 공개를 통해 다국어 및 교차 언어 긴 맥락 학습 파이프라인 개선 연구가 활성화되기를 기대한다고 밝혔다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 한국어가 이렇게 낮은 성능을 보이는 이유는 무엇인가요?

A. 연구진은 긴 맥락 확장 학습 데이터의 부족을 주요 원인으로 지목했습니다. 대부분의 AI 모델은 영어와 중국어를 중심으로 학습되며, 한국어는 위키피디아 문서 수가 약 70만 개로 중간 수준이지만 긴 맥락 학습에는 충분한 데이터가 제공되지 않은 것으로 보입니다. 긴 맥락 처리 능력이 언어 간에 쉽게 전이되지 않는다는 점도 영향을 미쳤습니다.

Q. 니들 인 헤이스택(NIAH) 과제는 무엇인가요?

A. 긴 문서 속에 특정 정보('바늘')를 숨기고 AI 모델이 이를 찾아낼 수 있는지 테스트하는 과제입니다. 실제 문서 요약이나 질의응답 과제를 평가하기 어렵고 비용이 많이 들기 때문에, 긴 맥락 처리 능력을 측정하는 대용 지표로 널리 사용됩니다. 한국어 계약서에서 특정 조항을 찾거나, 긴 회의록에서 결정 사항을 추출하는 실무 작업과 유사합니다.

Q. 왜 영어보다 폴란드어가 더 높은 성능을 보였나요?

A. 명확한 이유는 밝혀지지 않았지만, 위키피디아 문서 수가 많고 라틴 문자를 사용하는 슬라브어, 로망스어, 게르만어 계통 언어들이 상위권을 차지했습니다. 단순한 데이터양보다는 언어 계통, 사용 문자, 그리고 긴 맥락 학습 파이프라인에서의 언어별 처리 방식이 복합적으로 영향을 미친 것으로 추정됩니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: One ruler to measure them all: Benchmarking multilingual long-context language models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

10

고정닉 0

8

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 연말 모임 가는 곳마다 가장 인싸일 것 같은 스타는? 운영자 25/12/08 - -
1764 오픈AI, 'GPT-5.2' 공개... “제미나이3 보다 성능 좋아” aimatters갤로그로 이동합니다. 12.12 6 0
1763 디즈니, 오픈AI에 1조 투자… 소라로 캐릭터 AI 영상 제작 허용 aimatters갤로그로 이동합니다. 12.12 44 0
1762 생성형 AI 사용자 1년 만에 2배 급증… 뉴스 제작엔 여전히 ‘회의적’ aimatters갤로그로 이동합니다. 12.12 7 0
1761 "하루 1시간씩 AI와 산다"... Z세대 70% 챗GPT 세대 입증, 신뢰도는 72%→58% 급락 aimatters갤로그로 이동합니다. 12.12 4 0
1760 AI 성공 비결은 기술 아닌 '사람'... 맥킨지가 밝힌 기업의 진짜 ‘AI 경쟁력’ aimatters갤로그로 이동합니다. 12.12 6 0
1759 [12월 12일 AI 뉴스 브리핑] 애피어, ‘AI 에이전트 로드쇼’ 성료… ROI 향상을 위한 최신 AI 마케팅 솔루션 공개 외 aimatters갤로그로 이동합니다. 12.12 29 0
1758 '올해 최악 광고' 비난 받은 맥도날드 AI 크리스마스 광고, 결국 삭제 aimatters갤로그로 이동합니다. 12.11 47 0
1757 "AI로 만들었습니다" 표시 의무화… 한국 정부, AI 생성물 의무 표시제 도입 aimatters갤로그로 이동합니다. 12.11 82 0
1756 미국 국방부, 직원들에 구글 제미나이 전면도입… "전쟁의 미래는 AI" aimatters갤로그로 이동합니다. 12.11 25 0
1755 어도비, 챗GPT에 포토샵 통합… "말만 하면 전문가급 편집" aimatters갤로그로 이동합니다. 12.11 47 0
1754 AI 작곡 시대 개막... 13만 곡 분석했더니 "사람 노래와 구분 불가" aimatters갤로그로 이동합니다. 12.11 213 1
1753 챗GPT로 공부하면 성적 오를까? 대학생들 실제로 챗GPT 어떻게 사용하나 봤더니 [1] aimatters갤로그로 이동합니다. 12.11 206 0
1752 AI 페르소나로 진행한 연구들, 믿을 수 있을까?... “10건 중 6건이 부실” aimatters갤로그로 이동합니다. 12.11 15 0
1751 [12월 11일 AI 뉴스 브리핑] SKAI인텔리전스·코바코·EBS, AI 광고 제작 협력 체계 구축 외 aimatters갤로그로 이동합니다. 12.11 19 0
1750 구글 코리아, 대학생이 뽑은 제미나이 활용법 12선 공개 aimatters갤로그로 이동합니다. 12.10 248 0
1749 오픈AI, 챗GPT 안에서 배우는 AI 인증 과정 출시... "AI 기술자 50% 더 번다" aimatters갤로그로 이동합니다. 12.10 33 0
1748 구글, 2026년 첫 AI 안경 출시… 화면 없는 모델·인-렌즈 디스플레이 탑재 [20] aimatters갤로그로 이동합니다. 12.10 1575 3
1747 미국 10대 10명 중 6명 'AI 챗봇 쓴다'... 유튜브·틱톡 넘어 새 일상으로 aimatters갤로그로 이동합니다. 12.10 43 0
1746 연봉 격차가 AI 격차로... 퍼플렉시티-하버드, AI 에이전트 사용 연구 결과 공개 [2] aimatters갤로그로 이동합니다. 12.10 1481 0
1745 AI가 코드 짰다고 솔직히 말하면 손해볼까?... 깃허브 1만 4천 건 분석 결과는 '의외' aimatters갤로그로 이동합니다. 12.10 54 0
1744 [12월 10일 AI 뉴스 브리핑] 챗GPT, 2025년 한국에서 가장 많이 성장한 앱 1위 외 aimatters갤로그로 이동합니다. 12.10 41 0
1743 한국인 10명 중 7명 "AI 써봤다"… 챗GPT 독주 속 '공짜 AI 시대' 열렸다 aimatters갤로그로 이동합니다. 12.09 60 0
1742 "내 사진에 AI로 옷 입혀보고 바로 구매"… 구글 패션 앱 '도플' 업데이트 aimatters갤로그로 이동합니다. 12.09 58 0
1741 로봇택시·AI 비서 시대 온다지만... 5년 뒤 AI 세상, 결국 부자만 누린다 aimatters갤로그로 이동합니다. 12.09 35 1
1740 68만 유튜버 조코딩, 연봉 4천 받고 수익 나누는 '1인 창업가' 채용 나서 aimatters갤로그로 이동합니다. 12.09 76 0
1739 박쥐도 싸울 때 말 많아진다... AI가 밝혀낸 동물 언어의 비밀 [5] aimatters갤로그로 이동합니다. 12.09 639 7
1738 오픈AI, 기업 AI 현황 리포트 공개… “AI 사용량 8배 급증, 업무 시간 하루 최대 1시간 절감” aimatters갤로그로 이동합니다. 12.09 33 0
1737 2024년엔 '우려', 2025년엔 '동반자'... 1년 만에 시민 AI 인식 대반전 aimatters갤로그로 이동합니다. 12.09 22 0
1736 [12월 9일 AI 뉴스 브리핑] 엘리스그룹-현대차, 제조 현장 이미지 AI 솔루션 개발 외 aimatters갤로그로 이동합니다. 12.09 20 0
1735 구글, '나노 바나나 2 플래시' 출시 임박… 더 저렴한 비용에 프로급 성능 aimatters갤로그로 이동합니다. 12.08 168 0
1734 챗GPT, 경제학자·투자자 예측 대결서 160명 중 80등... 효율성은 인간 압도 aimatters갤로그로 이동합니다. 12.08 72 0
1733 일론 머스크·저크버그 얼굴 달린 로봇 개 영상 화제… 1.5억 가격에도 전 작품 완판 [5] aimatters갤로그로 이동합니다. 12.08 1438 1
1732 [신간] 건강 관리, 취업 준비, 사업 준비까지… AI 일상 활용법 담은 『시켜보니 다 되는 생활밀착형 AI』 aimatters갤로그로 이동합니다. 12.08 39 0
1731 "40년 숙제 풀었다"… AI 만난 로봇 손, 드디어 인간처럼 물건 만진다 aimatters갤로그로 이동합니다. 12.08 75 0
1730 GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개 [5] aimatters갤로그로 이동합니다. 12.08 2697 5
1729 AI가 경제 활동하면 생기는 일… “배달 시켰더니 돈 다 써서 스쿠터만 사고 안 써” aimatters갤로그로 이동합니다. 12.08 52 0
1728 [12월 8일 AI 뉴스 브리핑] 서울AI재단, AI를 '동반자'로 인식하는 시민 37.2% 달해 외 aimatters갤로그로 이동합니다. 12.08 29 0
1727 ‘~가 뭐야?’ 구글, 2025년 검색 트렌드 발표... “대화형 질문 사상 최대치” aimatters갤로그로 이동합니다. 12.05 41 0
1726 AI 챗봇, 정치 광고보다 4배 효과적... 설득력 높을수록 거짓 정보 증가 aimatters갤로그로 이동합니다. 12.05 47 0
1725 앤트로픽 CEO "일부 AI 기업은 욜로 중"… 오픈AI 저격하나 aimatters갤로그로 이동합니다. 12.05 51 0
1724 한국, 2026년 AI 기본법으로 '규제 업그레이드'… OECD, 아시아 금융 AI 정책 분석 보고서 공개 aimatters갤로그로 이동합니다. 12.05 36 0
1723 “검사 안 해도 돼요” AI 의사 말 믿었다간... 심각한 오류 4건 중 3건이 '진단 누락' aimatters갤로그로 이동합니다. 12.05 58 0
1722 [12월 5일 AI 뉴스 브리핑] 홈쇼핑모아, 2025 올해의 브랜드… 로보락·AHC 등 선정 외 aimatters갤로그로 이동합니다. 12.05 108 0
1721 한국 AI 인력 5.7만 명 시대... 한국은행 "고학력·고임금에도 해외 유출 심각" aimatters갤로그로 이동합니다. 12.05 70 0
1720 AWS, 클릭 몇 번으로 맞춤형 AI 모델 만든다... 신규 기능 대거 발표 aimatters갤로그로 이동합니다. 12.04 41 0
1719 아마존, AWS 리인벤트 2025서 차세대 AI 칩 ‘트레이니엄3’ 공개 aimatters갤로그로 이동합니다. 12.04 47 0
1718 챗GPT, 한국 사용자 2천만 돌파… 한국인 AI 앱 사용 순위 Top 10 공개 aimatters갤로그로 이동합니다. 12.04 162 0
1717 챗GPT가 거짓말하면 스스로 자백하게 만든다... 오픈AI, ‘고백’ 시스템 공개 [15] aimatters갤로그로 이동합니다. 12.04 2813 4
1716 AI 에이전트 개발자 96%, 도구 하나로는 부족..."여러 개 섞어 쓰는 게 대세" aimatters갤로그로 이동합니다. 12.04 55 0
1715 NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다" aimatters갤로그로 이동합니다. 12.04 89 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2