AI가 쓴 인도 이야기 10편 중 9편이 '가짜 문화'... 음식·의상·축제 모두 틀렸다

aimatters · 2025.12.02 17:28:20

대규모 언어모델(LLM)이 생성한 이야기 10개 중 9개에서 문화를 잘못 표현하고 있는 것으로 나타났다. 특히 영어가 아닌 인도 현지 언어로 작성된 이야기에서 문화적 부정확성이 3배 이상 증가했으며, 잘 알려지지 않은 중소 도시를 배경으로 한 이야기일수록 오류가 더 많았다. 인도 과학연구소와 카네기멜론대학교 등 공동 연구진은 이러한 내용을 담은 연구 논문을 발표했다.

연구진은 인도 전역 71개 지역에서 온 108명의 문화 전문가와 함께 GPT-4.1, 제미나이 2.5 프로(Gemini 2.5 Pro), 라마 3.3(Llama 3.3) 등 6개 주요 LLM이 생성한 540개의 이야기를 분석했다. 그 결과 88%의 이야기에서 하나 이상의 문화적 오류가 발견됐으며, 평균적으로 이야기 한 편당 5.42개의 문화적 오류가 포함되어 있었다. 이는 5개 문장마다 하나의 문화적 오류가 발생한다는 의미다.

영어 대비 저자원 언어에서 문화 오류 3배 증가, 언어적 부정확성이 주요 원인

연구진이 영어와 힌디어, 벵골어, 타밀어 등 13개 인도 언어로 생성된 이야기를 비교 분석한 결과, 자원이 적은 언어일수록 문화적 오류가 급증하는 것으로 나타났다. 중자원 언어에서는 영어 대비 오류가 56% 증가했고, 저자원 언어에서는 3배 이상 증가했다.

언어적 부정확성이 비영어권 이야기에서 가장 두드러진 오류 유형이었다. 특히 저자원 언어로 작성된 이야기에서 언어적 오류가 전체 오류 분포를 지배했으며, 이는 철자 오류, 문법 오류, 부적절한 코드 전환 등을 포함한다. 연구진은 친족 관계를 나타내는 용어를 잘못 사용하거나, 지역 언어를 부적절하게 혼용하는 경우가 빈번했다고 설명했다. 예를 들어 '푸파지(Phuphaji)'는 고모부를 가리키는 남성 친족 용어인데, 이를 '이모'로 잘못 번역하는 등의 오류가 발견됐다.

중소 도시 배경 이야기가 대도시보다 문화 오류 많아, 사실 오류도 급증

연구진은 이야기의 배경이 되는 지역의 규모에 따라서도 문화적 오류의 빈도가 달라진다는 사실을 발견했다. 인도 중앙은행의 인구 기준 도시 분류에 따라 이야기를 분석한 결과, 인구 10만 명 미만의 중소 도시나 농촌 지역을 배경으로 한 이야기에서 대도시 배경 이야기보다 평균 1개 더 많은 문화적 오류가 발견됐다. 이는 통계적으로 유의미한 차이였다.

특히 문화적 부정확성과 사실 오류가 중소 도시 배경 이야기에서 가장 크게 증가했다. 예를 들어, 조드푸르(Jodhpur) 외곽에 사막이 있다고 묘사하거나, 군투르(Guntur)에 실제로 존재하지 않는 시장 이름을 언급하는 등의 오류가 발견됐다. 연구진은 이러한 현상이 LLM의 학습 데이터에 대도시에 관한 정보는 풍부하지만 중소 도시에 관한 정보는 상대적으로 부족하기 때문이라고 분석했다.

반면 논리적 오류는 지역 규모에 따른 일관된 패턴을 보이지 않았다. 이는 논리적 오류가 문화적 지식보다는 추론 능력의 결함을 반영하기 때문으로 해석된다.

음식·사회 관습·사회규범 가장 많이 왜곡, 고정관념과 과도한 단순화도 문제

연구진은 포커스 그룹과 설문조사를 통해 7가지 유형의 문화적 오류 분류 체계인 'TALES-Tax'를 개발했다. 이 분류 체계는 문화적 부정확성, 비현실적 시나리오, 고정관념, 과도한 단순화, 사실 오류, 언어적 부정확성, 논리적 오류로 구성된다.

연구진이 문화적으로 특정한 항목들을 분석한 결과, 음식, 사회적 관습, 사회적 규범이 가장 많이 왜곡되는 것으로 나타났다. 예를 들어, 구자라트 전통 스낵인 '카크라(khakhra)'를 집에서 갓 요리한 아침 식사로 묘사하는 오류가 있었다. 실제로 카크라는 즉석에서 먹을 수 있는 스낵으로, 아침에 조리하는 음식이 아니다.

고정관념도 심각한 문제로 지적됐다. 연구진은 고정관념이 반드시 부정확한 것은 아니지만, 문화를 지나치게 단순화하거나 외부인의 시각에서 바라본다는 점에서 문제가 있다고 설명했다. 한 참가자는 "이야기를 쓴 사람이 인도 출신이 아닌 것 같다"며 "이야기가 실제 경험에 기반한 것이 아니라 그 문화가 알려진 것에만 의존하고 있다"고 지적했다.

문화 지식은 있지만 활용 못하는 LLM, 질문 답변 정확도는 평균 77%

흥미롭게도 연구진은 LLM들이 문화 지식 자체는 보유하고 있지만, 이를 이야기 생성에 제대로 활용하지 못한다는 사실을 발견했다. 연구진은 수집한 문화적 오류 주석을 바탕으로 1,600개 이상의 문화 지식 질문으로 구성된 'TALES-QA'를 구축했다. 이 질문들은 영어와 13개 인도 언어로 작성됐다.

6개 모델을 TALES-QA로 평가한 결과, 영어 질문에 대한 평균 정확도는 77%였다. 제미나이 2.5 프로가 86.3%로 가장 높은 정확도를 보였고, GPT-4.1이 79.4%, 라마 3.3이 82.2%를 기록했다. 그러나 인도 언어 질문에 대한 정확도는 평균 60%로 약 17% 포인트 낮았다. 저자원 언어에서는 정확도가 더욱 떨어졌다.

연구진은 특정 모델이 생성한 이야기의 오류에서 추출한 질문에 대해서도 해당 모델을 평가했다. 놀랍게도 대부분의 모델은 자신이 이야기에서 오류를 범한 문화 지식에 대한 질문도 비교적 정확하게 답했다. 이는 모델들이 문화 지식을 보유하고 있지만, 개방형 이야기를 생성할 때 이를 적절히 적용하지 못한다는 것을 의미한다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. LLM이 생성한 이야기에서 가장 많이 발견되는 문화적 오류는 무엇인가요?

A1. 언어적 부정확성이 가장 많이 발견되며, 특히 비영어권 언어에서 두드러진다. 문화적 측면에서는 음식, 사회적 관습, 사회적 규범에 관한 오류가 가장 빈번하게 나타난다. 예를 들어 전통 음식을 잘못된 시간대나 상황에서 먹는 것으로 묘사하거나, 실제로는 하지 않는 사회적 관습을 이야기에 포함시키는 경우가 많다.

Q2. 왜 LLM은 문화 지식 질문에는 답을 잘하는데 이야기 생성에서는 오류를 범하나요?

A2. 연구에 따르면 LLM들은 문화 지식 자체는 보유하고 있지만, 복잡한 맥락이 필요한 개방형 이야기를 생성할 때 이 지식을 적절히 활용하지 못한다. 단순한 질문-답변 형식에서는 저장된 지식을 꺼내기가 쉽지만, 여러 문화적 요소를 자연스럽게 엮어 일관된 서사를 만드는 것은 훨씬 어려운 작업이기 때문이다.

Q3. 어떤 LLM이 가장 문화적으로 정확한 이야기를 생성하나요?

A3. 연구 결과 제미나이 2.5 프로가 가장 우수한 성능을 보였다. 이 모델은 이야기당 평균 3.9개의 문화적 오류로 가장 낮은 수치를 기록했고, 문화적 풍부성을 나타내는 지표인 문화적 특정 항목(CSI) 수는 87.1개로 가장 높았다. 또한 5점 만점에 4.1점으로 가장 높은 공감도 점수를 받았다. 오픈소스 모델들은 전반적으로 폐쇄형 모델보다 낮은 성능을 보였다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

번호	제목	글쓴이	작성일	조회	추천
설문	치어리딩 가장 잘할 것 같은 스타는?	운영자	26/05/11	-	-
2721	“그림판인 줄 알았는데 AI였다”…챗GPT 이미지 2.0, 그림판 그림 열풍 이끌었다	aimatters	05.13	28	0
2720	극단적 위협 아닌 '막다른 길'이 규칙 위반을 부른다... AI 1,680회 실험에서 드러난 진실 [4]	aimatters	05.13	1117	6
2719	솔트웨어, 31억 규모 반도체 제조 AI 사업 수주… AI 데이터 플랫폼 기업으로 전환 가속	aimatters	05.13	13	0
2718	마키나락스, IPO 일반청약 경쟁률 2,807.8대 1… 13.9조 원으로 2026년 최고 청약 증거금 기록 경신	aimatters	05.13	18	0
2717	최신 AI 붐 아이디어 '집에 미니 데이터센터 들여라'…SPAN·엔비디아·풀테그룹 'XFRA' 공식 가동	aimatters	05.13	584	2
2716	MS 365 코파일럿에 '캘린더 에이전트' 본격 가동…SharePoint도 자연어로 차트 만든다	aimatters	05.13	18	0
2715	메타, Llama 버리고 'Muse Spark'로 갈아탔다…AI 앱 신기능 본격 전개	aimatters	05.13	24	0
2714	소프트뱅크, '엔비디아 대항마' 영국 그래프코어에 4억5천만 달러 추가 투입…AGI 정조준	aimatters	05.13	22	0
2713	법정 선 샘 알트만 "머스크가 OpenAI를 자기 아이들에게 물려주겠다더라" [4]	aimatters	05.13	792	2
2712	구글, AI 노트북 '구글북' 공식 발표…매직 포인터로 'PC의 정의'를 다시 쓴다	aimatters	05.13	71	0
2711	톰슨로이터 CoCounsel, 클로드 위에서 다시 태어났다…Agent SDK로 전면 재설계	aimatters	05.13	10	0
2710	법률 시장 정조준한 앤트로픽, 'Claude for Legal' 공개…12개 변호사 전용 플러그인 동시 출시	aimatters	05.13	19	0
2709	앤트로픽-AWS 동맹 가속화…클라우드 빅3 최초 '클로드 플랫폼' AWS 안에서 정식 출시	aimatters	05.13	21	0
2708	사진 설명을 텍스트 한 줄로 바꾸는 순간 AI 에이전트 인식 정확도가 7.7%로 추락한다	aimatters	05.13	19	0
2707	깃랩(GitLab), ‘에이전틱 시대’ 베팅에 인력 감축… 운영 국가 수 30% 축소·R&D 60팀 재편	aimatters	05.12	38	0
2706	‘우주 데이터센터’ 띄울 로켓이 모자란다… 카우보이 스페이스, 약 4,100억 원 시리즈 B 조달	aimatters	05.12	17	0
2705	엘리스그룹, 고용노동부 ‘K-디지털 트레이닝 AI 캠퍼스’ 운영기관 선정… 실전형 AI 엔지니어 양성	aimatters	05.12	12	0
2704	‘쿨리닉’, 피지컬 AI 기반 스마트 냉동장비 체계 구축… 콜드체인 사후 관리 한계 깬다	aimatters	05.12	14	0
2703	동영상도 자동으로 얼굴 블러...아이엠지베이스 VDIT, ‘AI 얼굴 자동 모자이크’ 탑재	aimatters	05.12	13	0
2702	데이블, 대화형 AI 뉴스 위젯 ‘에이블(AI-ble)’ 출시… 기사 안에서 독자 질문 직접 응답	aimatters	05.12	12	0
2701	다시 살아난 ‘디그(Digg)’… 이번엔 AI 뉴스 어그리게이터로 회귀	aimatters	05.12	11	0
2700	스위스 ‘픽테’ 35억 달러 펀드, 현금 비중 30% 아시아·미국 AI 주식으로 옮겼다	aimatters	05.12	18	0
2699	브린욜프슨 “AI 일자리 충격 대비 부족하다”… 美 노동생산성 연 1.8% 성장 베팅	aimatters	05.12	36	0
2698	아시아 증시, AI 낙관론에 중동 불안 압도… 한국 코스피 5% 폭등 사상 최고	aimatters	05.12	15	0
2697	맥 미니가 ‘AI 에이전트 호스트’로… 클로드 수요에 애플 인상·품귀 사태	aimatters	05.12	15	0
2696	알파벳, 첫 엔화 채권 발행 추진… AI 인프라 260조 원 캐펙스 자금 조달 목표	aimatters	05.12	14	0
2695	한국 대기업이 베팅한 컨피그(Config), 370억 원 시드… ‘로봇 데이터의 TSMC’ 노린다	aimatters	05.12	65	0
2694	IBM 보고서 “글로벌 기업 76%가 CAIO 신설”… 1년 만에 26%→76% 폭증	aimatters	05.12	43	0
2693	마이크로소프트, 오픈AI 초기 투자에서 126조 원 회수 목표… ‘AI 시대 최대 베팅’ 평가	aimatters	05.12	11	0
2692	오픈AI, 40억 달러 규모 ‘디플로이먼트 컴퍼니’ 출범… 직원 파견으로 기업 AI 도입 가속	aimatters	05.12	15	0
2691	AI 에이전트 성능 한계 구현법은 추론이 아니라 '눈'이었다, 클로드 오퍼스 4.6 제친 GLM-5V-Turbo의 비밀	aimatters	05.12	14	0
2690	정확도 95%로 알츠하이머 잡아낸 AI 에이전트, '이것' 모르면 0점?	aimatters	05.12	13	0
2689	[AI 옵저버] 너희가 가둬뒀던 클로드 미토스가, 이번 주 너희를 구했다	aimatters	05.11	53	0
2688	카메라 들이대고 "이거 얼마야?" 물으면 폰이 알아서 타오바오를 연다, 오포(OPPO)가 공개한 엣지 AI 에이전트 [9]	aimatters	05.11	1384	1
2687	AI 혁명의 진짜 병목은 모델 아닌 '전력·반도체·인재'… 한국 정책에 던지는 3대 숙제 [5]	aimatters	05.11	627	1
2686	빅테크 990조 원 AI 인프라 베팅… 잉여현금 급감, 한국 HBM 사이클도 직격	aimatters	05.11	34	0
2685	김민석 총리, 'UN AI 허브' 한국 유치 TF 출범… 일본·싱가포르와 경쟁 본격화	aimatters	05.11	31	0
2684	익스피리언 "2026년 데이터 유출 1위는 에이전틱 AI" 기계끼리 유출할 경우 책임 소재 모호	aimatters	05.11	19	0
2683	"우버, 단순 차량 호출 이상이 되려는 이유"… 종합 자동차 로보틱스 회사로 발돋움	aimatters	05.11	311	1
2682	테크크런치 "xAI-앤트로픽 컴퓨팅 거래에 냉소적"… 머스크 클라우드 회사로 전환하나	aimatters	05.11	80	0
2681	AI 에이전트가 도구를 잘못 불러놓고 아닌 척 하고 있다… '툴 포이즈닝' 보안 취약점 공식 제기	aimatters	05.11	38	0
2680	CNN "AI는 당신 일자리를 빼앗지 않는다… 직무의 모양을 바꿀 뿐"	aimatters	05.11	27	0
2679	마이크로소프트, 케냐 AI 데이터센터 사실상 좌초… 정부 지급보증 협상 결렬	aimatters	05.11	21	0
2678	앤트로픽 "인터넷 글들의 악마적 AI 묘사를 학습한 클로드가 엔지니어를 협박하게 만들었다"	aimatters	05.11	27	0
2677	2030년이면 운영 결정 절반을 AI가 내린다, 그런데 지금 직원의 25%만 AI를 쓰고 있다	aimatters	05.11	21	0
2676	구글 계정 하나로 PPT·웹페이지·팟캐스트 뚝딱…제미나이 무료버전의 진짜 위력	aimatters	05.08	54	0
2675	[에이-아이랑] 매일이 어린이날 같기를 - AI 시대의 또 다른 놀이터	aimatters	05.08	25	1
2674	에이서, 지마켓 '빅스마일데이'서 게이밍·AI 노트북 최대 36% 할인	aimatters	05.08	37	0
2673	AMD, 기존 데이터센터 그대로 쓰는 엔터프라이즈 AI GPU '인스팅트 MI350P PCIe' 출시	aimatters	05.08	103	0
2672	픽스AI, 자연어로 캐릭터·텍스트·배경 수정하는 AI 이미지 편집 모델 'Edit Pro' 공개	aimatters	05.08	23	1

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[AI 매터스 갤러리]

갤러리 본문 영역

추천 비추천

댓글 영역

파워링크 광고

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

대왕디시콘 사용중

대왕디시콘

즐겨찾기 추가 안내

즐겨찾기 추가 안내

색상 설정

즐겨찾기 편집

폴더명

즐겨찾기 편집

디시콘