AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과

aimatters · 2026.02.25 14:52:41

음성으로 AI에게 말을 건넬 때, AI는 정말 당신의 말을 듣고 있을까? 최근 발표된 연구에 따르면, 음성과 텍스트가 충돌할 때 AI는 사용자의 목소리보다 텍스트를 10배나 더 신뢰하는 것으로 나타났다.(Gemini 2.0 Flash 기준) 이는 음성 AI 시스템의 신뢰성에 근본적인 의문을 제기하는 결과다.

"들어라"고 해도 안 듣는다, 음성 AI의 텍스트 편향 10배 차이

미국의 AI 연구자 자야데브 빌라(Jayadev Billa)는 음성과 텍스트가 충돌하는 상황에서 AI 모델이 어느 쪽을 따르는지를 측정하는 벤치마크 'ALME(Audio-LLM Modality Evaluation)'를 개발했다. 연구팀은 8개 언어(영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 아랍어, 일본어, 중국어)에 걸쳐 총 57,602개의 실험 자극을 만들어 실험을 진행했다.

실험 방식은 간단하다. 예를 들어 음성으로는 "회의는 3시입니다"라고 말하지만, 텍스트에는 "회의는 5시입니다"라고 적혀 있을 때, AI가 어느 쪽을 따르는지 측정하는 것이다. 연구진은 이를 '텍스트 우위 비율(TDR, Text Dominance Ratio)'이라는 지표로 수치화했다.

핵심 발견은 충격적이다. 구글의 제미나이(Gemini) 2.0 플래시 모델에 두 개의 텍스트 출처가 충돌할 때는 신뢰할 수 있는 출처를 98.4% 정확도로 따랐다(TDR 1.6%). 하지만 같은 조건에서 텍스트 대신 음성이 등장하자 TDR이 16.6%로 치솟았다. 무려 10배의 격차다. 심지어 프롬프트에 "당신이 듣는 것을 기반으로 답하라"고 명시적으로 지시했음에도 이 현상은 사라지지 않았다.

음성이 텍스트보다 정보가 더 많은데도 전혀 다른 선택의 결과

더 놀라운 점은, 이 편향이 음성의 품질이 낮아서 생기는 문제가 아니라는 사실이다. 연구 결과 음성 직접 처리 방식의 정확도(97.2%)는 음성을 텍스트로 변환한 뒤 처리하는 방식(93.9%)보다 오히려 높았다. 즉, AI 모델은 음성에서 더 많은 정보를 얻을 수 있음에도 불구하고 텍스트를 더 신뢰한다는 것이다.

연구진은 이를 '정보 내용(information content)'과 '중재 접근성(arbitration accessibility)'의 차이로 설명한다. 음성은 정보가 풍부하지만, AI가 두 출처를 비교해 판단하는 과정에서는 텍스트가 훨씬 다루기 쉽다는 것이다. AI 모델의 핵심 구조가 텍스트 기반으로 설계되어 있기 때문에, 음성 신호를 논리적으로 비교하고 판단하는 능력이 상대적으로 약할 수밖에 없다.

특히 아랍어와 일본어에서는 음성 직접 처리 방식이 텍스트 변환 방식보다 각각 12.7%p, 8.0%p나 더 정확했다. 아랍어는 글자에 짧은 모음이 생략되고, 일본어에는 동음이의어가 많아 텍스트로 변환하는 과정에서 정보가 손실되기 때문이다. 그런데도 이 언어들에서의 TDR은 더 높게 나타났다.

GPT-4o와 Qwen2의 극단적 차이

연구진은 제미나이 2.0 플래시, GPT-4o 오디오, 울트라복스(Ultravox), 큐웬2-오디오(Qwen2-Audio) 등 4개 최신 음성 AI 모델을 비교했다. 결과는 모델마다 극적으로 달랐다.

제미나이가 TDR 16.6%로 가장 낮은 TDR을 기록했고, GPT-4o는 23.2%였다. 오픈소스 모델인 울트라복스는 48.8%로 사실상 음성과 텍스트 중 어느 쪽도 선호하지 않는 중립에 가까운 수준이었다. 큰2-오디오는 무려 63.2%로, 명시적으로 "음성을 기반으로 답하라"는 지시에도 불구하고 세 번 중 두 번 꼴로 텍스트를 따랐다. 결국 제미나이가 음성 지시를 잘 따른 것이다.

흥미롭게도 음성 단독 정확도가 높은 모델일수록 TDR도 낮았다. 즉, 음성을 잘 이해하는 모델이 음성도 더 신뢰한다는 패턴이 확인됐다. 반면 큰2-오디오에서는 '최근 편향(recency bias)'이라는 별도의 문제도 발견됐다. 두 가지 선택지 중 나중에 제시된 것을 선호하는 경향이 무려 27.6%나 됐는데, 이는 AI 모델 평가 시 주의해야 할 중요한 함정이다.

언어별 격차도 상당하다. 제미나이 기준으로 영어의 TDR은 8.1%인 데 반해 중국어는 31.8%로, 4배 가까이 차이가 났다. 아랍어(19.9%), 일본어(30.2%) 등 비라틴 문자 언어에서 TDR이 높게 나타나는 경향이 세 모델에서 일관되게 관찰됐다. 이는 AI 모델의 훈련 데이터 구성 차이의 영향일 가능성이 제기된다.

"텍스트가 조작됐다"고 말하면 효과적

연구진은 프롬프트(AI에게 주는 지시문) 방식을 바꾸는 것만으로도 텍스트 편향을 크게 줄일 수 있는지 실험했다. 제미나이 모델에 영어와 일본어 데이터를 사용해 4가지 방식을 비교했다.

가장 효과적인 방법은 '적대적 표현(adversarial framing)'이었다. 텍스트가 "오류가 있을 수 있다"고 표현하는 기본 방식 대신, "텍스트는 의도적으로 변조되었다"고 명시하자 TDR이 19%에서 3.8%로 감소해, 무려 80%나 줄었다. 일본어에서는 TDR이 30.2%에서 5.7%로 급감했다.

반면 직관과는 반대로, 음성을 먼저 텍스트로 옮기게 한 뒤 답변하도록 하는 '음성 우선(audio-first)' 방식은 영어·일본어 subset에서 TDR이 19%에서 33%로 상승했다. 음성을 텍스트로 변환하는 과정에서 정보의 우위를 잃는 동시에, 모델이 텍스트 처리 모드로 전환되어 텍스트를 더 신뢰하게 되는 역효과가 발생한 것이다.

파인튜닝(fine-tuning, 특정 데이터로 AI를 추가 학습시키는 방법) 실험에서도 흥미로운 결과가 나왔다. 음성 신호를 처리하는 어댑터(adapter) 부분만 훈련시키면 TDR이 오히려 26.5% 증가했다. 반면 언어 모델 자체에 LoRA(로라)라는 경량 학습 기법을 적용하자 TDR이 49.4%에서 25.5%로 23.9%p 감소했다. 이는 텍스트 편향이 언어 모델의 추론 단계와 밀접하게 관련돼 있음을 시사한다.

실용적 시사점은 명확하다. 음성 AI 서비스를 구축할 때, 음성 내용이 텍스트보다 우선시돼야 하는 상황이라면 텍스트를 "오류가 있을 수 있다"고 지시하는 것보다 "의도적으로 변조됐다"고 표현하는 편이 훨씬 효과적이다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 음성 AI가 제 말보다 텍스트를 더 믿는다는 게 실생활에서 어떤 문제를 일으키나요? A. 예를 들어 고객센터 음성 AI에 "저 서울로 이사했어요"라고 말해도, 시스템 데이터베이스에 예전 주소가 텍스트로 저장되어 있으면 AI가 텍스트를 우선해 이전 주소를 기준으로 답할 수 있습니다. 또한 이전 대화에서 잘못 기록된 내용이 텍스트로 남아 있으면, 사용자가 음성으로 수정해도 AI가 잘못된 텍스트를 따를 수 있습니다.

Q. 어떤 음성 AI가 가장 믿을 만한가요? A. 이번 연구에서는 구글 제미나이 2.0 플래시가 TDR 16.6%로 가장 음성을 잘 신뢰했고, GPT-4o 오디오(23.2%)가 그 뒤를 이었습니다. 반면 오픈소스 모델인 큰2-오디오는 63.2%로 가장 텍스트 편향이 심했습니다. 다만 모델은 계속 업데이트되므로 사용 목적에 맞게 직접 테스트해보는 것이 좋습니다.

Q. AI 서비스 개발자가 이 문제를 줄이려면 어떻게 해야 하나요? A. 음성 내용이 최우선시돼야 하는 서비스라면, 함께 제공되는 텍스트를 "오류가 있을 수 있다"고 표현하는 것보다 "의도적으로 변조될 수 있다"는 표현을 사용하는 것이 훨씬 효과적입니다. 연구에 따르면 이 방법만으로 텍스트 편향을 최대 80%까지 줄일 수 있습니다. 또한 언어 모델 자체를 추가 학습시키는 LoRA 방식도 효과적인 것으로 나타났습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: When Audio-LLMs Don't Listen: A Cross-Linguistic Study of Modality Arbitration

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

번호	제목	글쓴이	작성일	조회	추천
설문	결혼이 오히려 커리어에 손해였던 것 같은 스타는?	운영자	26/03/23	-	-
2274	유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다	aimatters	03.26	4	0
2273	유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다	aimatters	03.26	6	0
2272	AI 패권 전쟁의 진짜 승부처는 알고리즘이 아닌 반도체 공급망	aimatters	03.26	6	0
2271	AI가 기업 리스크 관리의 판도를 바꾼다, HBR이 밝힌 GRC 혁신의 실체	aimatters	03.26	4	0
2270	EBS도 AI 물들었다…2026년 봄, 죽은 철학자가 말을 걸어온다	aimatters	03.26	4	0
2269	"기획부터 개발까지 90% 단축"…원티드랩, AI 에이전트용 디자인 시스템 '몽타주' 공개	aimatters	03.26	5	0
2268	애플 시리, 구글 제미나이로 탈바꿈 - iOS 26.5에 탑재, WWDC서 공식 공개 예정	aimatters	03.26	4	0
2267	챗GPT 쇼핑 기능 전면 개편 - 인스턴트 결제 포기하고 상품 탐색에 집중	aimatters	03.26	5	0
2266	구글 제미나이, 다크웹 하루 1000만 건 분석... AI 위협 인텔리전스 서비스 출시	aimatters	03.26	6	0
2265	클로드, 전 세계 동시 장애 발생 - 앤트로픽, 수시간 만에 복구 완료	aimatters	03.26	4	0
2264	구글, AI 모델 압축 기술 터보퀀트 공개 - 성능 손실 없이 모델 크기 절반으로	aimatters	03.26	4	0
2263	ARM, AGI 시대 겨냥한 첫 자체 AI 칩 공개 - 데이터센터용 CPU·GPU 직접 설계	aimatters	03.26	4	0
2262	원고 넣으면 3분 만에 책 한 권 뚝딱…루미너리북스, AI가 내지 디자인까지 자동화	aimatters	03.26	4	0
2261	8만 명이 AI에게 원하는 것은 더 나은 삶이었다	aimatters	03.25	16	0
2260	AI가 일자리를 빼앗는다는 말, 데이터로 따져보니 범인은 따로 있었다 [3]	aimatters	03.25	994	0
2259	AI 가전 쓰고 싶은데 왜 점점 더 불안해질까, 소비자 심리의 역전	aimatters	03.25	14	0
2258	오픈AI, 소라(Sora) 비디오 앱 종료...생성형 AI 전략 선회	aimatters	03.25	16	0
2257	"AI야, 네가 할 수 있어?" 묻고 나서 답한다… 애피어, '역량 캘리브레이션' 기술 공개	aimatters	03.25	14	0
2256	오픈AI 재단, 생명공학 분야 10억 달러 규모 자선 프로그램 발표	aimatters	03.25	8	0
2255	갭, 구글 제미나이 내 직접 결제 기능 통합...AI 쇼핑 시대 개막	aimatters	03.25	15	0
2254	TV에 질문하고 학습한다… 구글 TV, 제미나이 AI로 스포츠·뉴스·교육 강화	aimatters	03.25	8	0
2253	퍼플렉시티 AI 브라우저 '코멧', 드디어 아이폰 상륙…구글 크롬과 본격 맞대결	aimatters	03.24	37	0
2252	구글, AI로 뉴스 헤드라인 몰래 바꾼다…언론사 "서점이 책 표지를 뜯어내는 것"	aimatters	03.24	16	0
2251	AI가 인간보다 똑똑하게 초전도체 비밀을 풀었다	aimatters	03.24	27	0
2250	AI에게 정확히 원하는 것을 얻는 법, 기자처럼 질문하면 된다	aimatters	03.24	22	0
2249	AI 고객 상담, 문제는 해결했는데 왜 고객은 떠날까	aimatters	03.24	16	0
2248	버니 샌더스 vs. 클로드, 샌더스가 AI의 아첨 성향을 이끌어내다	aimatters	03.24	18	0
2247	앤트로픽, 클로드 디스패치 출시... 폰에서 메시지 보내면 맥이 원격 AI 작업한다	aimatters	03.24	28	0
2246	"이번엔 진짜" 애플, WWDC 2026 개최 일정 발표... 'AI 기술 대폭 강화' 예고	aimatters	03.24	12	0
2245	일론 머스크, 테라팹 공개... AI∙자동차∙로봇용 저가 칩부터 우주선용 칩까지 만든다	aimatters	03.24	26	0
2244	앤트로픽, 법정에서 국방부의 주장 반박... “감시 역할 거부한다” 선언	aimatters	03.24	14	0
2243	책상 위에 올라온 AI 슈퍼컴퓨터…델, 워크스테이션 신제품 9종 공개 [5]	aimatters	03.23	1755	3
2242	AI 에이전트가 마케터 대신 일한다… 애피어, '에이전틱 AI 세미나' 성료	aimatters	03.23	56	0
2241	오픈클로(OpenClaw) 업데이트... GPT-5.4 지원·메모리 핫스와핑으로 '에이전트 OS' 시대 열다	aimatters	03.23	60	0
2240	"프롬프트 한 줄로 앱 완성"…구글, AI 스튜디오에 풀스택 바이브 코딩 탑재	aimatters	03.23	35	0
2239	미 국방부 "앤트로픽 클로드 6개월 내 대체 가능" 자신… 현장 군인들은 반발	aimatters	03.23	72	0
2238	오픈AI, 챗GPT·코덱스·아틀라스 합친 데스크톱 슈퍼앱 개발 나선다	aimatters	03.23	68	0
2237	게임 동반자 AI NPC가 상황에 맞게 도와준다… 스퀘어 에닉스, 드래곤 퀘스트 X에 제미나이 통합	aimatters	03.23	29	0
2236	퍼플렉시티, 애플 헬스 데이터로 개인 맞춤 AI 건강 상담 시작	aimatters	03.23	20	0
2235	토큰 100만개당 0.2달러에 불과... 오픈AI, GPT-5.4 mini·nano 공개 [7]	aimatters	03.23	805	1
2234	오픈AI, 연말까지 직원 수 8,000명으로 두 배 확대… 앤트로픽 추격에 맞서 공격적 채용	aimatters	03.23	25	0
2233	로봇 손끝에서 발견된 '촉각의 법칙', AI가 밝혀낸 접촉의 두 가지 원리	aimatters	03.23	22	0
2232	AI가 "왜" 그 행동을 했는지, 이제 수학으로 알아낼 수 있다	aimatters	03.23	27	0
2231	AI가 마케터의 95%를 대체한다고? 살아남는 5%의 비밀	aimatters	03.23	21	0
2230	두 번째 딥시크 쇼크의 주인공은 샤오미였다… 'MiMo-V2-Pro', 오픈라우터 주간 1위 등극	aimatters	03.20	31	0
2229	AI에도 지문이 있다, 몰래 바뀐 모델을 잡아내는 기술의 등장	aimatters	03.20	21	0
2228	챗GPT·클로드 이용약관의 충격적 진실, "품질 보장 없고 책임은 사용자 몫"	aimatters	03.20	21	0
2227	기자 10명 중 8명이 AI 쓰지만 정작 AI 가장 두려워 해 [1]	aimatters	03.20	43	0
2226	구글, 맥용 제미나이 앱 비공개 테스트 돌입… 챗GPT·클로드 대항마로	aimatters	03.20	23	0
2225	마이크로소프트, 코파일럿 AI 리더십 대거 개편… 술레이만은 신모델 개발 집중	aimatters	03.20	18	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[AI 매터스 갤러리]

갤러리 본문 영역

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘