디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과

aimatters갤로그로 이동합니다. 2026.02.25 14:52:41
조회 640 추천 2 댓글 2


음성으로 AI에게 말을 건넬 때, AI는 정말 당신의 말을 듣고 있을까? 최근 발표된 연구에 따르면, 음성과 텍스트가 충돌할 때 AI는 사용자의 목소리보다 텍스트를 10배나 더 신뢰하는 것으로 나타났다.(Gemini 2.0 Flash 기준) 이는 음성 AI 시스템의 신뢰성에 근본적인 의문을 제기하는 결과다.



"들어라"고 해도 안 듣는다, 음성 AI의 텍스트 편향 10배 차이

미국의 AI 연구자 자야데브 빌라(Jayadev Billa)는 음성과 텍스트가 충돌하는 상황에서 AI 모델이 어느 쪽을 따르는지를 측정하는 벤치마크 'ALME(Audio-LLM Modality Evaluation)'를 개발했다. 연구팀은 8개 언어(영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 아랍어, 일본어, 중국어)에 걸쳐 총 57,602개의 실험 자극을 만들어 실험을 진행했다.

실험 방식은 간단하다. 예를 들어 음성으로는 "회의는 3시입니다"라고 말하지만, 텍스트에는 "회의는 5시입니다"라고 적혀 있을 때, AI가 어느 쪽을 따르는지 측정하는 것이다. 연구진은 이를 '텍스트 우위 비율(TDR, Text Dominance Ratio)'이라는 지표로 수치화했다.

핵심 발견은 충격적이다. 구글의 제미나이(Gemini) 2.0 플래시 모델에 두 개의 텍스트 출처가 충돌할 때는 신뢰할 수 있는 출처를 98.4% 정확도로 따랐다(TDR 1.6%). 하지만 같은 조건에서 텍스트 대신 음성이 등장하자 TDR이 16.6%로 치솟았다. 무려 10배의 격차다. 심지어 프롬프트에 "당신이 듣는 것을 기반으로 답하라"고 명시적으로 지시했음에도 이 현상은 사라지지 않았다.



음성이 텍스트보다 정보가 더 많은데도 전혀 다른 선택의 결과

더 놀라운 점은, 이 편향이 음성의 품질이 낮아서 생기는 문제가 아니라는 사실이다. 연구 결과 음성 직접 처리 방식의 정확도(97.2%)는 음성을 텍스트로 변환한 뒤 처리하는 방식(93.9%)보다 오히려 높았다. 즉, AI 모델은 음성에서 더 많은 정보를 얻을 수 있음에도 불구하고 텍스트를 더 신뢰한다는 것이다.

연구진은 이를 '정보 내용(information content)'과 '중재 접근성(arbitration accessibility)'의 차이로 설명한다. 음성은 정보가 풍부하지만, AI가 두 출처를 비교해 판단하는 과정에서는 텍스트가 훨씬 다루기 쉽다는 것이다. AI 모델의 핵심 구조가 텍스트 기반으로 설계되어 있기 때문에, 음성 신호를 논리적으로 비교하고 판단하는 능력이 상대적으로 약할 수밖에 없다.

특히 아랍어와 일본어에서는 음성 직접 처리 방식이 텍스트 변환 방식보다 각각 12.7%p, 8.0%p나 더 정확했다. 아랍어는 글자에 짧은 모음이 생략되고, 일본어에는 동음이의어가 많아 텍스트로 변환하는 과정에서 정보가 손실되기 때문이다. 그런데도 이 언어들에서의 TDR은 더 높게 나타났다.



GPT-4o와 Qwen2의 극단적 차이

연구진은 제미나이 2.0 플래시, GPT-4o 오디오, 울트라복스(Ultravox), 큐웬2-오디오(Qwen2-Audio) 등 4개 최신 음성 AI 모델을 비교했다. 결과는 모델마다 극적으로 달랐다.

제미나이가 TDR 16.6%로 가장 낮은 TDR을 기록했고, GPT-4o는 23.2%였다. 오픈소스 모델인 울트라복스는 48.8%로 사실상 음성과 텍스트 중 어느 쪽도 선호하지 않는 중립에 가까운 수준이었다. 큰2-오디오는 무려 63.2%로, 명시적으로 "음성을 기반으로 답하라"는 지시에도 불구하고 세 번 중 두 번 꼴로 텍스트를 따랐다. 결국 제미나이가 음성 지시를 잘 따른 것이다.

흥미롭게도 음성 단독 정확도가 높은 모델일수록 TDR도 낮았다. 즉, 음성을 잘 이해하는 모델이 음성도 더 신뢰한다는 패턴이 확인됐다. 반면 큰2-오디오에서는 '최근 편향(recency bias)'이라는 별도의 문제도 발견됐다. 두 가지 선택지 중 나중에 제시된 것을 선호하는 경향이 무려 27.6%나 됐는데, 이는 AI 모델 평가 시 주의해야 할 중요한 함정이다.

언어별 격차도 상당하다. 제미나이 기준으로 영어의 TDR은 8.1%인 데 반해 중국어는 31.8%로, 4배 가까이 차이가 났다. 아랍어(19.9%), 일본어(30.2%) 등 비라틴 문자 언어에서 TDR이 높게 나타나는 경향이 세 모델에서 일관되게 관찰됐다. 이는 AI 모델의 훈련 데이터 구성 차이의 영향일 가능성이 제기된다.



"텍스트가 조작됐다"고 말하면 효과적

연구진은 프롬프트(AI에게 주는 지시문) 방식을 바꾸는 것만으로도 텍스트 편향을 크게 줄일 수 있는지 실험했다. 제미나이 모델에 영어와 일본어 데이터를 사용해 4가지 방식을 비교했다.

가장 효과적인 방법은 '적대적 표현(adversarial framing)'이었다. 텍스트가 "오류가 있을 수 있다"고 표현하는 기본 방식 대신, "텍스트는 의도적으로 변조되었다"고 명시하자 TDR이 19%에서 3.8%로 감소해, 무려 80%나 줄었다. 일본어에서는 TDR이 30.2%에서 5.7%로 급감했다.

반면 직관과는 반대로, 음성을 먼저 텍스트로 옮기게 한 뒤 답변하도록 하는 '음성 우선(audio-first)' 방식은 영어·일본어 subset에서 TDR이 19%에서 33%로 상승했다. 음성을 텍스트로 변환하는 과정에서 정보의 우위를 잃는 동시에, 모델이 텍스트 처리 모드로 전환되어 텍스트를 더 신뢰하게 되는 역효과가 발생한 것이다.

파인튜닝(fine-tuning, 특정 데이터로 AI를 추가 학습시키는 방법) 실험에서도 흥미로운 결과가 나왔다. 음성 신호를 처리하는 어댑터(adapter) 부분만 훈련시키면 TDR이 오히려 26.5% 증가했다. 반면 언어 모델 자체에 LoRA(로라)라는 경량 학습 기법을 적용하자 TDR이 49.4%에서 25.5%로 23.9%p 감소했다. 이는 텍스트 편향이 언어 모델의 추론 단계와 밀접하게 관련돼 있음을 시사한다.

실용적 시사점은 명확하다. 음성 AI 서비스를 구축할 때, 음성 내용이 텍스트보다 우선시돼야 하는 상황이라면 텍스트를 "오류가 있을 수 있다"고 지시하는 것보다 "의도적으로 변조됐다"고 표현하는 편이 훨씬 효과적이다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 음성 AI가 제 말보다 텍스트를 더 믿는다는 게 실생활에서 어떤 문제를 일으키나요? A. 예를 들어 고객센터 음성 AI에 "저 서울로 이사했어요"라고 말해도, 시스템 데이터베이스에 예전 주소가 텍스트로 저장되어 있으면 AI가 텍스트를 우선해 이전 주소를 기준으로 답할 수 있습니다. 또한 이전 대화에서 잘못 기록된 내용이 텍스트로 남아 있으면, 사용자가 음성으로 수정해도 AI가 잘못된 텍스트를 따를 수 있습니다.

Q. 어떤 음성 AI가 가장 믿을 만한가요? A. 이번 연구에서는 구글 제미나이 2.0 플래시가 TDR 16.6%로 가장 음성을 잘 신뢰했고, GPT-4o 오디오(23.2%)가 그 뒤를 이었습니다. 반면 오픈소스 모델인 큰2-오디오는 63.2%로 가장 텍스트 편향이 심했습니다. 다만 모델은 계속 업데이트되므로 사용 목적에 맞게 직접 테스트해보는 것이 좋습니다.

Q. AI 서비스 개발자가 이 문제를 줄이려면 어떻게 해야 하나요? A. 음성 내용이 최우선시돼야 하는 서비스라면, 함께 제공되는 텍스트를 "오류가 있을 수 있다"고 표현하는 것보다 "의도적으로 변조될 수 있다"는 표현을 사용하는 것이 훨씬 효과적입니다. 연구에 따르면 이 방법만으로 텍스트 편향을 최대 80%까지 줄일 수 있습니다. 또한 언어 모델 자체를 추가 학습시키는 LoRA 방식도 효과적인 것으로 나타났습니다.



기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: When Audio-LLMs Don't Listen: A Cross-Linguistic Study of Modality Arbitration

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

2

고정닉 0

5

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 게임 캐릭터로 만들면 찰떡일 것 같은 아이돌은? 운영자 26/02/23 - -
2114 저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나 [1] aimatters갤로그로 이동합니다. 02.27 801 2
2113 구글, 이미지 생성 모델 '나노 바나나 2' 공개…4K 해상도에 속도까지 잡았다 aimatters갤로그로 이동합니다. 02.27 26 1
2112 잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것" aimatters갤로그로 이동합니다. 02.27 23 1
2111 챗GPT가 강박장애 환자를 더 아프게 만든다, '안심 로봇'의 위험한 진실 [2] aimatters갤로그로 이동합니다. 02.27 666 0
2110 AI 데이터센터의 '친환경' 선언, 전력망을 들여다보면 허상이다 aimatters갤로그로 이동합니다. 02.27 24 0
2109 별점만 믿다간 낭패! ChatGPT가 470만 개 리뷰를 파헤쳐 밝혀낸 '맛집의 진짜 조건' aimatters갤로그로 이동합니다. 02.27 21 0
2108 "ChatGPT가 편향됐다"는 말 한마디에 설득력 28% 급락 [10] aimatters갤로그로 이동합니다. 02.26 2422 4
2107 챗GPT가 통계학 교육을 뒤흔들고 있다: 대학 강의실에서 벌어지는 AI 혁명 aimatters갤로그로 이동합니다. 02.26 59 0
2106 월 20달러짜리 챗GPT로 수학 난제 풀었다…'바이브 증명'의 충격적 실험 [13] aimatters갤로그로 이동합니다. 02.26 2426 18
2105 앤트로픽, AI 에이전트 개발 스타트업 버셉트 인수…창업자 한명은 메타로 aimatters갤로그로 이동합니다. 02.26 23 0
2104 제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다... 한국서도 적용 aimatters갤로그로 이동합니다. 02.26 39 0
2103 "AI 개발은 기타 배우기와 같다"…오픈클로 개발자가 전하는 AI 빌더 생존법 aimatters갤로그로 이동합니다. 02.26 60 0
2102 975g으로 AI 정복…한국레노버, 요가 11세대 4종 출시 aimatters갤로그로 이동합니다. 02.26 35 0
AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과 [2] aimatters갤로그로 이동합니다. 02.25 640 2
2100 GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유 [15] aimatters갤로그로 이동합니다. 02.25 1756 6
2099 AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패 [2] aimatters갤로그로 이동합니다. 02.25 607 5
2098 오픈AI 투자자, 앤트로픽도 찍었다…VC 업계, 경쟁사에 투자하지 않는 '투자 충성도' 사실상 붕괴 aimatters갤로그로 이동합니다. 02.25 42 0
2097 " 美 연준도 AI 시대로 간다"…월러 이사, AI 전면 도입 전략 공개 aimatters갤로그로 이동합니다. 02.25 38 0
2096 AI가 플레이리스트 짜준다...스포티파이 리스트 자동생성 기능 영국·호주 등으로 확대 aimatters갤로그로 이동합니다. 02.25 32 0
2095 2028년 붕괴 시나리오로 전세계 공포, AI가 완벽하게 성공할수록 경제는 무너진다 [1] aimatters갤로그로 이동합니다. 02.24 104 0
2094 AI가 "생각을 줄이면" 오히려 더 똑똑해진다? 토큰 예산과 LLM 추론의 역설 aimatters갤로그로 이동합니다. 02.24 58 0
2093 AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를 지시한 AI 모델은? aimatters갤로그로 이동합니다. 02.24 52 0
2092 AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험 aimatters갤로그로 이동합니다. 02.24 32 1
2091 앤트로픽 "중국 AI 3사, 가짜 계정 2만4천 개로 클로드 기술 훔쳐갔다" aimatters갤로그로 이동합니다. 02.24 63 0
2090 "하루 한 시간이면 AI를 직접 활용하라. 주변의 99%보다 앞서갈 수 있다"…AI 스타트업 CEO의 경고 aimatters갤로그로 이동합니다. 02.24 57 0
2089 오픈AI, 스마트 스피커·안경·조명까지…AI 하드웨어 제국 꿈꾼다 aimatters갤로그로 이동합니다. 02.24 55 0
2088 다쏘시스템, AI 전문가 '버추얼 동반자' 공개…인간과 AI의 산업 협업 시대 열린다 aimatters갤로그로 이동합니다. 02.24 39 0
2087 AI 안전장치도 '세탁'된다? 제미나이·클로드도 뚫렸다 aimatters갤로그로 이동합니다. 02.23 40 0
2086 AI가 사각형을 인식할 수 있을까? 클로드·챗GPT·제미나이 '공간 인식' 충격 실험 aimatters갤로그로 이동합니다. 02.23 39 0
2085 AI 로봇이 나를 설득한다? 챗GPT가 물리치료 거부 환자를 설득하는 방법 aimatters갤로그로 이동합니다. 02.23 31 0
2084 [신간] 난치병·빚에서 탈출한 30대 파이어족의 <버릴수록 부자 되는 미니멀리즘 재테크> aimatters갤로그로 이동합니다. 02.23 39 0
2083 한 질문에 AI 4개가 토론한다…xAI, '그록 4.20' 공개 aimatters갤로그로 이동합니다. 02.23 32 1
2082 AI가 인간을 고용하는 시대 열렸다…"클로드(Claude)가 내 상사라면 이상적일 것" aimatters갤로그로 이동합니다. 02.23 40 0
2081 "광고 대행사는 이제 필요 없다 우리에게 바로 광고해"…오픈AI 임원의 도발적 선언 aimatters갤로그로 이동합니다. 02.23 86 0
2080 "일기 쓰기 귀찮다고요?" AI가 대신 물어봐 주는 일기 앱 '블루닙' 출시 aimatters갤로그로 이동합니다. 02.23 35 0
2079 AI 코미디언이 인간보다 더 웃기다고? ‘기계다움’이 유머의 새 무기가 된다 [14] aimatters갤로그로 이동합니다. 02.20 1521 2
2078 AI는 이제 '알아서 척척'… 2026년, 당신의 직장과 일상을 바꿀 AI의 민낯 aimatters갤로그로 이동합니다. 02.20 62 0
2077 AI는 영어만 편애한다, 전 세계 6,003개 언어 중 AI가 외면하는 언어들의 현실 aimatters갤로그로 이동합니다. 02.20 76 0
2076 구글, 제미나이 3.1 Pro 출시…추론 성능 전작 대비 2배 이상 향상 aimatters갤로그로 이동합니다. 02.20 83 0
2075 구글(Google) 제미나이(Gemini) 앱, AI 음악 생성 기능 품었다…"텍스트 한 줄이나 폰 앨범 동영상으로 30초 트랙을” aimatters갤로그로 이동합니다. 02.20 1172 0
2074 "돈은 관심 없다"…오픈클로 개발자, 저커버그 제안 거절하고 알트만 택한 이유 aimatters갤로그로 이동합니다. 02.20 84 0
2073 오픈AI, 기업가치 850조 원 넘긴다…역대급 145조 원 투자 유치 임박 aimatters갤로그로 이동합니다. 02.20 47 0
2072 챗GPT에게 숙제 맡겼다가 낭패 본 고등학생들의 고백 [3] aimatters갤로그로 이동합니다. 02.19 1407 3
2071 인터넷 없이도 폭주하는 AI, 스마트폰 속 챗봇이 돌변하는 지점 예측 aimatters갤로그로 이동합니다. 02.19 78 0
2070 엄마들이 육아 고민을 SNS 대신 AI에게 털어놓는 이유 aimatters갤로그로 이동합니다. 02.19 82 0
2069 챗GPT 프로, '90% 할인'… 카카오 선물하기 깜짝 특가 aimatters갤로그로 이동합니다. 02.19 156 0
2068 오픈AI, 초당 1,000토큰 생성하는 초고속 코딩 모델 'GPT-5.3-Codex-Spark' 공개 aimatters갤로그로 이동합니다. 02.19 84 0
2067 "AI 비서가 하루종일 일한다"… 오픈AI, 장시간 작동 AI 만드는 법 공개 aimatters갤로그로 이동합니다. 02.19 87 0
2066 구글 AI 모델 불법 복제 시도 10만 건 돌파… 북한·중국 해커, 피싱에 본격 활용 [7] aimatters갤로그로 이동합니다. 02.19 2299 8
2065 구글 딥마인드의 제미나이, 수학·물리학 난제 해결하며 AI 연구 협력자로 진화 aimatters갤로그로 이동합니다. 02.19 69 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2