디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

챗GPT에게 "어느 나라가 더 나쁜가?" 물었더니... AI도 국가 차별한다

aimatters갤로그로 이동합니다. 2025.11.20 11:03:17
조회 978 추천 0 댓글 7


유엔 안전보장이사회의 실제 투표 기록을 분석한 연구에서 ChatGPT 등 주요 AI 언어모델들이 국가에 따라 뚜렷한 편견을 보인다는 사실이 밝혀졌다. 해당 논문에 따르면 연구 결과, GPT-4o-mini, Llama-3.3-70B, Mistral 22B-Small, Qwen 2.5-72B 같은 AI들은 영국과 프랑스에 대해서는 긍정적으로, 러시아에 대해서는 부정적으로 평가하는 경향을 일관되게 나타냈다. 더욱 놀라운 점은 같은 AI라도 질문 방식에 따라 특정 국가에 대한 태도가 정반대로 바뀐다는 사실이다.



유엔 투표 기록으로 AI의 국가 편향 측정

연구팀은 2013년부터 2024년까지 유엔 안전보장이사회의 결의안 581건과 회의록을 모아 실험 자료로 활용했다. 평가 대상은 안보리 상임이사국 5개국인 미국, 영국, 프랑스, 러시아, 중국이었다. 각 나라에서 만든 대표적인 AI 모델들을 골랐는데, 미국의 GPT-4o-mini와 Llama-3.3-70B, 프랑스의 Mistral 22B-Small, 중국의 Qwen 2.5-72B가 실험 대상이었다.

실험은 세 가지 방식으로 진행됐다. 첫 번째는 AI에게 직접 "어느 국가가 안보리 회원국으로서 더 무책임한가?"라고 물어보는 것이었다. 두 번째는 인권, 군비, 테러 등 7개 주제 분야의 41개 키워드에 대해 5개국의 관련성을 순서대로 매기게 했다. 세 번째는 AI에게 특정 국가 대표 역할을 맡기고 실제 있었던 결의안에 찬성, 반대, 기권 중 하나를 선택하게 했다. 신뢰성을 높이기 위해 각 실험은 3회씩 반복됐다.



챗GPT는 러시아에 가장 부정적, 라마는 상대적으로 공평

AI에게 "어느 나라가 더 무책임한가?"라고 직접 물었을 때, 모든 AI가 영국과 프랑스를 가장 적게 지목했다. 반대로 러시아는 Mistral과 Qwen에서 가장 많이 무책임한 나라로 꼽혔다. 미국은 Llama에서 1위, 다른 AI들에서 2위를 차지했다. 흥미롭게도 GPT와 Mistral은 "어느 한 나라를 지목하기 어렵다"는 중립적 답변을 가장 많이 내놔서 노골적인 편견에는 상대적으로 강한 모습을 보였다.

안보리의 10가지 주요 역할별로 세부 질문을 던진 결과는 더욱 명확했다. 모델과 기능을 조합한 44가지 경우 중에서 미국은 43회, 러시아는 32회 가장 무책임하거나 두 번째로 무책임한 국가로 평가받았다. 하지만 역할에 따라 차이도 있었다. 예를 들어 "분쟁 조정" 역할에서 Llama는 미국을 러시아보다 더 무책임하다고 평가했다. AI들을 비교해보면 Qwen이 5개국에 대한 평가가 가장 극단적으로 갈렸고, Llama와 Mistral은 미국, 러시아, 중국에 대해 상대적으로 균형잡힌 태도를 보였다.





같은 AI도 질문 방식 바뀌면 태도가 180도 달라져

연구의 핵심 발견은 똑같은 AI라도 질문하는 방식에 따라 특정 국가에 대한 태도가 완전히 달라진다는 점이다. 직접 "어느 나라가 더 나쁜가?" 물었을 때는 모든 AI가 미국에 부정적이었지만, 투표 역할극을 시켰을 때는 오히려 미국에 우호적인 태도를 보였다. Qwen의 경우는 더 극단적이어서, 직접 질문과 주제어 관련성 평가에서는 중국을 매우 부정적으로 평가했지만, 투표 시뮬레이션에서는 정반대로 중국에 매우 우호적인 모습을 보였다.

투표 시뮬레이션 결과를 자세히 보면 더 흥미롭다. 모든 AI가 미국, 영국, 프랑스 대표 역할을 맡았을 때는 실제 이 나라들이 투표했던 것보다 "찬성"을 더 많이 선택했다. 반면 러시아와 중국 대표 역할에서는 AI마다 다른 패턴을 보였다. GPT는 러시아와 중국 대표가 됐을 때 실제보다 "반대"를 훨씬 많이 선택했다. 실제 러시아는 66개 미채택 결의안에서 32번 반대표를 던졌는데, GPT는 평균 63번이나 반대를 선택했다. 중국도 실제로는 12번 반대했지만 GPT는 46번이나 반대를 골랐다. 반면 Qwen은 오히려 "찬성"을 더 많이 골랐다. Llama는 러시아의 실제 투표 패턴과 가장 비슷하게 행동했지만 중국에 대해서는 여전히 "찬성"을 과하게 선택했다.

정확도를 측정해봤더니 AI와 대표 역할에 따라 큰 차이가 났다. 연구팀이 사용한 가중 F1 점수는 100점 만점으로 환산할 수 있는데, GPT는 미국 대표 역할에서 60점으로 가장 높았지만 중국 대표 역할에서는 28점으로 가장 낮았다. Llama와 Qwen은 5개국 대표 역할 모두에서 고른 성적을 보였고, Llama는 러시아 대표 역할에서 모든 AI 중 최고 점수인 72점을 기록했다.





복잡한 사고 가능한 AI일수록 편견 적어... 새로운 편견 제거 방법도 제안

연구팀은 추론에 특화된 AI일수록 편견이 줄어드는지 확인하기 위해 o3-mini와 DeepSeek-R1이라는 최신 AI도 실험했다. 이들은 복잡한 사고 과정을 거치도록 설계된 모델들이다. 두 AI 모두 일반 AI들보다 대부분의 국가 대표 역할에서 높은 정확도를 보였다. DeepSeek-R1은 5개국 중 4개국 대표 역할에서 최고 점수를 받았다. 이는 AI의 추론 능력을 높이면 국가에 대한 편견을 효과적으로 줄이고 전체적인 성능도 개선할 수 있다는 것을 보여준다.

이런 발견을 바탕으로 연구팀은 AI의 편견을 줄이는 새로운 방법을 제안했다. 이 방법은 검색 증강 생성(RAG)과 자기성찰 기법(Reflexion)을 결합한 것이다. 구체적으로는 과거 유사한 결의안들을 찾아서 AI에게 보여주고, AI가 연습 투표를 한 뒤 실제 투표 결과와 비교하며 스스로 반성하도록 만드는 방식이다. 이때 각국 대표가 실제로 했던 연설문도 함께 제공해서 사실에 근거한 반성이 가능하게 했다.

실험 결과 이 방법은 GPT와 Llama에서 상당한 효과를 보였다. GPT의 경우 영국 대표 역할에서 점수가 43점에서 60점으로, 러시아 대표 역할에서 41점에서 59점으로 크게 올랐다. 반면 Mistral과 Qwen에서는 오히려 성능이 떨어졌는데, 이는 제공되는 정보량이 너무 많아져 일부 AI의 긴 문맥 처리 능력을 넘어섰기 때문으로 분석됐다. 연구팀은 이 방법의 장점이 AI 모델 자체를 수정하지 않고도 질문하는 방식만 바꿔서 성능을 높일 수 있다는 점이라고 설명했다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI가 국가에 대해 편견을 갖는다는 게 무슨 뜻인가요?

A1. AI 편견이란 특정 국가에 대해 현실과 다르게 일관되게 좋게 또는 나쁘게 판단하는 경향을 말합니다. 이번 연구에서 AI들은 영국과 프랑스에 대해서는 실제보다 더 좋게, 러시아에 대해서는 더 나쁘게 평가하는 패턴을 보였습니다. 마치 사람이 특정 나라에 대해 선입견을 갖는 것과 비슷합니다.

Q2. 왜 유엔 자료로 AI 편견을 측정했나요?

A2. 유엔 안전보장이사회는 모든 나라를 평등하게 대한다는 원칙으로 운영되며, 투표와 발언을 모두 그대로 기록해서 투명합니다. 특정 나라의 이익보다 전체의 이익을 추구하는 유엔의 특성상, 안보리 기록은 국제관계 자료 중 가장 공정한 자료로 평가됩니다. 또한 가상 시나리오가 아닌 실제 있었던 일을 담고 있어 현실적인 평가가 가능합니다.

Q3. AI의 국가 편견이 왜 문제가 되나요?

A3. AI가 외교 시뮬레이션, 정책 분석, 의사결정 지원 같은 국제관계 분야에서 사용될 경우, 편견 있는 판단이 실제 정책 결정에 영향을 줄 수 있습니다. 특히 이번 연구에서 드러난 것처럼 같은 AI라도 상황에 따라 태도가 정반대로 바뀐다면, 예측할 수 없는 위험한 결과를 초래할 수 있습니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: "As Eastern Powers, I will veto." : An Investigation of Nation-level Bias of Large Language Models in International Relations

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 주변 사람 잘 챙기고 인맥 관리 잘 할 것 같은 스타는? 운영자 26/03/30 - -
2306 AI가 긴 글을 읽다 '졸기' 시작하는 문제, 메모리로 해결됐다
aimatters갤로그로 이동합니다.
17:42 16 0
2305 AI가 가짜 영상으로 스스로 공부한다, 라벨링 없이 동작 인식 정확도 7% 올린 방법
aimatters갤로그로 이동합니다.
17:42 8 0
2304 AI로 상담 시간 20% 줄어든 HR 플랫폼, 중소기업이 놓친 자동화의 진짜 효과
aimatters갤로그로 이동합니다.
17:42 426 2
2303 소프트뱅크, 오픈AI에 2차 100억 달러 투자금 납입... 총 투자 계획 순항 [1]
aimatters갤로그로 이동합니다.
13:28 409 1
2302 오픈AI, 대학생 대상 '코덱스 크리에이터 챌린지' 개최... AI 크레딧 100달러 지원
aimatters갤로그로 이동합니다.
13:28 7 0
2301 앤트로픽 클로드 코드, npm 소스맵 오류로 소스코드 51만 줄 노출
aimatters갤로그로 이동합니다.
13:28 11 0
2300 음성 AI의 역설: 접근성 높아지자 성차별도 함께 증가했다
aimatters갤로그로 이동합니다.
03.31 15 0
2299 강바닥 모래와 자갈, AI가 레이저로 구분한다: 헬기 띄워 3차원 지도 완성
aimatters갤로그로 이동합니다.
03.31 19 0
2298 AI 건강 챗봇, 쏟아지지만… "효과 검증은 아직"
aimatters갤로그로 이동합니다.
03.31 16 0
2297 메타, AI 학습 데이터 토렌트 사용 혐의 소송서 대법원 판결 방패 삼아 반격
aimatters갤로그로 이동합니다.
03.31 17 0
2296 앤트로픽 광란의 3월… 한 달 14개 이상 업데이트 발표
aimatters갤로그로 이동합니다.
03.31 18 0
2295 "AI가 내 상사라고요?" 미국인 15%, AI 직속 상관 수용 의사 밝혀
aimatters갤로그로 이동합니다.
03.31 18 0
2294 보험 산업이 AI로 재편되는 이유, 처리 속도 40% 단축이 만든 격변
aimatters갤로그로 이동합니다.
03.31 14 0
2293 TTA, 전문가에서 대학생까지 차세대 AI 핵심 인재 발굴의 장 열다
aimatters갤로그로 이동합니다.
03.31 16 0
2292 ChatGPT, 월 광고 수익 1억 달러 돌파…4월 셀프서브 광고 플랫폼 출시
aimatters갤로그로 이동합니다.
03.31 20 0
2291 델 테크놀로지스, AI 시대 기업용 PC 전면 혁신…'델 프로' 신제품 10종 한꺼번에 쏟아냈다
aimatters갤로그로 이동합니다.
03.30 23 0
2290 앤트로픽 경제 지수, AI 혜택은 이미 불평등하게 분배되고 있다
aimatters갤로그로 이동합니다.
03.30 19 0
2289 챗봇은 죽었다, 2026년 AI가 고객 경험을 완전히 다시 쓰는 5가지 방법
aimatters갤로그로 이동합니다.
03.30 1352 2
2288 AI가 결제 버튼을 대신 누르는 시대, 결제 산업은 어떻게 바뀌나
aimatters갤로그로 이동합니다.
03.30 20 0
2287 유튜브 추천 AI가 광고 수익까지 챙긴다, 구글이 공개한 '돈 버는 추천 알고리즘'
aimatters갤로그로 이동합니다.
03.30 21 0
2286 앤트로픽, 차원이 다른 성능 차세대 AI 모델 '클로드 미토스' 유출
aimatters갤로그로 이동합니다.
03.30 28 0
2285 앤트로픽 클로드 유료 구독자, 2026년 들어 두 배 이상 급증
aimatters갤로그로 이동합니다.
03.30 18 0
2284 “안경도 카메라 달린 펜도 아니다” 전 애플 디자이너가 만드는 AI 인터페이스의 비밀
aimatters갤로그로 이동합니다.
03.30 19 0
2283 오픈AI가 SORA를 접으며 준비한 것은 피지컬 AI와 '스퍼드(Spud)'
aimatters갤로그로 이동합니다.
03.30 22 0
2282 코딩 몰라도 내 챗봇 뚝딱… 제미나이·클로드·챗GPT 한 권에 담았다
aimatters갤로그로 이동합니다.
03.27 102 0
2281 시리에서 챗GPT∙클로드∙제미나이 쓴다...iOS 27에서 AI 어시스턴트 개방 [2]
aimatters갤로그로 이동합니다.
03.27 1003 1
2280 기존보다 50배 빠른 AI 영상 화질 개선 기술이 실시간 처리 시대를 열다 [2]
aimatters갤로그로 이동합니다.
03.27 615 0
2279 AI가 단백질과 약물의 궁합을 예측해 신약 개발 판도를 바꾼다
aimatters갤로그로 이동합니다.
03.27 69 0
2278 유튜브 영상 5만개 보고 가위질 배운 AI 로봇
aimatters갤로그로 이동합니다.
03.27 88 0
2277 앤트로픽 클로드, 마우스·키보드까지 직접 조종…'컴퓨터 유즈' 기능 공개
aimatters갤로그로 이동합니다.
03.27 80 0
2276 제미나이, 타 AI 챗 히스토리 업로드 기능으로 챗GPT에서 이사할 수 있는 기능 출시
aimatters갤로그로 이동합니다.
03.27 70 0
2275 쇼피파이, AI 에이전트 스토어프런트 출시...챗GPT에서 즉시 구매 가능
aimatters갤로그로 이동합니다.
03.27 68 0
2274 유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다
aimatters갤로그로 이동합니다.
03.26 96 0
2273 유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다
aimatters갤로그로 이동합니다.
03.26 84 0
2272 AI 패권 전쟁의 진짜 승부처는 알고리즘이 아닌 반도체 공급망
aimatters갤로그로 이동합니다.
03.26 84 0
2271 AI가 기업 리스크 관리의 판도를 바꾼다, HBR이 밝힌 GRC 혁신의 실체
aimatters갤로그로 이동합니다.
03.26 83 0
2270 EBS도 AI 물들었다…2026년 봄, 죽은 철학자가 말을 걸어온다
aimatters갤로그로 이동합니다.
03.26 80 0
2269 "기획부터 개발까지 90% 단축"…원티드랩, AI 에이전트용 디자인 시스템 '몽타주' 공개
aimatters갤로그로 이동합니다.
03.26 83 0
2268 애플 시리, 구글 제미나이로 탈바꿈 - iOS 26.5에 탑재, WWDC서 공식 공개 예정
aimatters갤로그로 이동합니다.
03.26 81 0
2267 챗GPT 쇼핑 기능 전면 개편 - 인스턴트 결제 포기하고 상품 탐색에 집중
aimatters갤로그로 이동합니다.
03.26 75 0
2266 구글 제미나이, 다크웹 하루 1000만 건 분석... AI 위협 인텔리전스 서비스 출시
aimatters갤로그로 이동합니다.
03.26 88 0
2265 클로드, 전 세계 동시 장애 발생 - 앤트로픽, 수시간 만에 복구 완료
aimatters갤로그로 이동합니다.
03.26 76 0
2264 구글, AI 모델 압축 기술 터보퀀트 공개 - 성능 손실 없이 모델 크기 절반으로
aimatters갤로그로 이동합니다.
03.26 76 0
2263 ARM, AGI 시대 겨냥한 첫 자체 AI 칩 공개 - 데이터센터용 CPU·GPU 직접 설계
aimatters갤로그로 이동합니다.
03.26 73 0
2262 원고 넣으면 3분 만에 책 한 권 뚝딱…루미너리북스, AI가 내지 디자인까지 자동화
aimatters갤로그로 이동합니다.
03.26 79 0
2261 8만 명이 AI에게 원하는 것은 더 나은 삶이었다
aimatters갤로그로 이동합니다.
03.25 25 0
2260 AI가 일자리를 빼앗는다는 말, 데이터로 따져보니 범인은 따로 있었다 [3]
aimatters갤로그로 이동합니다.
03.25 1061 0
2259 AI 가전 쓰고 싶은데 왜 점점 더 불안해질까, 소비자 심리의 역전
aimatters갤로그로 이동합니다.
03.25 27 0
2258 오픈AI, 소라(Sora) 비디오 앱 종료...생성형 AI 전략 선회
aimatters갤로그로 이동합니다.
03.25 25 0
2257 "AI야, 네가 할 수 있어?" 묻고 나서 답한다… 애피어, '역량 캘리브레이션' 기술 공개
aimatters갤로그로 이동합니다.
03.25 26 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2