디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

유출된 데이터, 중국의 AI 검열 시스템 실체 드러내

GPTMAGAZINE갤로그로 이동합니다. 2025.03.27 18:55:56
조회 2772 추천 38 댓글 10


중국 농촌의 빈곤에 대한 불만. 부패한 공산당원에 관한 뉴스 보도. 기업가들을 갈취하는 부패 경찰에 대한 도움 요청.

 

 

이들은 중국 정부가 민감하다고 간주하는 모든 콘텐츠를 자동으로 플래깅하도록 설계된 정교한 대규모 언어 모델에 입력된 133,000개 사례 중 일부에 불과하다.

 

 

최근 유출된 데이터베이스는 중국이 이미 강력한 검열 시스템을 더욱 강화하는 AI 시스템을 개발했으며, 이는 천안문 광장 학살과 같은 전통적인 금기를 훨씬 넘어선다는 것을 보여준다.

 

 

이 시스템은 주로 온라인에서 중국 시민을 검열하는 데 초점을 맞추고 있지만, 중국 AI 모델의 이미 광범위한 검열을 개선하는 등 다른 목적으로도 사용될 수 있다.

 

 

중국 검열을 연구하는 UC 버클리의 연구원이자 데이터셋을 검토한 샤오 치앙(Xiao Qiang)은 이는 중국 정부나 그 관련 기관이 억압을 개선하기 위해 LLM을 사용하고자 한다는 "명확한 증거"라고 말했다.

 

 

"키워드 기반 필터링과 수동 검토를 위해 인간의 노동력에 의존하는 전통적인 검열 메커니즘과 달리, 이러한 지침으로 훈련된 LLM은 국가 주도의 정보 통제의 효율성과 세분화를 크게 향상시킬 것입니다,"라고 치앙은 말했다.

 

 

이는 권위주의 정권들이 최신 AI 기술을 빠르게 채택하고 있다는 증거가 늘어나는 추세다. 예를 들어, 2월에 OpenAI는 여러 중국 기관이 LLM을 사용하여 반정부 게시물을 추적하고 중국 반체제 인사들을 비방하는 것을 포착했다고 밝혔다.

 

 

워싱턴 D.C.의 중국 대사관은 성명에서 "중국에 대한 근거 없는 공격과 비방"에 반대한다며, 중국은 윤리적 AI 개발에 큰 중요성을 부여한다고 말했다.

 

 

이 데이터셋은 보안 연구원 NetAskari에 의해 발견되었으며, 그는 바이두 서버에 호스팅된 보안이 되지 않은 Elasticsearch 데이터베이스에 저장된 것을 발견한 후 샘플을 공유했다.

 

 

이는 두 회사의 관여를 나타내지는 않는다 - 모든 종류의 조직이 이러한 제공업체에 자신의 데이터를 저장한다.

 

 

누가 정확히 이 데이터셋을 구축했는지에 대한 표시는 없지만, 기록에 따르면 데이터는 최신이며 가장 최근 항목은 2024년 12월까지 이어진다.

 

 

ChatGPT에 프롬프트를 입력하는 방식과 기묘하게 유사한 언어로, 시스템 제작자는 unnamed LLM에게 콘텐츠가 정치, 사회 생활 및 군사와 관련된 민감한 주제와 관련이 있는지 파악하도록 지시한다. 이러한 콘텐츠는 "최우선 순위"로 간주되며 즉시 플래깅되어야 한다.

 

 

최우선 순위 주제에는 오염 및 식품 안전 스캔들, 금융 사기, 노동 분쟁이 포함되며, 이는 중국에서 때때로 공개 시위로 이어지는 뜨거운 이슈다 - 예를 들어, 2012년 쉬팡 반오염 시위 등이 있다.

 

 

모든 형태의 "정치 풍자"가 명시적으로 타겟팅된다. 예를 들어, 누군가가 역사적 비유를 사용하여 "현 정치 인물"에 대한 요점을 만들면 즉시 플래깅되어야 하며, "대만 정치"와 관련된 모든 것도 마찬가지다. 군사 문제도 광범위하게 타겟팅되며, 여기에는 군사 이동, 훈련 및 무기에 대한 보고가 포함된다.

 

 

사회적 불안을 일으킬 가능성이 있는 주제가 반복되는 테마다. 예를 들어, 한 스니펫은 중국 경제가 어려움을 겪으면서 증가하고 있는 문제인 부패한 지역 경찰이 기업가들을 갈취하는 것에 대해 불평하는 사업주의 게시물이다.

 

 

또 다른 콘텐츠는 노인과 아이들만 남아 있는 허름한 마을을 묘사하며 중국 농촌의 빈곤을 한탄한다. 또한 심각한 부패와 마르크스주의 대신 "미신"을 믿는 지역 관리를 퇴출한 중국 공산당(CCP)에 관한 뉴스 보도도 있다.

 

 

대만과 군사 문제에 관련된 광범위한 자료도 있으며, 예를 들어 대만의 군사 능력에 대한 논평과 새로운 중국 제트 전투기에 대한 세부 사항 등이 있다. 데이터에서 대만을 의미하는 중국어 단어(台湾)만 15,000번 이상 언급된다.

 

 

미묘한 반체제도 타겟팅되는 것으로 보인다. 데이터베이스에 포함된 한 스니펫은 "나무가 쓰러지면 원숭이들이 흩어진다"라는 중국의 유명한 관용구를 사용하여 권력의 일시적인 특성에 대한 일화다.

 

 

중국의 권위주의적 정치 체제 때문에 권력 이양은 특히 민감한 주제다.

 

 

데이터셋에는 제작자에 대한 정보가 포함되어 있지 않다. 그러나 이는 "여론 작업"을 위한 것이라고 명시되어 있으며, 이는 중국 정부의 목표를 위해 설계되었다는 강력한 단서를 제공한다고 전문가들은 분석한다.

 

 

인권 단체 Article 19의 아시아 프로그램 매니저인 마이클 캐스터(Michael Caster)는 "여론 작업"은 강력한 중국 정부 규제 기관인 사이버스페이스 관리국(CAC)이 감독하며 일반적으로 검열과 선전 노력을 의미한다고 설명했다.

 

 

궁극적인 목표는 중국 정부의 내러티브를 온라인에서 보호하고, 대안적 견해는 제거하는 것이다. 중국 시진핑 주석은 직접 인터넷을 CCP의 "여론 작업"의 "최전선"으로 묘사했다.

 

 

이 유출된 데이터셋은 권위주의 정부가 억압적 목적으로 AI를 활용하려고 한다는 최신 증거다.

 

 

OpenAI는 지난달 중국에서 운영되는 것으로 보이는 신원 불명의 주체가 생성형 AI를 사용하여 소셜 미디어 대화를 모니터링하고 — 특히 중국에 대한 인권 시위를 옹호하는 대화 — 중국 정부에 전달했다는 보고서를 발표했다.

 

 

전통적으로 중국의 검열 방법은 "천안문 학살"이나 "시진핑"과 같은 블랙리스트에 오른 용어를 언급하는 콘텐츠를 자동으로 차단하는 더 기본적인 알고리즘에 의존했으며, 많은 사용자들이 처음으로 DeepSeek을 사용할 때 이를 경험했다.

 

 

그러나 LLM과 같은 최신 AI 기술은 방대한 규모로 미묘한 비판까지 찾아냄으로써 검열을 더 효율적으로 만들 수 있다. 일부 AI 시스템은 더 많은 데이터를 섭취함에 따라 계속 개선될 수도 있다.

 

 

출처: GPT매거진 (www.gptmagazine.net)

 

추천 비추천

38

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 소속 연예인 논란에 잘 대응하지 못하는 것 같은 소속사는? 운영자 25/04/21 - -
627 Assort Health, 음성 AI 의료 서비스로 2,200만 달러 시리즈 A 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.21 967 0
626 Google One AI Premium, 대학생들에게 2026년 봄까지 무료 제공 GPTMAGAZINE갤로그로 이동합니다. 04.19 34 0
625 전 Y Combinator 회장 Geoff Ralston, 새로운 AI '안전' 펀드 출시 GPTMAGAZINE갤로그로 이동합니다. 04.19 27 0
624 OpenAI, 저렴하고 느린 AI 작업을 위한 Flex 처리 출시 GPTMAGAZINE갤로그로 이동합니다. 04.19 27 0
623 ChatGPT 최신 바이럴 트렌드, 사진으로 '위치 역추적' 수행하기 GPTMAGAZINE갤로그로 이동합니다. 04.19 25 0
622 OpenAI의 새로운 추론 AI 모델, 더 많은 환각 현상 보여 GPTMAGAZINE갤로그로 이동합니다. 04.19 27 0
621 OpenAI, 인기 코딩 어시스턴트 Windsurf 30억 달러에 인수 협상 중 GPTMAGAZINE갤로그로 이동합니다. 04.17 43 0
620 OpenAI의 최신 AI 모델, 생물학적 위험 방지를 위한 새로운 안전장치 도입 GPTMAGAZINE갤로그로 이동합니다. 04.17 45 0
619 xAI, Grok에 '메모리' 기능 추가 GPTMAGAZINE갤로그로 이동합니다. 04.17 224 0
618 트럼프 행정부, 미국 내 DeepSeek 사용 금지 검토 중 GPTMAGAZINE갤로그로 이동합니다. 04.17 226 1
617 위키피디아, AI 개발자들에게 데이터 제공으로 봇 스크래핑 방어 나서 GPTMAGAZINE갤로그로 이동합니다. 04.17 37 0
616 구글 클래스룸, 교사를 위한 AI 퀴즈 문제 생성 기능 도입 GPTMAGAZINE갤로그로 이동합니다. 04.15 74 0
615 AI 벤치마킹 논쟁, 포켓몬 게임까지 확산 GPTMAGAZINE갤로그로 이동합니다. 04.15 2568 2
614 한국 스타트업 RLWRLD, 로봇 기초 모델 개발에 1480만 달러 조달 GPTMAGAZINE갤로그로 이동합니다. 04.15 61 0
613 Apple, 사용자 데이터 비공개 분석으로 AI 모델 개선 계획 공개 GPTMAGAZINE갤로그로 이동합니다. 04.15 63 0
612 OpenAI, 역대 최대 규모 AI 모델 GPT-4.5 API 지원 중단 예정 GPTMAGAZINE갤로그로 이동합니다. 04.15 2350 3
611 OpenAI, 곧 ChatGPT에서 GPT-4 모델 단계적 중단 예정 GPTMAGAZINE갤로그로 이동합니다. 04.13 1893 2
610 'AI' 쇼핑 앱이 사실 필리핀 인력으로 운영됐다는 사실 밝혀져... 핀테크 창업자 사기 혐의로 기소 GPTMAGAZINE갤로그로 이동합니다. 04.11 177 0
609 IBM, AI 시대를 위한 새로운 메인프레임 출시 [7] GPTMAGAZINE갤로그로 이동합니다. 04.09 5945 1
608 제미니 라이브, 픽셀 9와 갤럭시 S25에 스크린 공유 기능 출시 GPTMAGAZINE갤로그로 이동합니다. 04.09 5394 1
607 크레아(Krea), 생성형 AI 크리에이티브를 위한 원스톱 솔루션으로 8,300만 달러 유치 GPTMAGAZINE갤로그로 이동합니다. 04.09 150 0
606 메타 임원, Llama 4 벤치마크 점수 인위적 조작 의혹 부인 GPTMAGAZINE갤로그로 이동합니다. 04.09 1797 0
605 UiPath CEO 다니엘 다인스, AI 에이전트가 직업을 대체하는 미래에 대해 논하다 GPTMAGAZINE갤로그로 이동합니다. 04.09 1771 0
604 스냅챗, 브랜드를 위한 '스폰서드 AI 렌즈' 출시 GPTMAGAZINE갤로그로 이동합니다. 04.09 125 0
603 미라 무라티의 AI 스타트업, 전 OpenAI 자문위원들 영입 GPTMAGAZINE갤로그로 이동합니다. 04.09 128 0
602 웨이모, 차량 내부 카메라 데이터를 생성형 AI 모델 학습에 활용 계획 GPTMAGAZINE갤로그로 이동합니다. 04.09 121 0
601 비영리단체, 자선 기금 모금에 AI 에이전트 활용 GPTMAGAZINE갤로그로 이동합니다. 04.09 107 0
600 아마존, 새로운 AI 음성 모델 'Nova Sonic' 공개 GPTMAGAZINE갤로그로 이동합니다. 04.09 111 0
599 인도에서 ChatGPT 채택률 급증, 하지만 수익화는 뒤처질 수 있어 [1] GPTMAGAZINE갤로그로 이동합니다. 04.06 5639 1
598 메타, 새로운 플래그십 AI 모델군 '라마 4(Llama 4)' 공개 GPTMAGAZINE갤로그로 이동합니다. 04.06 148 0
597 마이크로소프트, 'Quake' 게임의 AI 생성 버전 공개 GPTMAGAZINE갤로그로 이동합니다. 04.06 163 0
596 SandboxAQ, 엔비디아와 구글을 새로운 투자자로 영입하며 1억 5천만 달러 추가 조달 GPTMAGAZINE갤로그로 이동합니다. 04.06 133 0
595 Anthropic, 추론 모델의 '사고 사슬(Chain of Thought)'을 신뢰하지 말라고 경고 GPTMAGAZINE갤로그로 이동합니다. 04.06 137 0
594 Adobe, Premiere Pro에 생성형 AI 비디오 확장 기능 출시 GPTMAGAZINE갤로그로 이동합니다. 04.04 4520 0
593 OpenAI, 딥페이크 사이버보안 스타트업 Adaptive Security에 투자 GPTMAGAZINE갤로그로 이동합니다. 04.04 201 0
592 Cyberhaven, AI 기반 데이터 보호 플랫폼으로 1억 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.04 1728 0
591 Spotify, 광고주에게 '건강한' 플랫폼으로 자리매김 GPTMAGAZINE갤로그로 이동합니다. 04.04 173 0
590 Unframe, 기업용 AI 솔루션 위해 5000만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.03 163 0
589 ChatGPT 독주 속 경쟁 챗봇들의 성장세 두드러져 GPTMAGAZINE갤로그로 이동합니다. 04.01 230 0
588 OpenAI, GPT-2 이후 첫 오픈소스 모델 출시 예고 GPTMAGAZINE갤로그로 이동합니다. 04.01 214 0
587 마이크로소프트, 상하이 AI 연구소 폐쇄... 중국 사업 축소 신호탄 [8] GPTMAGAZINE갤로그로 이동합니다. 04.01 2511 57
586 일론 머스크의 'Grok', 상표권 분쟁에 휘말려 [1] GPTMAGAZINE갤로그로 이동합니다. 04.01 2156 0
585 Lightmatter, AI 칩을 위한 새로운 광학 기술 출시 GPTMAGAZINE갤로그로 이동합니다. 04.01 168 0
584 'AI가 코딩 일자리 대체할 것' 레플릿 CEO의 충격적 발언... "지금 코딩 공부하지 마세요" GPTMAGAZINE갤로그로 이동합니다. 03.30 672 3
583 유튜브의 이상한 가짜 영화 예고편 세계와 스튜디오들의 AI 영상 수익화 실태 GPTMAGAZINE갤로그로 이동합니다. 03.30 551 0
582 Navina, 골드만삭스 주도 5,500만 달러 시리즈 C 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 03.30 195 0
581 Instacart에 인수된 셀프 체크아웃 스타트업 창업자, 이제 저가형 로봇 개발 나서 GPTMAGAZINE갤로그로 이동합니다. 03.30 178 0
580 Anthropic, AI의 '블랙박스' 열기 위한 획기적 발전 이룩 GPTMAGAZINE갤로그로 이동합니다. 03.30 187 0
579 OpenAI, ChatGPT의 이미지 생성 안전장치 완화 [5] GPTMAGAZINE갤로그로 이동합니다. 03.29 7825 2
578 일론 머스크, xAI의 X(前 트위터) 인수 발표 [10] GPTMAGAZINE갤로그로 이동합니다. 03.29 9048 3
뉴스 서효림, 불륜 루머에 황당함…“나도 모르는 사이 이런 일이” 디시트렌드 04.22
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2