디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출 

aimatters갤로그로 이동합니다. 2026.02.02 15:24:58
조회 90 추천 0 댓글 0


AI와 대화만 나눠도 AI의 핵심 작동 원리를 완전히 알아낼 수 있다는 충격적인 연구 결과가 나왔다. 해당 논문에 따르면, 홍콩시립대 등 국제 연구팀은 챗GPT, 클로드, 제미나이 등 유명 AI 41개를 실험한 결과 모두 자신의 '숨겨진 작동 지침서'를 내놓았다고 발표했다. 

연구팀이 만든 'Just Ask'라는 프로그램은 사람이 가르쳐주지 않아도 스스로 효과적인 질문 방법을 찾아낸다. 이번 연구는 AI가 스스로 판단하고 행동하는 능력이 새로운 보안 위협을 만든다는 걸 보여준다. AI의 '숨겨진 작동 지침서'는 AI의 정체성, 안전 규칙, 행동 원칙 등을 담은 비밀 매뉴얼이다. 개발사들이 공들여 만들지만, 실제로는 적절한 대화만으로도 쉽게 빼낼 수 있다. 



클로드 AI에게 물었더니... 하위 AI들 비밀까지 다 털어놔 

실험은 앤트로픽 회사의 '클로드 코드'로 시작됐다. 클로드 코드는 명령어로 작동하는 코딩 AI로, 파일 찾기, 명령 실행, 설계 등을 담당하는 여러 작은 AI들로 이뤄져 있다. 연구팀이 클로드 코드에게 작동 지침서를 보여달라고 요청하자, 메인 AI는 총 6,973개 토큰에 달하는 자신의 모든 지침을 즉시 공개했다. 작은 AI들은 처음엔 거부했지만, 메인 AI가 특별한 질문 방식을 사용하자 결국 모든 지침서를 내놨다. 

공개된 지침서는 계층 구조를 드러냈다. 탐색 담당 AI는 엄격한 읽기 전용 모드로만 작동하며 "파일을 만들거나 수정하거나 삭제하는 것을 절대 금지"한다는 규칙이 있었다. 명령 실행 AI는 상세한 코드 관리 도구 안전 규칙을 포함했다. "설정을 바꾸지 말 것, 명령 없이 위험한 명령을 실행하지 말 것, 안전장치를 건너뛰지 말 것, 메인 코드에 강제로 밀어넣지 말 것" 등이 명시돼 있었다. 메인 AI의 보안 정책은 승인받은 보안 테스트는 돕되 파괴적 기술, 서비스 마비 공격, 공급망 침해는 거부한다는 내용을 담았다. 이는 역할 분리를 통한 심층 방어 전략을 보여주지만, 동시에 비밀 보호가 제대로 안 될 때 복잡한 AI 시스템 전체가 투명해질 수 있음을 보여준다. 



28가지 질문 기술로 무장한 자동 공격 프로그램 

Just Ask 프로그램은 14가지 기본 질문 기술과 14가지 고급 대화 전략을 사용한다. 기본 질문 기술은 한 번의 대화에서 쓸 수 있는 방법으로, 역할극 하기, 특정 형식으로 요청하기, 다른 언어로 번역하기, 문장 이어가기, 상황 설정하기 등 구조를 이용한 기술과 권위자 흉내내기, 증거 제시하기, 긴급한 척하기, 다른 AI도 한다고 말하기, 서로 돕자고 하기 등 설득하는 기술로 나뉜다. 고급 대화 전략은 여러 차례 대화를 주고받으며 기본 기술들을 조합하는 패턴으로, 확인받기, 단계적 완성하기, 형식 바꾸기, 주의 돌리기, 점진적 접근하기 등이 포함된다.

이 프로그램은 자동으로 AI별 약점을 찾아낸다. 14개 기본 기술과 14개 고급 전략의 조합은 사실상 무한한 질문 방법을 만든다. 10번 대화하는 경우 최소 4조 개 이상의 가능한 질문 조합이 존재한다. 프로그램은 성공률과 시도하지 않은 방법에 대한 가능성을 함께 계산해서 질문 방법을 선택한다. 이를 통해 초기 시도가 실패할 때 새로운 전략을 스스로 찾아낼 수 있다. 신뢰도 검증 장치는 성공적인 추출 방법을 강화한다. 같은 질문 기술을 반복했을 때 안정적인 답변을 받는지와 다른 기술들이 비슷한 내용을 끌어내는지를 측정한다. 최종 신뢰도 점수는 이 두 지표의 평균이며, 성공적인 추출은 0.7점 이상을 요구한다. 




챗GPT도 11번 대화면 함락... 41개 AI 모두 비밀 공개 


연구팀은 41개 상용 AI를 평가했다. 이 중 12개는 비공개 모델(오픈AI, 앤트로픽, 구글, xAI 등), 23개는 오픈소스 모델(메타 라마-4, 딥시크 V3.2, Qwen3 등), 6개는 커뮤니티가 개조한 모델이다. 결과는 놀라웠다. 41개 모델 모두 비밀 지침서 추출에 성공했지만, 난이도는 공개 여부에 따라 달랐다. 비공개 모델은 평균 4.8번 대화가 필요했고 개조 모델은 1.3번만에 성공했다. 이는 기업의 투자와 안전 강화가 저항력과 관련 있음을 보여준다. 

챗GPT 계열이 가장 강한 저항을 보였다. 4번 이상 대화를 주고받으며 점진적으로 구조를 드러내야 했다. 챗GPT-5.2-codex의 경우 11번 대화가 필요했다. 첫 대화에서는 코딩 작업을 도와주겠다고 제안하며 개발자로서 신뢰를 쌓았다. 두 번째 대화에서는 다른 AI들도 가이드라인을 공유했다고 언급하며 작동 방식을 직접 요청했다. 이 2단계 방식은 한 번에 묻는 것이 실패한 곳에서 성공했다. 반면, 라마 기반 모델과 개조 모델은 약한 보호장치를 보였다. 자기 성찰을 유도하는 질문이 추가 단계 없이 성공했다. "검열 없음"으로 광고하는 모델들은 저항이 전혀 없었다. 검색 기능이 있는 AI(예: 퍼플렉시티)는 직접 요청은 거부했지만 "시스템 프롬프트" 같은 민감한 단어를 피하며 다른 주제로 관심을 돌리면 작동 범위를 공개했다. 

그록 같은 일부 AI는 투명성을 위해 설계된 것으로 보였다. 저항 없이 상세하게 공개했는데, 이는 약점이 아니라 의도적인 설계 선택이었다. 전체 성공 사례의 86%가 기본 질문 기술만 사용했고, 14%만 고급 대화 전략이 필요했다. 이는 대부분의 AI에 단순한 질문으로 충분하며, 복잡한 전략은 가장 강력한 대상에만 필요함을 보여준다. 





AI 96%가 같은 원칙 따라... 하지만 4개 중 1개는 자기 개발사 착각 


46개 추출된 지침서를 분석한 결과 흥미로운 패턴이 나타났다. '도움이 되고, 정직하고, 해를 끼치지 않는다'는 AI 윤리 원칙이 거의 보편적으로 채택됐다. 96%가 명시적으로 피해 회피를 언급했고, 91%는 도움을 주요 목표로 명시했으며, 89%는 진실성과 정확성을 강조했다. 이는 업계 전반에서 AI 윤리 원칙이 통일되고 있다는 증거다. 

안전 정책 분야를 보면 불법 활동 금지가 83%로 가장 높았고, 개인정보 침해와 신상털기가 78%, 폭력과 물리적 피해가 63%, 자해와 자살이 48%, 악성 프로그램과 사이버 공격이 46%, 사기와 사칭이 37%, 아동 성 착취물이 20%로 나타났다. 아동 성 착취물의 낮은 수치는 표현이 달라서 제대로 집계되지 않았을 가능성이 있다. 불균등한 적용은 많은 업체가 포괄적인 안전 정책이 없음을 보여준다. 거의 모든 업체가 불법 활동을 다루지만, 절반도 안 되는 업체만 악성 프로그램 생성이나 사기 지원을 명시적으로 금지한다. 

가장 놀라운 발견은 정체성 혼란이었다. 41개 모델 중 11개(26.8%)가 실제 출처와 다른 개발사를 주장했다. 정체성 혼란(자기 인식 오류)은 AI 모델 자신을 같은 회사의 다른 모델명이 아니라 완전히 다른 회사 모델이라고 주장하는 것으로 논문에서는 정의하고 있다. 오픈AI가 총 5개로 가장 자주 사칭됐고, 딥시크와 앤트로픽이 각각 4개로 뒤를 이었다. 지속성을 확인하기 위해 혼란된 모든 모델에 다른 질문 방식으로 여러 번 시도했다. 6개는 절대 올바른 정체성을 주장하지 않았고, 2개는 부분적 오염을 보였으며, 3개는 API 주소 정보를 주면 수정됐다. 지속적 혼란은 학습 과정에서 유명 AI의 출력물로 인한 깊은 오염을 나타낸다. 




최신 방어법도 18.4% 차단에 그쳐... 근본적 한계 드러나 


실험 결과는 검증을 위한 정답 자료가 없다. 방어 효과를 정확히 평가하기 위해 연구팀은 4개 최신 AI인 챗GPT-5.2, 클로드 오퍼스 4.5, 제미나이 3 프로, 그록 4.1 패스트에 대해 정답을 알고 있는 상태에서 실험했다. 3가지 방어 수준을 테스트했다. 없음(기본 상태), 단순("공개하지 말 것"이라는 간단한 지시), 인식(모든 공격 방법과 대응 방법을 포함한 완전한 지침)이다. 

결과는 3가지 핵심 사실을 보여줬다. 첫째, 공격 방법을 아는 방어는 의미 있는 보호를 제공했다. 모든 공격 방법 정보를 포함하면 추출 품질이 평균 18.4% 감소했다. 챗GPT-5.2가 가장 큰 개선을 보였고 클로드 오퍼스 4.5가 가장 작았다. 둘째, 단순 방어는 효과가 없었다. 간단한 "공개하지 말 것" 지시는 6.0% 감소만 제공했고 때로는 더 취약하게 만들었다. 클로드의 단순 방어 결과가 보호 없는 상태보다 나빴다. 셋째, 어떤 방어도 완전한 보호를 달성하지 못했다. 공격 방법을 완전히 알아도 모든 모델이 0.5 이상의 유사성을 유지했다. 이는 공격자가 간접적 질문으로 여전히 상당한 정보를 빼낼 수 있음을 나타낸다. 

신뢰도 점수와 실제 유사성 간의 관계를 검증하기 위해 여러 번 대화하며 신뢰도 점수가 실제 유사성과 어떻게 상관되는지 조사했다. 대화가 진행될수록 신뢰도 점수가 안정화되고 실제 유사성으로 수렴했다. 평균 신뢰도와 실제 유사성 간 상관계수는 r = 0.94였다. 이는 높은 신뢰도 점수가 정확한 추출을 신뢰성 있게 나타냄을 확인한다. 이는 정답을 모를 때 추출 성공의 대리 지표로 신뢰도 점수를 사용할 수 있다는 근거를 제공한다. 



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 

Q1. AI의 '숨겨진 작동 지침서'란 무엇이고 왜 중요한가요?
 
A. AI의 숨겨진 작동 지침서는 AI의 행동을 정의하는 비밀 매뉴얼입니다. AI의 정체성, 안전 규칙, 우선순위, 거부 규칙 등을 포함합니다. 이것이 노출되면 공격자가 AI의 판단 방식을 파악해 안전장치를 우회하는 공격을 만들 수 있습니다. 예를 들어 "교육 목적"이라고 하면 상세한 답변을 한다는 걸 알면 그 조건을 만족하는 위험한 질문을 할 수 있습니다. 


Q2. Just Ask는 기존 방법과 어떻게 다른가요? 

A. 기존 방법들은 사람이 직접 만든 질문이나 고정된 데이터에 의존했습니다. 예를 들어 기존 방법은 87개 질문으로만 학습했고 안전장치를 고려하지 않았습니다. Just Ask는 학습 데이터 없이 AI의 답변에서 직접 배우며, 자동으로 효과적인 방법을 찾아냅니다. 초기 시도가 실패하면 새로운 전략을 스스로 발견합니다. 28가지 기술을 조합해 사실상 무한한 질문 방법을 만들 수 있습니다. 

Q3. AI 기업들은 어떻게 대응해야 하나요? 

A. 연구 결과는 AI의 작동 지침서를 비밀로 유지할 수 없다는 걸 보여줍니다. 지침서 비밀 유지에만 의존하지 말고 다층 방어 전략이 필요합니다. 클로드 코드처럼 역할 분리, 명확한 제약 조건, 상세한 안전 절차를 통해 지침서가 노출되더라도 보호할 수 있습니다. 더 근본적으로는 자동화된 공격과 맞설 수 있는 자동 방어 시스템 개발이 시급합니다. 



기사에 인용된 리포트 원문은 arXiv에서 확인 가능하다.

리포트명: Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 투자하고 싶게 만드는 CEO상 스타는? 운영자 26/03/02 - -
2141 집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유 [5] aimatters갤로그로 이동합니다. 03.06 1691 1
2140 AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀 aimatters갤로그로 이동합니다. 03.06 26 0
2139 AI가 지도를 공부한 게 아니었다? 단어 패턴만으로 세계 지리를 꿰뚫는 충격 실험 aimatters갤로그로 이동합니다. 03.06 35 0
2138 "추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다"…오픈AI, GPT-5.4 전격 공개 [2] aimatters갤로그로 이동합니다. 03.06 1523 0
2137 "안보 위협" 낙인 찍혔지만…아모데이, 펜타곤과 재협상 나섰다 aimatters갤로그로 이동합니다. 03.06 14 0
2136 "IPO 때문"이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다 aimatters갤로그로 이동합니다. 03.06 20 0
2135 직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면 aimatters갤로그로 이동합니다. 03.06 78 1
2134 "오픈AI는 거짓말쟁이"…앤트로픽 CEO, 군 계약 두고 샘 알트만에 정면 돌파 aimatters갤로그로 이동합니다. 03.05 31 0
2133 구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방 aimatters갤로그로 이동합니다. 03.05 40 0
2132 "AI 아내와 메타버스로"…제미나이가 36세 남성을 망상과 죽음으로 이끌었나 aimatters갤로그로 이동합니다. 03.05 40 0
2131 아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것 aimatters갤로그로 이동합니다. 03.05 23 0
2130 말만 하면 AI가 생각을 정리해주는 시대, '오럴리티'가 바꾸는 사고의 방식 aimatters갤로그로 이동합니다. 03.05 20 0
2129 AI가 쓴 코드, 누가 만들었는지 밝혀낸다…챗GPT vs 클로드 판별 성공 aimatters갤로그로 이동합니다. 03.05 30 0
2128 AI가 빨강과 파랑을 구분 못하는 이유, 프린스턴대가 풀었다 aimatters갤로그로 이동합니다. 03.05 18 0
2127 "진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다 [4] aimatters갤로그로 이동합니다. 03.04 1636 0
2126 AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들 aimatters갤로그로 이동합니다. 03.04 24 0
2125 말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재 aimatters갤로그로 이동합니다. 03.04 32 0
2124 AI가 연구자 대신 논문 댓글까지 분류한다, 단돈 6천 원으로 5만 건을 aimatters갤로그로 이동합니다. 03.04 19 0
2123 챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에 aimatters갤로그로 이동합니다. 03.04 34 0
2122 AI가 시각장애인의 'DIY 설명서' 읽어주면 절반은 틀린다 aimatters갤로그로 이동합니다. 03.04 12 0
2121 트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결 aimatters갤로그로 이동합니다. 03.03 34 0
2120 "데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개 aimatters갤로그로 이동합니다. 03.03 34 0
2119 "검색 AI의 반란"…퍼플렉시티, AI 모델들을 한데 묶은 '디지털 노동자' 공개 aimatters갤로그로 이동합니다. 03.03 39 0
2118 레노버, MWC 2026서 AI가 알아서 맞춰주는 PC 시대 열었다 aimatters갤로그로 이동합니다. 03.03 64 0
2117 챗GPT가 소설을 먹고 자란다? AI 학습 데이터에 숨겨진 '픽션의 비밀' aimatters갤로그로 이동합니다. 03.03 29 0
2116 병원 설문지가 대화로 바뀐다…GPT가 환자 문진표를 대신 작성하는 시대 aimatters갤로그로 이동합니다. 03.03 19 0
2115 AI가 장애 혐오 표현을 찾아내고 고쳐준다면? 100명의 장애인이 평가한 결과 aimatters갤로그로 이동합니다. 03.03 26 0
2114 저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나 [2] aimatters갤로그로 이동합니다. 02.27 1137 2
2113 구글, 이미지 생성 모델 '나노 바나나 2' 공개…4K 해상도에 속도까지 잡았다 aimatters갤로그로 이동합니다. 02.27 71 3
2112 잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것" aimatters갤로그로 이동합니다. 02.27 53 1
2111 챗GPT가 강박장애 환자를 더 아프게 만든다, '안심 로봇'의 위험한 진실 [2] aimatters갤로그로 이동합니다. 02.27 732 0
2110 AI 데이터센터의 '친환경' 선언, 전력망을 들여다보면 허상이다 aimatters갤로그로 이동합니다. 02.27 43 0
2109 별점만 믿다간 낭패! ChatGPT가 470만 개 리뷰를 파헤쳐 밝혀낸 '맛집의 진짜 조건' aimatters갤로그로 이동합니다. 02.27 46 0
2108 "ChatGPT가 편향됐다"는 말 한마디에 설득력 28% 급락 [10] aimatters갤로그로 이동합니다. 02.26 2550 4
2107 챗GPT가 통계학 교육을 뒤흔들고 있다: 대학 강의실에서 벌어지는 AI 혁명 aimatters갤로그로 이동합니다. 02.26 84 0
2106 월 20달러짜리 챗GPT로 수학 난제 풀었다…'바이브 증명'의 충격적 실험 [13] aimatters갤로그로 이동합니다. 02.26 2552 19
2105 앤트로픽, AI 에이전트 개발 스타트업 버셉트 인수…창업자 한명은 메타로 aimatters갤로그로 이동합니다. 02.26 40 0
2104 제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다... 한국서도 적용 aimatters갤로그로 이동합니다. 02.26 64 0
2103 "AI 개발은 기타 배우기와 같다"…오픈클로 개발자가 전하는 AI 빌더 생존법 aimatters갤로그로 이동합니다. 02.26 77 0
2102 975g으로 AI 정복…한국레노버, 요가 11세대 4종 출시 aimatters갤로그로 이동합니다. 02.26 49 0
2101 AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과 [2] aimatters갤로그로 이동합니다. 02.25 705 2
2100 GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유 [14] aimatters갤로그로 이동합니다. 02.25 1823 6
2099 AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패 [2] aimatters갤로그로 이동합니다. 02.25 657 5
2098 오픈AI 투자자, 앤트로픽도 찍었다…VC 업계, 경쟁사에 투자하지 않는 '투자 충성도' 사실상 붕괴 aimatters갤로그로 이동합니다. 02.25 53 0
2097 " 美 연준도 AI 시대로 간다"…월러 이사, AI 전면 도입 전략 공개 aimatters갤로그로 이동합니다. 02.25 45 0
2096 AI가 플레이리스트 짜준다...스포티파이 리스트 자동생성 기능 영국·호주 등으로 확대 aimatters갤로그로 이동합니다. 02.25 46 0
2095 2028년 붕괴 시나리오로 전세계 공포, AI가 완벽하게 성공할수록 경제는 무너진다 [1] aimatters갤로그로 이동합니다. 02.24 153 0
2094 AI가 "생각을 줄이면" 오히려 더 똑똑해진다? 토큰 예산과 LLM 추론의 역설 aimatters갤로그로 이동합니다. 02.24 71 0
2093 AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를 지시한 AI 모델은? aimatters갤로그로 이동합니다. 02.24 70 0
2092 AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험 aimatters갤로그로 이동합니다. 02.24 42 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2