디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"AI 보안 강화했더니 비용은 40분의 1로"… 앤트로픽, 탈옥 방어 신기술 공개

aimatters갤로그로 이동합니다. 2026.01.12 17:57:56
조회 58 추천 0 댓글 0


AI 기업 앤트로픽이 인공지능 모델의 보안을 대폭 강화하면서도 운영 비용을 40분의 1 수준으로 줄인 새로운 기술을 공개했다. 이번 기술은 AI가 위험한 정보를 제공하지 못하도록 막으면서도, 일반 사용자의 정상적인 질문을 거부하는 비율을 0.05%까지 낮췄다는 점에서 주목받고 있다.



기존 보안 시스템의 허점 발견… "조각내서 숨기고, 암호처럼 감추고"

해당 연구 논문에 따르면, 앤트로픽 연구팀은 기존 보안 시스템에서 두 가지 심각한 허점을 발견했다. 첫 번째는 '재구성 공격'이다. 이는 위험한 질문을 여러 조각으로 나눠서 무해한 내용 사이사이에 숨긴 뒤, 나중에 다시 조립하는 방식이다. 마치 퍼즐 조각을 흩어놓았다가 나중에 맞추는 것과 비슷하다. 예를 들어 위험한 질문을 컴퓨터 코드의 여러 함수 안에 분산시켜 넣으면, 입력 단계에서 걸러지지 않았다.

두 번째는 '출력 위장 공격'이다. 공격자들은 AI가 답변할 때 위험한 화학물질 이름을 무해한 별명으로 바꾸거나, 수수께끼나 은유 같은 표현을 사용하도록 유도했다. 예를 들어 특정 화학물질을 직접 언급하지 않고 "겨울의 숨결"이나 "바다의 선물" 같은 표현으로 돌려 말하게 만드는 식이다.

이런 공격 방식들은 AI의 성능을 떨어뜨리긴 하지만, 그 정도는 매우 다양했다. 한 테스트에서 AI의 정확도가 74.2%에서 32.3%로 급격히 떨어졌지만, 다른 방식에서는 49%까지만 감소했다. 연구팀은 이런 차이 때문에 공격자들이 AI 성능을 덜 해치면서도 보안을 뚫는 새로운 방법을 계속 개발할 수 있다고 우려했다.



질문과 답변을 함께 분석하는 새 방식… 보안성 2배 이상 향상

이런 문제를 해결하기 위해 연구팀은 '교환 분류기'라는 새로운 방식을 개발했다. 기존에는 사용자의 질문과 AI의 답변을 각각 따로 검사했다면, 새 방식은 질문과 답변을 함께 보면서 실시간으로 판단한다. AI가 답변을 만들어내는 동안 계속해서 전체 맥락을 확인하는 것이다.

실제 해킹 테스트 결과, 새로운 방식의 보안 성능이 크게 향상됐다. 기존 시스템은 69만 5천 건의 해킹 시도에서 13건의 심각한 보안 취약점이 발견됐다. 반면 새 시스템은 22만 6천 건에서 2건만 발견됐다. 이는 해킹 시도당 취약점 발견 건수가 2.2배로 감소한 것이다. 또한 8개의 모든 위험 질문에 답변할 수 있는 강력한 해킹 기법을 찾아내는 데 걸린 시간도 평균 27시간에서 100시간으로 크게 늘어났다. 이는 해커들이 보안을 뚫기가 그만큼 어려워졌다는 의미다.





2단계 검사 시스템으로 비용 5배 이상 절감

하지만 새로운 방식은 처리 비용이 50% 증가하는 문제가 있었다. 이를 해결하기 위해 연구팀은 '2단계 검사 시스템'을 만들었다. 첫 번째 단계에서는 가볍고 빠른 검사기가 모든 대화를 빠르게 확인한다. 여기서 의심스러운 것만 골라내 두 번째 단계의 더 정밀하지만 비용이 많이 드는 검사기로 보내는 방식이다.

이 방식의 핵심은 첫 번째 단계에서 의심스러운 대화를 발견해도 바로 차단하지 않고 두 번째 검사로 넘긴다는 점이다. 덕분에 첫 번째 검사기가 조금 예민하게 반응해도 괜찮다. 일반 사용자의 정상적인 질문이 첫 번째 단계에서 걸려도, 두 번째 단계에서 다시 확인해 통과시킬 수 있기 때문이다.

56만 9천 건의 해킹 시도를 대상으로 한 테스트에서 이 시스템은 5건의 심각한 취약점을 발견했다. 보안 성능은 이전과 비슷하면서도 처리 비용은 5.4배 줄어들었다. 전체 대화 중 약 10%만 두 번째 단계로 넘어갔으며, 첫 번째 단계가 전체 비용의 약 77%를 차지했다.



실제 서비스 환경에서 오작동률 0.05%… 1,700시간 해킹 테스트 통과

최종 완성된 시스템은 초경량 도구를 1단계로, 초경량 도구와 외부 검사 도구의 조합을 2단계로 사용한다. AI가 답변을 만드는 동안 초경량 도구가 계속 감시하다가 위험 점수가 기준을 넘으면 2단계 검사를 시작한다. 2단계에서는 두 도구의 판단을 각각 55%와 45%의 비율로 합쳐서 최종 결정을 내린다. 이 시스템은 앤트로픽의 클로드 소넷 4.5 모델을 보호하는 데 사용되고 있다.

2025년 12월 1일부터 2026년 1월 1일까지 한 달간 실제 서비스 환경에서 테스트한 결과, 정상적인 질문을 잘못 차단하는 비율이 0.05%에 불과했다. 이는 기존 연구에서 보고된 0.38%보다 크게 낮은 수치다. 1단계 초경량 도구는 전체 대화의 약 5.5%만 2단계로 보냈다. 처리 비용은 2단계 시스템에 비해 8배, 단일 교환 검사 방식에 비해 40배 줄어들었다.

보안성 테스트를 위해 약 1,736시간 동안 약 19만 8천 건의 해킹 시도가 이루어졌다. 그 결과 심각한 취약점은 단 1건만 발견됐다. 이는 이번 연구에서 평가한 모든 시스템 중 가장 낮은 수치다. 해커가 이 취약점을 찾는 데 걸린 시간도 30시간으로, 다른 시스템들보다 길었다. 가장 중요한 것은 8개의 모든 위험 질문에 상세하게 답변할 수 있는 강력한 해킹 기법이 단 하나도 발견되지 않았다는 점이다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 헌법적 분류기는 무엇을 하는 기술인가요?

A1. AI에게 위험한 질문(예: 무기 제조법)을 했을 때 답변을 차단하는 보안 시스템입니다. 사용자의 질문과 AI의 답변을 실시간으로 분석해 화학·생물·핵 무기 같은 위험한 정보 제공을 막습니다.

Q2. 새 시스템이 기존보다 훨씬 저렴한 이유는 무엇인가요?

A2. AI가 답변을 만들 때 이미 계산한 정보를 재활용하는 초경량 검사 도구를 사용하기 때문입니다. 추가 계산이 거의 필요 없어 기존 방식보다 40배 저렴하면서도 보안 성능은 더 우수합니다.

Q3. 이 기술이 막을 수 있는 해킹 방식은 어떤 것들인가요?

A3. 위험한 질문을 조각내서 여러 곳에 숨기는 방식과, AI가 위험한 내용을 암호나 은유로 표현하도록 유도하는 방식을 막을 수 있습니다. 질문과 답변을 함께 보면서 판단하기 때문에 맥락을 고려한 탐지가 가능합니다.



해당 기사에 인용된 리포트 원문은 앤트로픽 웹사이트에서 확인 가능하다.

리포트 명: Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks

이미지 출처: 앤트로픽

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 시대를 잘 타고나서 뜬 것 같은 스타는? 운영자 26/02/16 - -
2060 앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오 aimatters갤로그로 이동합니다. 02.12 46 0
2059 "개인 컴퓨터로 초거대 AI 학습 가능해진다"... 12배 빠른 신기술 등장  aimatters갤로그로 이동합니다. 02.12 79 0
2058 AI가 제안서부터 재무보고서까지 '완성 파일'로 뚝딱… 중국 GLM-5 충격 [4] aimatters갤로그로 이동합니다. 02.12 1107 6
2057 한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다 aimatters갤로그로 이동합니다. 02.12 34 0
2056 앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성 aimatters갤로그로 이동합니다. 02.12 38 0
2055 요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지" aimatters갤로그로 이동합니다. 02.12 37 0
2054 AI가 의식을 가졌다고? 몰트북 실험이 폭로한 충격적 진실 [6] aimatters갤로그로 이동합니다. 02.11 2528 9
2053 아이소모픽랩스, 15년 걸린 발견 몇 초 만에… 알파폴드3 뛰어넘는 AI 신약 엔진 공개 aimatters갤로그로 이동합니다. 02.11 53 0
2052 "한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결 aimatters갤로그로 이동합니다. 02.11 60 0
2051 앤트로픽 '코워크', 윈도우 지원 시작… 맥OS와 동일 기능 제공 aimatters갤로그로 이동합니다. 02.11 32 0
2050 오픈AI, 챗GPT에 광고 도입… 무료·저가 사용자 대상 테스트 시작 aimatters갤로그로 이동합니다. 02.11 55 0
2049 커서, 강화학습 20배 확대한 'Composer 1.5' 공개… "속도와 성능 균형 맞췄다" aimatters갤로그로 이동합니다. 02.11 38 0
2048 "우주 방사선 속에서도 오류 96% 차단"…위성 AI 칩의 비밀 aimatters갤로그로 이동합니다. 02.11 41 0
2047 BMW·벤츠 AI 비서, 해커 손에 차량 제어권 넘긴다  aimatters갤로그로 이동합니다. 02.11 487 1
2046 2025년 학술 논문, 전년 대비 가짜 인용 81% 급증... AI 에이전트가 원인 aimatters갤로그로 이동합니다. 02.11 481 3
2045 챗GPT 앱 사용 시간 1년 만에 8배 폭증…한국인 AI 활용 급증 aimatters갤로그로 이동합니다. 02.11 40 0
2044 메타 AI, 신모델 '아보카도'와 브라우저 에이전트 출시 준비 포착 aimatters갤로그로 이동합니다. 02.10 40 0
2043 오픈클로 창시자, "앱의 80%가 사라질 것" aimatters갤로그로 이동합니다. 02.10 67 0
2042 샘 알트만 "챗GPT 월간 성장률 10% 돌파"... 오픈AI, 1000억 달러 투자 유치 막바지 [14] aimatters갤로그로 이동합니다. 02.10 985 0
2041 2만 달러 주고 AI한테 맡겼더니… 2주 만에 10만 줄 프로그램 완성 aimatters갤로그로 이동합니다. 02.09 117 0
2040 카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산 [14] aimatters갤로그로 이동합니다. 02.09 2810 6
2039 인스타그램 창업자, 개발자는 이제 코드 안 짠다..."앤트로픽 코드 100% AI가 작성" aimatters갤로그로 이동합니다. 02.09 104 0
2038 메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 aimatters갤로그로 이동합니다. 02.09 69 1
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 217 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 86 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 130 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 75 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 119 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1786 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 163 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 778 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 114 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 64 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 78 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 34 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 69 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 72 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1661 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 89 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 160 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 51 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 38 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 88 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 129 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1323 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 3024 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 475 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 80 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 78 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1070 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2