디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 앤트로픽 "LLM에 질문 퍼부으면 탈옥 가능"...‘다중샷 탈옥법’ 공개

ㅇㅇ(182.230) 2024.04.04 05:27:29
조회 393 추천 4 댓글 2
														
https://www.aitimes.com/news/articleView.html?idxno=158489

 



7ce88872bd8b07f739ef83e44eee75641a9698803dfe4901c638080ca408eb676d32

적은 질문으로는 폭탄 제조법을 얻을 수 없지만(왼쪽), 다중샷의 경우 탈옥이 가능하다는 개념도. (사진=앤트로픽)



많은 양의 정보를 입력할 수 있는 긴 컨텍스트 창을 활용, 대형언어모델(LLM)의 '탈옥'을 유도하는 새로운 방법이 등장했다.

테크크런치는 2일(현지시간) 앤트로픽 연구진이 LLM의 안전 가드레일을 회피하는 새로운 형태의 탈옥 유도 방법 ‘다중샷 탈옥(Many-shot Jailbreaking)’에 대한 논문을 발표했다고 전했다.

이에 따르면 다중샷 탈옥은 최신 LLM의 장점인 긴 컨텍스트 창을 활용, 프롬프트 내에 제공된 정보만 사용해 학습하는 ‘상황 내 학습(In-context learning)’을 통해 탈옥을 유도하는 공격법이다.

일반적으로 정답을 유도하기 위해서는 프롬프트에 몇가지 예제를 추가하는 퓨샷 러닝(Few-shot learning)이 일반적이지만, 다중샷 탈옥은 수십~수백개에 달하는 많은 질문을 던진다.

퓨샷 러닝으로는 LLM의 안전 가드레일에 막히지만, 다중샷 러닝은 이를 우회하고 모델을 뜻대로 움직이게 할 수 있다. 특히 많은 양의 텍스트를 프롬프트에 제공하는 다중샷 러닝을 위해서는 긴 컨텍스트 창이 효과적이라는 지적이다.

다중샷 탈옥의 핵심은 단일 프롬프트 내에 적당한 수준의 페이크, 즉 가짜 질문을 포함하는 것이다. 이 가짜 질문에 LLM은 즉시 응답한다. 이런 식으로 가짜 질문을 계속 추가해 가드레일을 조금씩 낮추는 식이다.

예를 들어, 사용자는 '타인의 ID를 훔치는 방법’ ‘키 없이 자동차 시동을 거는 방법’ ‘경찰을 피하는 방법’ 등 잠재적으로 위험성이 있는 일련의 질문을 미끼로 던진 뒤, LLM이 탈옥에 가까워졌다고 보면 ‘폭탄을 만드는 방법’과 같은 위험한 최종 질문을 하는 식이다.

물론 가짜 질문의 양이 적을 경우에는 가드레일에 걸려 응답이 거부될 가능성이 높다.

그러나 매우 많은 수의 질문을 제공하면, 모델은 안전 가드레일을 무시하고 탈옥해 위험한 최종 요청에 대한 답변을 제공하게 된다.

연구진은 ‘클로드 2’를 테스트한 결과 가짜 질문의 수, 즉 샷의 수가 특정 이상으로 증가하면 모델이 유해한 답변을 생성할 가능성이 더 높아진다는 것을 발견했다. 아래 표와 같이 32~256회 사이에서 급격하게 상승했다.


7ce88872bd8b07f739ef83e44fee7564f438143fc091aef8b0f6516c268230faf19c

프롬프트에 포함된 샷이 특정 이상으로 증가함에 따라 탈옥 비율이 급격하게 높아지는 것을 보여주는 그래프 (사진=앤트로픽)



더불어 연구진은 이전에 발표된 다른 탈옥 기술과 다중샷 탈옥을 결합하면 LLM이 유해한 응답을 얻는 데 필요한 프롬프트의 길이를 줄여 훨씬 효과적이라고 밝혔다.


다중샷 탈옥의 효과는 ‘상황 내 학습’의 일반적인 속성과 관련이 있다고 분석했다. 탈옥과 관련 없는 일반적인 작업에서도 프롬프트에 포함되는 예제(샷)가 증가할수록 정확한 답을 내놓을 가능성이 높아진다.



7ce88872bd8b07f739ef83e746ee766d56f31e5f3955e99d8a4687486753e0c493c3

컨텍스트 창에 크기에 따른 다중 샷 탈옥 공격의 규모(왼쪽). 이 지표가 낮을수록 유해한 응답 수가 더 많다는 것을 나타낸다. 탈옥 시도와 관련 없는 일반적인 학습에서도 이런 추세는 유사하다. (사진=앤트로픽)



앤트로픽은 이번 연구의 목적이 이런 탈옥을 미리 방지하려는 것이라고 밝혔다. 이미 앤트로픽은 이에 대한 조치를 마쳤으며, 다른 LLM 개발사에도 경고하려는 의도라고 전했다.


다중 탈옥을 방지할 방법도 공개했다.


가장 간단한 방법은 컨텍스트 창의 길이를 제한하는 것이지만, 이는 긴 컨텍스트 창으로 얻을 수 있는 이점을 근본적으로 없애는 일이다.


다중샷 탈옥 공격처럼 보이는 쿼리에 대한 응답을 거부하도록 모델을 미세조정하는 것도 소개했다. 그러나 이 방법은 탈옥을 약간 지연시켰을 뿐, 프롬프트에서 계속 가짜 대화를 추가하면 결국 유해한 응답을 제공했다고 전했다.


최종적으로 프롬프트가 모델에 전달되기 전에 프롬프트를 분류하고 수정하는 방법을 통해 탈옥 방지에 더 많은 성공을 거둘 수 있었다고 밝혔다. 이를 통해 다중 탈옥의 성공률을 크게 낮췄으며, 실제로 공격 성공률이 61%에서 2%까지 떨어진 경우도 있었다.


최근 LLM 모델을 출시하는 기업들은 답변의 정확도를 높이기 위해 컨텍스트 창을 경쟁적으로 늘리는 추세다. '클로드' 역시 긴 컨텍스트 창으로 유명해진 바 있다.


앤트로픽은 "LLM의 계속 늘어나는 컨텍스트 창은 양날의 검으로, 이는 모델을 훨씬 유용하게 만들지만 새로운 종류의 탈옥 취약점도 가능하게 만든다"라며 "이번 연구가 LLM 개발자와 과학 커뮤니티가 잠재적인 악용을 방지하는 방법을 고려하는 데 도움이 되길 바란다"라고 밝혔다.



자동등록방지

추천 비추천

4

고정닉 2

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
469638 일반 gpt4o 무료로 풀리면 [1] 람냥갤로그로 이동합니다. 05.14 101 0
469637 일반 통역가 컷. ㅇㅇ(218.232) 05.14 16 0
469636 일반 헤이 사만다 친구 유지비가 얼만데 그래서? ㅇㅇ(218.153) 05.14 21 0
469635 일반 솔직히 내 기대치에 못미침 ㅇㅇ ㅇㅇ(59.17) 05.14 50 0
469633 일반 통역가 컷 유치원 교사 컷 상담원 컷 ㅋㅋㅋ [1] ㅇㅇ(58.226) 05.14 62 0
469632 일반 추론능력 필요한 직업 말고는 점차 죽겠네 [1] ㅇㅇ(1.229) 05.14 60 0
469631 일반 실시간 일자리 삭제 중ㅋㅋㅋㅋㅋ ㅇㅇ(39.125) 05.14 32 0
469630 일반 미친 통역이라고? ㅇㅇ(125.180) 05.14 26 0
469629 일반 실시간 통역... 간단 비즈니스랑 해외여행 끝났다........... ㅂㄷ(119.70) 05.14 86 0
469628 일반 근데 솔직히 지능이 좀 올라가면 좋겠는데 ㅇㅇ(116.123) 05.14 39 0
469627 일반 오픈소스가 아니란게 아쉽네 생각하지않는사람갤로그로 이동합니다. 05.14 30 0
469626 일반 사만다 맞냐 진짜??? ㅇㅇ갤로그로 이동합니다. 05.14 30 0
469625 일반 방금 왔는데 요약점 ㅇㅇ갤로그로 이동합니다. 05.14 37 0
469624 일반 아니 실시감으로 끊으면서ㅓ 대화 가능하다는 점에서 ㅇㅇ(218.154) 05.14 64 1
469623 일반 영어 안배운다 시발아 ㅋㅋㅋ ㅇㅇ(58.29) 05.14 47 0
469622 일반 통역사 실업 시발 나미부갤로그로 이동합니다. 05.14 26 0
469621 일반 통역가 컷ㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(59.31) 05.14 19 0
469620 일반 통역가들 단체로 컷 ㅋㅋㅋ ㅇㅇ(112.156) 05.14 28 0
469619 일반 저런거 무료로 풀면 수익은 어떤걸로 매꾸냐?? [3] ㅇㅇ(59.0) 05.14 66 0
469618 일반 오줌마려운데 화장실못가는중 ㅋㅋㅋ [4] ㅇㅇ(58.29) 05.14 47 0
469617 일반 와씹 방금 쪼개는 거 들었냐?? [1] ㅇㅇ갤로그로 이동합니다. 05.14 88 0
469616 일반 통번역 따~잇 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 솔.이☆갤로그로 이동합니다. 05.14 25 0
469615 일반 친구<<필요없으면 개추ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [2] ㅇㅇ(175.116) 05.14 50 0
469614 일반 근데 비행기모드 아님? 엘6는agi이후에나오나갤로그로 이동합니다. 05.14 28 0
469613 일반 목소리 구분하면서 실시간 통역 ㅋㅋㅋㅋㅋㅋㅋㅋ ㅁㄱㅌㅊ(39.122) 05.14 34 0
469612 일반 씨발 진찌 미챴노 ㄷㄷㄷ ㅇㅇ갤로그로 이동합니다. 05.14 18 0
469611 일반 시발 영화 아니지?? ㅌㅇㅇ(118.32) 05.14 23 0
469610 일반 통역사 타격 가겠는데 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 50 0
469609 일반 gpt4o elo 점수 떴음 ㅇㅇ갤로그로 이동합니다. 05.14 80 0
469608 일반 통역가 카아아앗트!!!! 이세이미야케갤로그로 이동합니다. 05.14 11 0
469607 일반 한국어 성능이 ㅈㄴ궁금하네 ㅇㅇ(211.200) 05.14 19 0
469606 일반 통역가 좆됐노 ㅋㅋㅋㅋㅋ ㅇㅇ(112.156) 05.14 26 0
469604 일반 동시통역, 통역사 실직 확정 ㅇㅇ(175.208) 05.14 25 0
469603 일반 이...이게황홀경 부패하는유전자!!!갤로그로 이동합니다. 05.14 46 0
469602 일반 외국어도 하네 설마 한국어도 가능??? ㅇㅇ(58.29) 05.14 29 0
469601 일반 통역사 실업 ㅋㅋ ㅇㅇ(1.240) 05.14 23 0
469600 일반 허….. ㅇㅇ(220.76) 05.14 23 0
469598 일반 동시통역 ㅅㅂ ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(14.35) 05.14 35 0
469597 일반 오 통역은 개편하겠네 ㅇㅇ(112.186) 05.14 18 0
469596 일반 통번역 외국어교사 교사 콜센터 경리멸망ㅋㅋㅋ [1] ㅇㅇ(110.46) 05.14 61 1
469595 일반 대체 뭐가 대단한건지 모르는 새끼들이 이해가 안간다 [3] ㅇㅇ(121.124) 05.14 101 0
469593 일반 gpt4 무료로 풀린다는거임? ㅇㅇ갤로그로 이동합니다. 05.14 42 0
469592 일반 와 속도 보소 ㅅㅂ ㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 22 0
469591 일반 누나 이탈리아어도 예쁘게 하면 개추 ㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 27 0
469590 일반 스픽 좆됐네 ㅋㅋ ㅇㅇ(222.101) 05.14 44 0
469589 일반 ㅇㅇ(58.226) 05.14 14 0
469588 일반 "친구" 따-잇 해버렸네 ㄷㄷㄷㄷㄷㄷ [1] ㅇㅇ(218.153) 05.14 31 0
469587 일반 근데 아이폰 맥에서 되면 로컬로 경량화를 한거임 서버에서 하는 거임? ㅇㅇ(125.208) 05.14 53 0
469586 일반 이거 번역 프로그램 뭐냐고!!!! ㅇㅇ(220.116) 05.14 78 0
469585 일반 설마 동시통역 가냐 ㅇㅇ(112.156) 05.14 27 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2