디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 명령어 계층 구조: 권한 있는 명령어의 우선순위를 지정하기 위한 LLM 모바일에서 작성

선갤러(223.39) 2024.04.23 12:17:29
조회 35 추천 1 댓글 0
														
7ced8076b5836af53ce998bf06d6040399f845e70b4ac546c0

오늘날의 LLM은 프롬프트 주입, 탈옥 및 공격자가 모델의 원래 지침을 자신의 악성 프롬프트로 덮어쓸 수 있는 기타 공격에 취약합니다. 이 작업에서 우리는 LLM이 시스템 프롬프트(예: 애플리케이션 개발자의 텍스트)를 신뢰할 수 없는 사용자 및 제3자의 텍스트와 동일한 우선순위로 간주하는 경우가 많다는 것이 이러한 공격의 근본적인 취약점 중 하나라고 주장합니다. 이 문제를 해결하기 위해 우리는 서로 다른 우선순위의 명령어가 충돌할 때 모델이 어떻게 작동해야 하는지를 명시적으로 정의하는 명령어 계층 구조를 제안합니다. 그런 다음 LLM이 낮은 권한의 명령을 선택적으로 무시하도록 가르치는 동작을 따르는 계층적 명령을 보여주기 위한 데이터 생성 방법을 제안합니다. 우리는 이 방법을 GPT-3.5에 적용하여 훈련 중에 보이지 않는 공격 유형에 대해서도 견고성을 대폭 향상시키면서 표준 기능의 저하를 최소화한다는 것을 보여줍니다.

https://arxiv.org/abs/2404.13208

 



추천 비추천

1

고정닉 1

0

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
16334 정보글 OpenAI 고위임원 2명 퇴사 선갤러(125.191) 09:24 10 0
16333 일반 "임플란트·틀니 안해도 돼"…日서 '치아 자라게 하는 약' 나왔다 [5] 선갤러(125.191) 05.03 105 0
16332 일반 Io만이 답임 [2] ㅇㅇ갤로그로 이동합니다. 05.03 57 2
16331 일반 1분만 투자해라 인안나갤로그로 이동합니다. 05.03 59 1
16330 일반 신항식 고수님 명강연이나 들으세여 ㅇㅅㅇ 선갤러(122.36) 05.03 38 0
16329 일반 agi 나와도 억노화 트랜스후머니즘은 안나와여 ㅇㅅㅇ 선갤러(122.36) 05.03 44 1
16328 일반 gpt2=gpt5임? [1] ㅇㅇ(101.140) 05.03 59 0
16327 일반 정상인? ㅇㅇ(223.39) 05.03 40 1
16326 정보글 "AI가 코딩 더 잘해"…신입 개발자 '구직난' [2] 선갤러(125.191) 05.03 90 3
16325 일반 어휴 p(61.105) 05.03 37 0
16324 일반 선형주의(x) 정신적딸피(o) [3] 잭더리퍼갤로그로 이동합니다. 05.03 87 4
16323 일반 선형충 << 표현부터 이상한데... [1] ㅇㅇ(220.93) 05.03 113 11
16322 일반 여기는ㅋㅋ [1] 잭더리퍼갤로그로 이동합니다. 05.03 47 2
16321 일반 초지능당으로 정권교체 해버려야 함 [6] 선갤러(125.191) 05.03 94 3
16320 일반 특이점은 백인들의 것 ㅇㅅㅇ [2] 선갤러(122.36) 05.03 71 0
16319 일반 또 SF물 소재 생각남. [4] 병신®갤로그로 이동합니다. 05.03 77 3
16318 일반 지금 태어나는 애들은 앞으로 취업 하기 힘든건 맞음. ㅇㅇ(1.224) 05.03 68 3
16317 정보글 메타는 아폴로 프로그램보다 많은 비용으로 gpu 투자중 [7] ㅇㅇ(125.191) 05.03 78 0
16316 일반 자식이 특이점온다고 쳐놀고 알바만 전진하면 [2] 선갤러(211.46) 05.03 92 4
16315 정보글 Eric Schmidt와 함께 AI 정책 및 딥페이크를 처리하는 방법 ㅇㅇ(125.191) 05.03 43 0
16314 정보글 케빈 스콧(Kevin Scott)의 AI와 인본주의 ㅇㅇ(125.191) 05.03 53 1
16313 일반 특이점 믿는 애들은 걍 ㅇㅇ(211.169) 05.03 60 5
16312 정보글 아무도 허풍을 부리지 않습니다. [4] ㅇㅇ(125.191) 05.03 144 4
16311 일반 구글io ㅇㅇ갤로그로 이동합니다. 05.03 26 0
16310 일반 LaminiAI 시리즈 발표 [2] ㅇㅇ(125.191) 05.03 99 1
16309 정보글 OpenAI 새로운 도메인 선갤러(125.191) 05.03 75 2
16308 일반 “반도체도 전기도 돈도 없다”… AI연구 손놓는 대학들 [12] ㅇㅇ(125.191) 05.02 201 3
16307 일반 “AI 서울 정상회의 참석 저조” 외신 보도…정부 부랴부랴 반박 ㅇㅇ(125.191) 05.02 42 0
16306 일반 구글 i/o 2024 시기쯤 울트라 1.5 공개할 거 같음 [6] ㅇㅇ(125.191) 05.02 93 0
16305 일반 Just keep mutating the neural network. NEMO갤로그로 이동합니다. 05.02 29 0
16304 일반 특갤 완장 개인이 아닌 것 같다 [5] shuwa갤로그로 이동합니다. 05.02 114 1
16303 일반 병신®은 매크로 좀 작작 돌렸으면 shuwa갤로그로 이동합니다. 05.02 65 2
16302 일반 월드코인은 대놓고 세게단일정부 노리고 만든거자나여 ㅇㅅㅇ [2] 선갤러(122.36) 05.02 91 1
16301 일반 Gpt5는 4보다 몇배좋을까 [1] ㅇㅇ갤로그로 이동합니다. 05.02 48 1
16300 일반 특슬람의 신세한탄) "처음부터 특으쩜을 모르고 살았으면!!" [2] ㅇㅇ갤로그로 이동합니다. 05.02 192 13
16299 정보글 완몰가 현실 p(61.105) 05.02 59 0
16298 일반 알트만 "드라마틱하게 발전할 것" [3] ㅇㅇ(125.191) 05.02 159 1
16297 일반 GPT-5가 역사와 사회변화의 신호탄인데 [5] ㅇㅇ(125.191) 05.02 128 1
16296 정보글 언어모델 정렬을 위한 자체 재생 선호도 최적화 ㅇㅇ(125.191) 05.02 19 1
16295 정보글 "과거 화성, 지구와 비슷"…생명체 존재 가능성↑ ㅇㅇ(125.191) 05.02 33 0
16294 일반 안넝하세여 ㅇㅅㅇ [3] 선갤러(122.36) 05.02 94 1
16293 정보글 오픈소스 모델들 벤치에 최적화 됨 ㅇㅇ(125.191) 05.02 52 0
16292 일반 논리에 돌연변이 어쩌구 저쩌구 오래된 어그로인데 선갤러(211.46) 05.02 37 0
16291 일반 연구결과 비둘기똥(xt)의 시간의존성은 입력정보에 의존함 선갤러(175.201) 05.02 31 0
16290 일반 왜이렇게 세상이 개병신들로 가득하냐? [1] NEMO갤로그로 이동합니다. 05.02 97 1
16289 정보글 MS, Sanctuary AI 협력발표 ㅇㅇ(125.191) 05.02 44 0
16288 일반 네모야 봐라 [7] ㅇㅇ(118.235) 05.02 103 0
16287 정보글 스탠포드대학교 샘알트만 강연 비디오 ㅇㅇ(125.191) 05.02 35 1
16286 정보글 모델 붕괴는 불가피한가? ㅇㅇ(125.191) 05.02 31 1
16285 일반 내 지능만드는법 평가좀 해주셈 [13] NEMO갤로그로 이동합니다. 05.02 94 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2