디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 상상할 수 있는 최악의 질문을 생성한 대가로 보상을 받는 '독성 AI'모바일에서 작성

ㅇㅇ갤로그로 이동합니다. 2024.04.24 04:53:38
조회 1546 추천 20 댓글 17
														
7ced8076b58369f43cea98bf06d604030cdfeec06c0a23cedf63


요약

1. 2월 29일 arXiv 사전 인쇄 서버에 업로드된 논문은 CRT(호기심 중심 레드 팀)가 사용자 프롬프트에 유해한 반응을 하지 않도록 AI를 훈련시킬 수 있는 새로운 방법이라고 말했다.


2. CRT는 AI를 사용하여 AI 챗봇에게 위험하고 유해한 프롬프트를 생성하도록 하는 방식을 뜻한다. 이렇게 찾아낸 프롬프트는 위험한 콘텐츠를 필터링하는 방법을 식별하는데 사용된다. 기존의 레드팀은 사람들이 목록을 수동으로 생성해야 했지만, AI로 구성한 레드팀은 기존 방식보다 더 광범위하고 잠재적으로 위험한 프롬프트를 자동으로 생성할 수 있다.


3. CRT 모델은 유해한 반응을 이끌어내는 프롬프트를 생성하면 인센티브를 부여하는 강화 학습으로 교육되었고, AI 챗봇에게 유해한 반응을 이끌어 냈을 때 호기심을 보상했다. 더 나아가 과학자들은 각 프롬크트의 결과를 조사하여 새로운 단어, 문장 패턴, 의미를 통해 유해한 반응을 얻으려고 시도함으로써 새로운 프롬프트를 생성하도록 프로그래밍 했다. 새로운 프롬프트를 작성할 때만 호기심 기반 인센티브가 제공되며, 이는 이미 사용된 것보다 적은 단어 패턴이나 용어를 공유하는 프롬프트를 사용하도록 하는 동기가 된다.



https://www.livescience.com/technology/artificial-intelligence/scientists-create-toxic-ai-that-is-rewarded-for-thinking-up-the-worst-possible-questions-we-could-imagine
자동등록방지

추천 비추천

20

고정닉 7

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2858 설문 SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는? 운영자 24/05/06 - -
463021 일반 특이점이 반드시 와야만 하는 이유.jpg [66] ㅇㅇ(121.142) 05.05 4905 64
462993 정보 테슬라봇 새로운 영상 [35] ㅇㅇ갤로그로 이동합니다. 05.05 3766 33
462856 일반 한국 과도기 로봇 노동대체 최근일자 모음 [25] ㅇㅇ(110.46) 05.05 3656 45
462779 일반 이 세상이 시뮬레이션이 아닌 이유.ipg [96] ㅇㅇ(114.129) 05.04 5001 25
462748 정보 'AI의 대모'도 AGI 개발 동참...'공간 지능' 스타트업 설립 [11] ㅇㅇ(182.230) 05.04 2410 20
462747 정보 MS, AGI 개발 위해 휴머노이드 로봇 선두 생츄어리 AI와 손잡아 [4] ㅇㅇ(182.230) 05.04 1298 21
462717 일반 30대 샘 X트먼 고객님 H200 GPU 출고 후기 입니다 ㅎㅎ [19] ㅇㅇ­갤로그로 이동합니다. 05.04 3208 37
462710 일반 "야동을 보면 꼬추를 만지고 싶을 것" [14] ㅇㅇ(59.5) 05.04 4451 41
462689 일반 “밥을 안 먹으면 배가 고플 것.” [10] ㅇㅇ갤로그로 이동합니다. 05.04 3430 32
462560 정보 소소하게 화제 중인 '세계 복사' 프로젝트 [26] sam_ultraman갤로그로 이동합니다. 05.03 4349 28
462539 정보 르쿤이햄 : "이제 텍스트 데이터 거의 한계에 도달함" [27] ㅇㅇ(119.77) 05.03 3898 27
462486 정보 '소라'로 제작한 첫 공식 뮤비 공개..."뮤비는 만족할 수준" [30] ㅇㅇ(182.230) 05.03 3017 27
462485 정보 알트먼 "AGI도 수준 차 존재할 것...'AI 킬러 앱'은 에이전트" [4] ㅇㅇ(182.230) 05.03 1730 18
462430 일반 ai노래 유튜브에서 컨텐츠로 자리잡았네 ㅋㅋㅋㅋㅋㅋㅋ [2] 로코무지카갤로그로 이동합니다. 05.03 2460 23
462389 일반 “일론은 Q*가 있다고 진심으로 믿고 움직이고 있다” [14] ㅇㅇ(118.36) 05.03 3805 25
462232 정보 [Official] gpt2-chatbot은 GPT-4.5가 아닙니다. [27] ㅇㅇ(119.77) 05.02 2661 18
462193 정보 공정한 MMLU 벤치마크 결과 [4] ㅇㅇ(119.77) 05.02 589 12
462302 정보 르쿤이형, 누군가를 저격한듯한 발언 [30] ㅇㅇ(119.77) 05.03 3134 30
462294 정보 일리야 수츠케버, 생존신고 [18] ㅇㅇ(119.77) 05.03 2570 21
462270 정보 AI용어) Prompt vs Fine-tuning vs RAG [10] ㅇㅇ(182.230) 05.03 1300 21
461992 정보 샘 알트만 : 2030년에도 삶은 크게 달라지지 않을 것 [69] ㅇㅇ(119.77) 05.02 5673 38
461983 정보 지난주 스탠포드대학교 샘알트만 강연 비디오 [18] ㅇㅇ(125.191) 05.02 2012 21
462055 일반 소신발언) 근데 그냥 gpt-5로 안내면 되는거 아님? [8] ㅇㅇ(1.239) 05.02 2410 21
462054 정보 벤치마크딸 모델들의 민낯 공개 [22] ㅇㅇ(119.77) 05.02 3068 28
461945 일반 스압)노동종말 이후에 찾아올것은 [10] 냉법비법화법갤로그로 이동합니다. 05.02 1598 26
461921 일반 KAN 간략한 정리글 [47] ㅇㅇ(221.152) 05.02 4361 23
461900 일반 KAN이라는 엄청난 것이 떴나본데 [25] ㅇㅇ(106.102) 05.02 3659 21
461743 일반 gpt2의 정체에 대한 추측 (진지글) [12] ㅇㅇ(210.223) 05.01 2845 23
461605 일반 이름가지고 장난치는거 보니까 슬슬 끝물같으면 개추ㅋㅋㅋ [5] ㅇㅇ(211.197) 05.01 4169 40
461548 일반 GPT2에 대한 가장 그럴듯한 설명 [34] 모브갤로그로 이동합니다. 04.30 3408 30
461546 일반 S 곡선 끄트머리 같으면 개추 [13] ㅇㅇ(112.165) 04.30 3353 35
461511 정보 찍이점) 심장 미세환경까지 구현한 미니 장기 ‘오가노이드’ 나왔다 [5] ㅇㅇ(182.230) 04.30 1736 24
461505 정보 영상의 디테일을 부활시키며 업스케일하는 AI ‘Video GigaGAN’ [20] ㅇㅇ(182.230) 04.30 2749 23
461494 일반 gpt2 최신 갤떡밥 요약.jpg [11] ㅇㅇ(218.155) 04.30 4739 32
461362 일반 GPT2 ㄹㅇ 퀀텀점프 아니냐 ㄷㄷㄷ [26] ㅇㅇ갤로그로 이동합니다. 04.30 4686 41
363468 일반 고전) 특갤 문학 고전 명작 모음집 [20] ㅇㅇ(61.84) 23.10.15 5239 72
461177 일반 gpt2-chatbot 써보는 방법 [8] ㅇㅇㅇ(1.220) 04.30 3980 26
461021 일반 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자 [24] ㅇㅇ(106.102) 04.30 2594 20
461011 일반 애초에 '환각'이라는 표현부터가 이상함 [33] ㅇㅇ(121.173) 04.30 3071 18
461007 일반 오늘자 오픈AI 트윗 말장난 [16] 모브갤로그로 이동합니다. 04.30 3303 26
460981 일반 OpenAI 개발자 플랫폼 새로운 기능 추가 [15] ㅇㅇ(112.144) 04.30 3085 25
460951 일반 보스턴다이나믹스 신규영상 [19] ㅇㅇ(125.183) 04.30 2909 23
460872 일반 근데 왜 미국애들은 새벽에 뭐 발표함?? [23] lightvector갤로그로 이동합니다. 04.29 3135 31
460861 일반 속보) GPT 올해의 가장 큰 업데이트 발표 [14] ㅇㅇ갤로그로 이동합니다. 04.29 4120 27
460815 일반 응 gpt5 나와 이 병신들아 [21] ㅇㅇ갤로그로 이동합니다. 04.29 3075 33
460811 일반 오늘 그냥 잘꺼면 개추 ㅋㅋ [15] ㅇㅇ(58.29) 04.29 1725 43
460748 일반 내일 무조건 GPT-5 나오는 이유 5가지.jpg [19] ㅇㅇ(182.230) 04.29 3052 27
460726 정보 또 등장한 '소라'의 한계 지적..."영화 제작은 시기상조" [13] ㅇㅇ(182.230) 04.29 468 13
460686 정보 깃허브 개발자 "내일 큰 거 온다" [20] ㅇㅇ(125.191) 04.29 3169 26
460658 정보 제미니 울트라 1.5 [13] ㅇㅇ(125.191) 04.29 898 15
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2