디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 상상할 수 있는 최악의 질문을 생성한 대가로 보상을 받는 '독성 AI'모바일에서 작성

ㅇㅇ갤로그로 이동합니다. 2024.04.24 04:53:38
조회 1581 추천 21 댓글 17
														
7ced8076b58369f43cea98bf06d604030cdfeec06c0a23cedf63


요약

1. 2월 29일 arXiv 사전 인쇄 서버에 업로드된 논문은 CRT(호기심 중심 레드 팀)가 사용자 프롬프트에 유해한 반응을 하지 않도록 AI를 훈련시킬 수 있는 새로운 방법이라고 말했다.


2. CRT는 AI를 사용하여 AI 챗봇에게 위험하고 유해한 프롬프트를 생성하도록 하는 방식을 뜻한다. 이렇게 찾아낸 프롬프트는 위험한 콘텐츠를 필터링하는 방법을 식별하는데 사용된다. 기존의 레드팀은 사람들이 목록을 수동으로 생성해야 했지만, AI로 구성한 레드팀은 기존 방식보다 더 광범위하고 잠재적으로 위험한 프롬프트를 자동으로 생성할 수 있다.


3. CRT 모델은 유해한 반응을 이끌어내는 프롬프트를 생성하면 인센티브를 부여하는 강화 학습으로 교육되었고, AI 챗봇에게 유해한 반응을 이끌어 냈을 때 호기심을 보상했다. 더 나아가 과학자들은 각 프롬크트의 결과를 조사하여 새로운 단어, 문장 패턴, 의미를 통해 유해한 반응을 얻으려고 시도함으로써 새로운 프롬프트를 생성하도록 프로그래밍 했다. 새로운 프롬프트를 작성할 때만 호기심 기반 인센티브가 제공되며, 이는 이미 사용된 것보다 적은 단어 패턴이나 용어를 공유하는 프롬프트를 사용하도록 하는 동기가 된다.



https://www.livescience.com/technology/artificial-intelligence/scientists-create-toxic-ai-that-is-rewarded-for-thinking-up-the-worst-possible-questions-we-could-imagine
자동등록방지

추천 비추천

21

고정닉 7

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
471352 일반 지금 일어났는데 부정적인 글 거의 없네;; [1] 카탁프락T갤로그로 이동합니다. 05.14 236 0
471351 일반 이대로 걍 경량화, 성능 업글만 계속 되면 [1] ㅇㅇ(125.137) 05.14 149 0
471350 일반 기존 gpt4 사용자인데 발표보고 실망함 [2] ㅇㅇ(218.150) 05.14 317 0
471349 일반 gpt4o 충격적이라는 보이저엑스 [6] 은바다갤로그로 이동합니다. 05.14 833 13
471348 일반 GPT4o 특 2023년 2월에 만들어짐 [4] ㅁㄴㅇㄹ갤로그로 이동합니다. 05.14 541 4
471347 일반 gpt근데 토큰수가너무부족하지않냐 [1] ㅇㅇ(59.2) 05.14 168 0
471346 일반 인류 역사=300만년, 문자 발명=5000년 전 [4] 트라야누스(14.32) 05.14 240 1
471345 일반 방금일어났는데 어떻게됫냐? 완몰가는 출시함? [1] ㅇㅇ(59.11) 05.14 140 0
471344 일반 지금 갑자기 부정적인 글들이 올라오는 이유 [1] ㅇㅇ(183.98) 05.14 235 0
471343 일반 텍스트 모델만 봐도 기존 gpt4와 비교 자체가 안됨 ㅇㅇ(125.137) 05.14 124 0
471342 일반 난 벌써 멀티모달이 시연되어서 놀랐슴 [1] ㅇㅇ(175.192) 05.14 146 0
471340 일반 ChatGPT 4o 이제 고딩 미적 수학도 잘 풀네 [7] ㅇㅇ(121.129) 05.14 575 0
471339 일반 논문쓰는 입장에선 클로드가 gpt보다 훨 나은듯 [1] ㅇㅇ(121.133) 05.14 243 0
471338 일반 애플에서 openAI 협업 회의 때 저거 시연해줬겠지? ㅇㅇ(121.156) 05.14 87 0
471336 일반 GPT 4o 성능이 기존 gpt4보다 좋아?? [4] ㅇㅇ(121.129) 05.14 336 0
471335 일반 4o 출시 이후 무료되는거 정리 Ad_Astra갤로그로 이동합니다. 05.14 409 1
471334 일반 also-gpt2 보고나서 기대중인거지 다른건 별로 기대안됨 ㅇㅇ(222.236) 05.14 116 0
471333 일반 맥 쓰는 사람있냐 ㅇㅇ(58.29) 05.14 99 0
471332 일반 무료유저들에게는 나중에GPT4O초제한적으로풀지 ㅋㅋ ㅇㅇ(115.22) 05.14 120 0
471330 일반 stt -> LLM -> tts 주장했던 게이 반성한다 [2] ㅇㅇ(121.156) 05.14 164 0
471329 일반 GPT4O속도가 진짜 엄청빠르다 [2] ㅇㅇ(115.22) 05.14 207 0
471328 토의 하도 근들갑 떨어대길래 공식영상 보고 왔는데 [21] ㅇㅇ(103.212) 05.14 3788 31
471327 일반 애플 떡상 확정에 삼성 나락갈듯 [2] (59.6) 05.14 513 0
471326 일반 좆럭시 좆됐노 ㅋㅋㅋ 저게 아이폰 탑재라는거잖아 ㅋㅋㅋ ㅇㅇ(121.133) 05.14 200 1
471325 일반 Gpt4o 환각많네 [2] 연맛갤로그로 이동합니다. 05.14 400 1
471323 일반 지금 실망했다는 애들은 [8] ㅇㅇ(125.137) 05.14 347 4
471322 일반 난근데 솔직히 이렇게 나올줄 예상못함 [2] ㅇㅇ(220.65) 05.14 251 0
471321 일반 GPT-4o [2] ㅇㅇ(112.161) 05.14 164 0
471320 일반 성능 증가, 폭발적 속도 증가, 비용 6분의 1로 감소 [1] ㅇㅇ(125.137) 05.14 178 1
471319 일반 Gpt4o 무료임?? 근데 왜 안 보여 [8] ㅇㅇ(61.97) 05.14 514 0
471318 일반 구글 잼민이 발표때 fake 라며 논란있던 영상봐라 [4] ㅇㅇ(121.156) 05.14 320 2
471317 일반 성능이 좋은데 비용이 준다는게 믿기지가 않는다 Ad_Astra갤로그로 이동합니다. 05.14 75 0
471316 일반 장기기억은 아직 비용이 많이 들겠지 [1] ㅇㅇ(175.192) 05.14 77 0
471315 일반 배그할때 따거들 언어 실시간으로 번역 가능하겠네 ㅇㅇ(118.235) 05.14 66 0
471314 일반 이미지 신기능이 미쳤는데? [5] 디붕이(121.190) 05.14 584 5
471312 일반 아무리 생각해도 어케 실망할수가 있는지 이해가 안됨 [2] ㅇㅇ갤로그로 이동합니다. 05.14 235 0
471311 일반 이미 개발 해 놓고 여론봐서 하나씩 공개하는 것 같다 ㅇㅇ(175.192) 05.14 70 0
471310 일반 학부생 기준으론 치트에서 신급으로 올라온거같은데 ㅇㅇ(211.46) 05.14 135 0
471309 일반 근게 이게 왜 agi가 아닌거임? [3] ㅇㅇ(221.154) 05.14 272 0
471308 일반 4o 속도 하나는 진짜 개빠르네 ㅋㅋ [1] ㅇㅇ(61.82) 05.14 310 0
471307 일반 삼성은 어떻게 하냐 ㄹㅇ 큰일났는데 [5] ㅇㅇ(58.78) 05.14 557 1
471305 일반 난 솔직히 큰거온다길래 터미네이터 급 인공지능 올 줄,, ㅇㅇ갤로그로 이동합니다. 05.14 92 0
471304 일반 정말로 컴퓨팅이 화폐가 되는걸까? ㅇㅇ(175.192) 05.14 88 0
471303 일반 시발 의심하고 온갖 추측이 난무했는데 결국 딱 "her"을 만들었노 ㅋㅋ [1] ㅇㅇ(221.154) 05.14 296 0
471302 일반 실시간대화가 충격이다 ㅇㅇ(111.91) 05.14 166 1
471301 일반 팀플랜에서 플러스로 갈아타야겄따 ㅇㅇ(222.237) 05.14 78 0
471300 일반 실시간 번역의 시대가 오는거노 ㅇㅇ(220.71) 05.14 76 0
471299 일반 구글이 뭐나올때마다 대작이 나오네 [4] 연맛갤로그로 이동합니다. 05.14 236 0
471298 일반 선형충들의 문제는 추세를 무시한다는 것임 [4] 트라야누스(14.32) 05.14 236 7
471297 일반 난 왜 달라진게업샨 [2] ㅇㅇ(222.237) 05.14 128 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2