MS, AI 챗봇의 탈옥 방지·환각 감지 위한 도구 공개

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] MS, AI 챗봇의 탈옥 방지·환각 감지 위한 도구 공개

ㅇㅇ(182.230) 2024.03.29 23:23:19

조회 1108 추천 20 댓글 3

https://www.aitimes.com/news/articleView.html?idxno=158399

MS, AI 챗봇의 탈옥 방지·환각 감지 위한 도구 공개

마이크로소프트(MS)가 생성 인공지능(AI)의 탈옥을 막고 환각을 감지하는 개발자용 도구를 내놓았다. 선거 등을 앞두고 터져 나오는 구설수를 미리 차단하겠다는 의도다.MS는 28일(현지시간) 공식 블로그를 통해 '안전하고 신뢰할 수 있는 생성 AI 애플리케이션을 구축하는 데 도움이 되는 애저 AI의 새로운 도구' 출시를 발표했다.여기에는 🔼모델에 영향을 미치기 전에 프롬프트 공격을 감지하고 차단하는 프롬프트 실드(Prompt Shields) 🔼모델 출력에서 환각을 감지하는 접지 감지(Groundedness detection) 🔼모델

www.aitimes.com

7ce88875bc8b07f739ef82e541ee7769fe198033142c32f7b26f977c54a69617d01b

마이크로소프트(MS)가 생성 인공지능(AI)의 탈옥을 막고 환각을 감지하는 개발자용 도구를 내놓았다. 선거 등을 앞두고 터져 나오는 구설수를 미리 차단하겠다는 의도다.

MS는 28일(현지시간) 공식 블로그를 통해 '안전하고 신뢰할 수 있는 생성 AI 애플리케이션을 구축하는 데 도움이 되는 애저 AI의 새로운 도구' 출시를 발표했다.

여기에는 🔼모델에 영향을 미치기 전에 프롬프트 공격을 감지하고 차단하는 프롬프트 실드(Prompt Shields) 🔼모델 출력에서 환각을 감지하는 접지 감지(Groundedness detection) 🔼모델 동작을 안전하고 책임감 있는 결과로 유도하는 안전 시스템 메시지(Safety system messages) 🔼애플리케이션의 탈옥 공격 및 콘텐츠 위험 생성에 대한 안전성 평가(Safety evaluations)

🔼어떤 입력과 출력, 사용자가 콘텐츠 필터를 우회하는지 파악할 수 있는 위험 및 안전 모니터링(Risk and safety monitoring) 등이 포함된다.

이들은 조만간 출시 예정이며, 일부는 미리보기로 제공한다.

7ce88875bc8b07f739ef82e54eee7768e27f8e81e759d2bc0832104e3827f777bfc0

사라 버드 MS 책임 있는 AI 최고 제품 책임자는 더 버지와의 인터뷰에서 “우리는 대부분 사용자가 프롬프트 공격이나 증오성 콘텐츠에 대해 깊은 전문 지식을 갖고 있지 않다는 것을 알고 있다"라며 "이런 평가 시스템을 통해 사용자는 무엇이 문제인 지를 확인할 수 있다"라고 말했다.

특히 최근 제미나이로 인해 큰 문제가 된 역사적으로 부정확한 이미지나 유명인의 딥페이크 등이 생성되는 것을 막을 수 있다는 설명이다. 또 애저를 사용하는 회사의 시스템 관리자는 누가 안전하지 않은 출력을 시도하는지 파악할 수 있게 된다.

이 기능은 현재 애저에서 제공하는 'GPT-4'나 '라마 2'같은 모델에 즉시 적용할 수 있다는 설명이다. 일부 오픈 소스 모델에는 수동 지정도 필요하다.

이에 앞서 지난 2월에는 MS와 구글, 오픈AI 등 20개 빅테크가 생성 AI 콘텐츠의 선거 악용을 방지하기 위해 공동 대책을 마련하기로 합의했다. 또 각 회사는 생성 AI 이미지에 워터마크를 삽입할 예정이다.

하지만 이달 초 미국 비영리단체 디지털혐오 대응센터(CCDH)가 발표한 조사 결과에 따르면 여전히 선거 관련 허위 콘텐츠 생성에 취약하다는 결과가 나왔다.

또 MS에서는 이미지 생성 AI에 문제가 있으며, 경고에도 불구하고 회사가 이를 무시했다는 내부 폭로도 등장한 바 있다.

고정닉 5

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2858	설문	SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는?	운영자	24/05/06	-	-
456423	일반	기계에 인간급의 의식이 생기면 로봇도 바람피려나 [5]	ㅇㅇ(118.42)	04.16	126	0
456422	일반	연구원들은 노력해야지	ㅇㅇ	04.16	60	0
456421	일반	너넨 살아보니 노력 할만 하더냐? [24]	ㅇㅇ(59.9)	04.16	783	13
456420	일반	oai 연구원"29년에는 기계에 의식이 있을것" [4]	ㅇㅇ	04.16	587	10
456419	일반	성능도성능인데 환각을 먼저잡아야 [1]	ㅇㅇ(223.38)	04.16	79	0
456418	정보	평균 광대역보다 450만배 빠른 전송속도 달성 [6]	ㅇㅇ(39.7)	04.16	193	2
456417	일반	점심 메뉴 평가좀 [8]	ㅇㅇ	04.16	191	1
456416	일반	근데 알트만 steamroll 표현은 전에 했던거 아님?	ㅇㅇ(59.9)	04.16	83	0
456415	일반	일론머스크가 세계 대장인데 저렇게 말했으면 [4]	ㅇㅇ(203.207)	04.16	343	2
456414	일반	스케일이 전부면 그저 좆됐다…! [5]	특특이	04.16	322	1
456413	일반	난 agi 중에 가장 놀라웠던게 [15]	ㅇㅇ(211.221)	04.16	454	4
456412	일반	인류를 위해 안 까고있다 하면 돌천지랑 뭐가다르냐 [3]	ㅇㅇ(106.101)	04.16	360	10
456411	일반	아니 환율 왜이럼.. [2]	ㅇㅇ	04.16	163	0
456409	일반	[QS 2024 세계대학평가] 한국 AI·반도체 관련 학과 역주행...	ㅇㅇ(106.101)	04.16	141	0
456408	일반	지금 세상이 노력하면 호구되는 세상같음 [19]	ㅇㅇ(106.101)	04.16	425	4
456406	일반	agi에 머스크 묻었네 [1]	ㅇㅇ	04.16	144	3
456405	정보	OAI COO, 사람들 착각중 [8]	ㅇㅇ(118.235)	04.16	511	6
456404	일반	Agi 2년내 달성한다는 주장 [8]	ㅇㅇ(168.131)	04.16	600	11
456403	AI창 AI창작	dc콘으로 만든 ai노래	ERR0R	04.16	452	2
456402	일반	비트넷으로 뭐 만든거 없움? [2]	ㅇㅇ(121.140)	04.16	159	0
456401	일반	아가리 털드만이 마케팅하러 다닌다 (X) [3]	ㅇㅇ	04.16	326	12
456400	일반	진심으로 openai가 '못'내는걸까? [18]	ㅇㅇ(218.38)	04.16	449	2
456399	정보	[속보] 트위터 사망 [7]	ㅇㅇ(118.47)	04.16	734	3
456398	일반	oai랑 아가리 털드만은 레딧 민심도 좆박았네 [3]	ㅇㅇ(118.42)	04.16	392	2
456396	일반	휴 이정도면 하루는 버틸수 있겠어.. [3]	ㅇㅇ	04.16	237	0
456395	일반	술슬 다들 gpt4급이네 [5]	ㅇㅇ	04.16	337	0
456394	정보	마이크로소프트 오픈소스 모델 Wizard LM2 공개 [10]	lightvector	04.16	1480	25
456393	일반	레카 비디오 이해하는 거 맞음 [4]	ㅇㅇ(118.42)	04.16	211	1
456392	정보	MS, GPT4급 오픈소스 Wizard LM 2 공개	ㅇㅇ(118.235)	04.16	257	6
456391	일반	존나 아이러니한 점 모순적인 부분 발견했다 [8]	ㅇㅇ(117.20)	04.16	177	0
456390	일반	업데이트 이후에도 긴 코드 작성은 여전히 클로드3 >>>> GPT4 [2]	ㅇㅇ(211.208)	04.16	223	1
456389	일반	GPT-4 무료로 뿌리는 뤼튼 이거 지속 가능함? [3]	ㅇㅇ(118.42)	04.16	425	0
456388	일반	레카 생각보다 폼 좋은데 [2]	ㅇㅇ(118.42)	04.16	283	2
456387	일반	ai만 아니었어도 씹스캠 소리들으면서 사장됐을 놈인데	ㅇㅇ(118.33)	04.16	165	0
456386	일반	자신있으면 빨리 공개나 해 알트만 시발아 [1]	ㅇㅇ(222.108)	04.16	143	0
456384	정보	(오늘의 입털기)샘알트만- 당신들을 찍어누를 것 [31]	ㅇㅇ(118.235)	04.16	2522	24
456383	일반	클로드 이새끼는 업뎃 안하냐? [1]	ㅇㅇ	04.16	149	0
456382	일반	이번주를 주목하라ㅡ [1]	ㅇㅇ(118.235)	04.16	119	0
456381	일반	Reka ai 동영상 멀티모달 되네 [6]	ㅇㅇ(112.161)	04.16	261	1
456379	일반	지금 사펑이 완전 세기의 명작 됐다더라 [18]	ㅇㅇ(117.20)	04.16	466	0
456378	일반	gpt4 나오고 변한 게 없는 거 같음 [3]	ㅇㅇ(221.141)	04.16	248	2
456377	정보	LLaMA 3 Confirmed. [3]	ㅇㅇ(118.235)	04.16	260	4
456376	일반	sf소재 영화 드라마가 미치게 없더라 [7]	ㅇㅇ(117.20)	04.16	171	1
456375	일반	스케일이 답이라지만 [2]	ㅇㅇ(211.235)	04.16	112	0
456374	일반	Gpt5 나오고 성능좋으면 퇴사하고 기소본득존버 백수할꺼임 [1]	ㅇㅇ(1.224)	04.16	220	0
456373	일반	RekaAI, GPT4 및 opus 수준 LLM 출시 [4]	ㅇㅇ(118.235)	04.16	322	2
456372	정보	삼성, 애플 제치고 스마트폰 점유율 1위 복귀…”S24 AI 효과" [4]	ㅇㅇ(182.230)	04.16	554	2
456371	정보	코히어, 엔터프라이즈 검색용 LLM ‘리랭크 3’ 출시 [1]	ㅇㅇ(182.230)	04.16	81	2
456370	정보	일본에 자리 잡은 사카나 AI "기업 관심 집중...아직 경쟁자 없어" [2]	ㅇㅇ(182.230)	04.16	482	11
456369	정보	구글, '트랜스포머' 보완할 기술 잇달아 공개…”메모리·시간 축소” [5]	ㅇㅇ(182.230)	04.16	499	8