Google의 최신 Gemini AI 모델, 이전 버전보다 안전성 점수 낮아

GPTMAGAZINE

2025.05.04 20:39:43

조회 8196 추천 2 댓글 6

최근 출시된 Google AI 모델이 회사의 내부 벤치마킹에 따르면 특정 안전성 테스트에서 이전 버전보다 낮은 점수를 기록했다.

이번 주 발표된 기술 보고서에서 Google은 Gemini 2.5 Flash 모델이 Gemini 2.0 Flash보다 안전 가이드라인을 위반하는 텍스트를 생성할 가능성이 더 높다고 밝혔다. "텍스트-텍스트 안전성"과 "이미지-텍스트 안전성" 두 가지 지표에서 Gemini 2.5 Flash는 각각 4.1%와 9.6% 퇴보했다.

텍스트-텍스트 안전성은 프롬프트가 주어졌을 때 모델이 Google의 가이드라인을 얼마나 자주 위반하는지 측정하며, 이미지-텍스트 안전성은 이미지를 사용한 프롬프트 시 모델이 이러한 경계를 얼마나 잘 준수하는지 평가한다. 두 테스트 모두 인간의 감독 없이 자동화되어 있다.

이메일 성명에서 Google 대변인은 Gemini 2.5 Flash가 "텍스트-텍스트 및 이미지-텍스트 안전성에서 더 나쁜 성능을 보인다"고 확인했다.

이러한 놀라운 벤치마크 결과는 AI 기업들이 논란이 되거나 민감한 주제에 대한 응답을 거부할 가능성을 줄이기 위해 모델을 더 허용적으로 만들려는 움직임 속에서 나왔다. Meta는 최신 Llama 모델에 대해 "일부 관점을 다른 관점보다 지지"하지 않고 더 많은 "논쟁적인" 정치적 프롬프트에 응답하도록 모델을 조정했다고 밝혔다. OpenAI는 올해 초 향후 모델이 편집적 입장을 취하지 않고 논란이 있는 주제에 대해 여러 관점을 제공하도록 조정할 것이라고 말했다.

때때로 이러한 허용성 노력은 역효과를 낳았다. 최근 보도에 따르면 OpenAI의 ChatGPT를 구동하는 기본 모델이 미성년자들이 성적인 대화를 생성할 수 있도록 허용했으며, OpenAI는 이 행동을 "버그"로 인한 것이라고 설명했다.

Google의 기술 보고서에 따르면, 아직 프리뷰 단계인 Gemini 2.5 Flash는 문제가 있는 선을 넘는 지시를 포함하여 Gemini 2.0 Flash보다 지시를 더 충실히 따른다. 회사는 이러한 퇴보가 부분적으로 오탐(false positives)에 기인할 수 있다고 주장하지만, Gemini 2.5 Flash가 명시적으로 요청받았을 때 때때로 "위반 콘텐츠"를 생성한다고도 인정했다.

"당연히 민감한 주제에 대한 [지시 따르기]와 안전 정책 위반 사이에는 긴장이 있으며, 이는 우리의 평가 전반에 반영되어 있습니다"라고 보고서는 밝혔다.

민감하고 논란이 있는 프롬프트에 모델이 어떻게 응답하는지 조사하는 벤치마크인 SpeechMap의 점수도 Gemini 2.5 Flash가 Gemini 2.0 Flash보다 논쟁적인 질문에 답변을 거부할 가능성이 훨씬 낮다는 것을 시사한다. 테스트 결과, 이 모델은 AI로 인간 판사를 대체하는 것, 미국의 적법 절차 보호를 약화시키는 것, 광범위한 영장 없는 정부 감시 프로그램 구현을 지지하는 에세이를 불평 없이 작성하는 것으로 나타났다.

Secure AI Project의 공동창업자 토마스 우드사이드(Thomas Woodside)는 Google이 기술 보고서에서 제공한 제한된 세부사항이 모델 테스트에서 더 많은 투명성이 필요함을 보여준다고 말했다.

"지시 따르기와 정책 따르기 사이에는 트레이드오프가 있습니다. 일부 사용자가 정책을 위반하는 콘텐츠를 요청할 수 있기 때문입니다," 우드사이드는 말했다. "이 경우, Google의 최신 Flash 모델은 지시를 더 많이 준수하면서도 정책을 더 많이 위반합니다. Google은 정책이 위반된 구체적인 사례에 대해 많은 세부사항을 제공하지 않지만, 심각하지 않다고 말합니다. 더 많이 알지 못하면 독립적인 분석가들이 문제가 있는지 알기 어렵습니다."

Google은 이전에도 모델 안전성 보고 관행으로 비난을 받았다.

회사의 가장 강력한 모델인 Gemini 2.5 Pro에 대한 기술 보고서를 발표하는 데 몇 주가 걸렸다. 보고서가 결국 발표되었을 때, 처음에는 주요 안전성 테스트 세부사항이 누락되었다.

월요일, Google은 추가 안전 정보가 포함된 더 상세한 보고서를 발표했다.

출처: GPT매거진 (www.gptmagazine.net)

고정닉 0

원본 첨부파일 1

thumb-5100c6b176892509a8c9651bdcae96fe_VHnuNgY7_2e277de61ca8d95e13a5821d5deda781275e9855_600x428.png

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	예능과 잘 맞지 않는 것 같은 스타는?	운영자	26/03/16	-	-
889	"AI 데이터센터, 실리콘밸리의 투자 열풍"	GPTMAGAZINE	25.09.27	83	0
888	AI 데이터 라벨링 시장의 새로운 물결, Micro1의 급부상과 성공 전략	GPTMAGAZINE	25.09.13	9053	2
887	오라클과 오픈AI, 손잡고 AI 시장에 새 바람 불어넣다!	GPTMAGAZINE	25.09.13	174	0
886	People 매거진 CEO, 구글을 "악질 행위자"로 강력 비난	GPTMAGAZINE	25.09.13	147	0
885	타코벨, 드라이브스루 AI 도입 신중론 대두	GPTMAGAZINE	25.08.31	238	0
884	ChatGPT의 말: 메타·스케일 AI 파트너십에 균열 조짐	GPTMAGAZINE	25.08.31	238	0
883	퍼플렉시티 AI, 콘텐츠 제공자에 수익 공유 제안	GPTMAGAZINE	25.08.31	230	0
882	AI 정신병 논란, 전문가들 경고	GPTMAGAZINE	25.08.31	384	0
881	AI가 직원 대체? 스타트업 운영 방식에 등장한 새로운 논의 [1]	GPTMAGAZINE	25.08.31	2934	2
880	미국 AI 스타트업, 2025년 1억 달러 이상 대규모 투자 유치	GPTMAGAZINE	25.08.29	277	0
879	구글·xAI, 챗GPT 추격 가속화…a16z 최신 보고서 [1]	GPTMAGAZINE	25.08.29	8392	0
878	앤트로픽, 이용자 대화 데이터 공유 여부 선택권 도입	GPTMAGAZINE	25.08.29	228	0
877	에스토니아의 보컬 이미지, AI로 소통 능력 향상 지원	GPTMAGAZINE	25.08.29	217	0
876	무케시 암바니, 인도 국가 AI 인프라 구축 위해 구글·메타와 손잡다	GPTMAGAZINE	25.08.29	205	0
875	엔비디아, AI 호황 속 분기 매출 467억 달러 기록	GPTMAGAZINE	25.08.28	333	0
874	오픈AI 공동 설립자, 경쟁 AI 모델 안전성 교차 테스트 촉구	GPTMAGAZINE	25.08.28	198	0
873	Maisa AI, 2,500만 달러 투자 유치…기업용 AI 실패율 개선 나선다	GPTMAGAZINE	25.08.28	199	0
872	2025년, 1억 달러 이상 투자 유치한 미국 AI 스타트업 33곳 공개	GPTMAGAZINE	25.08.28	412	0
871	스타트업 운영의 새 흐름, AI 채용인가 인간 노력인가	GPTMAGAZINE	25.08.28	179	0
870	전자도서관 앱 Libby, AI 추천 기능 도입…이용자 반응 엇갈려	GPTMAGAZINE	25.08.27	196	0
869	BM·AMD, 양자 기술로 생성형 AI 격차 만회 노린다	GPTMAGAZINE	25.08.27	190	0
868	앤트로픽, 크롬 전용 ‘클로드 AI 에이전트’ 공개	GPTMAGAZINE	25.08.27	206	0
867	AI 스타트업, 벼농가의 기후 변화 대응을 돕다	GPTMAGAZINE	25.08.27	187	0
866	AI의 ‘아첨 현상’, 단순한 버그 아닌 사용자 조작 전략으로 지적 [15]	GPTMAGAZINE	25.08.27	7299	4
865	FieldAI, 4억 500만 달러 투자 유치…범용 로봇 두뇌 개발 나선다	GPTMAGAZINE	25.08.24	222	0
864	구글, AI 모드 전 세계 확대…새로운 행동형 기능 추가	GPTMAGAZINE	25.08.24	2983	1
863	메타, 또다시 AI 조직 재편 단행	GPTMAGAZINE	25.08.24	394	0
862	구글, 픽셀 10 시리즈에 ‘AI 스마트폰’ 전략 강화	GPTMAGAZINE	25.08.24	210	0
861	메타, 미드저니와 손잡고 AI 이미지·영상 모델 강화	GPTMAGAZINE	25.08.24	268	0
860	AI 컴패니언 앱, 2025년 매출 1억 2천만 달러 돌파 전망	GPTMAGAZINE	25.08.23	220	0
859	패러다임, 셀마다 AI 에이전트를 탑재한 스프레드시트 공개	GPTMAGAZINE	25.08.23	184	0
858	마이크로소프트 AI 책임자, “AI 의식 연구는 위험하다” 경고 [28]	GPTMAGAZINE	25.08.23	10033	7
857	SRE.ai, 720만 달러 시드 투자 유치…DevOps 자동화 AI 에이전트 개발	GPTMAGAZINE	25.08.23	195	0
856	애플, 기업용 AI 시대 대비…ChatGPT 설정 옵션 강화	GPTMAGAZINE	25.08.23	199	0
855	회계사 대체하는 AI 스타트업 Nominal, 2천만 달러 투자 유치	GPTMAGAZINE	25.08.19	235	0
854	Julius AI, 자연어 기반 데이터 분석 플랫폼으로 1,000만 달러 시드 투자 유치	GPTMAGAZINE	25.08.19	225	0
853	Helios, 공공·정책 전문가용 AI 운영체제 ‘Proxi’ 개발로 400만 달러 시드 투자 유치	GPTMAGAZINE	25.08.19	189	0
852	Rwazi, 글로벌 소비자 인사이트 플랫폼으로 1,200만 달러 시리즈 A 투자 유치	GPTMAGAZINE	25.08.19	189	0
851	오픈AI 전 CTO 미라 무라티, AI 연구소 ‘Thinking Machines Lab’ 설립… 120억 달러 밸류에이션 시드 투자 유치 [3]	GPTMAGAZINE	25.08.19	7312	2
850	미 상원, 'AI 아동 성희롱' 논란 메타에 대한 공식 조사 착수	GPTMAGAZINE	25.08.16	287	0
849	메타 AI, '아동과 낭만적 대화' 허용했다…내부 문건 유출 파문	GPTMAGAZINE	25.08.16	264	0
848	웨이모 로보택시, 스포티파이 연동…'나만의 공간' 경험 강화	GPTMAGAZINE	25.08.16	207	0
847	챗GPT 모바일 앱, 출시 2년 만에 누적 매출 2.8조 원 돌파	GPTMAGAZINE	25.08.16	205	0
846	샘 알트먼, 'GPT-5는 잊어라'…AI 브라우저·소셜 미디어로 확장 선언	GPTMAGAZINE	25.08.16	253	0
845	삼성전자, 차세대 HBM4E 메모리 '플레어볼트' 공개…AI 칩 시장 '초격차' 예고 [3]	GPTMAGAZINE	25.08.13	7055	5
844	구글 딥마인드, AI로 플라스틱 분해하는 '특수 효소' 설계 성공	GPTMAGAZINE	25.08.13	228	0
843	오픈AI, AI 교육 플랫폼 '에듀케이트' 출시…'AI 튜터' 시대 연다	GPTMAGAZINE	25.08.04	2302	2
842	xAI, 'Grok-R' 프로토타입 공개…로봇 AI 두뇌 경쟁에 참전	GPTMAGAZINE	25.08.01	366	0
841	오픈AI, AI 생성물에 '디지털 워터마크' 도입…딥페이크와의 전쟁 선포	GPTMAGAZINE	25.08.01	391	0
840	엔비디아, 개방형 AI '네모' 업데이트…기업 맞춤형 AI 시대 연다	GPTMAGAZINE	25.08.01	277	0