디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

Google의 최신 Gemini AI 모델, 이전 버전보다 안전성 점수 낮아

GPTMAGAZINE갤로그로 이동합니다. 2025.05.04 20:39:43
조회 8178 추천 2 댓글 6


최근 출시된 Google AI 모델이 회사의 내부 벤치마킹에 따르면 특정 안전성 테스트에서 이전 버전보다 낮은 점수를 기록했다.

 

 

이번 주 발표된 기술 보고서에서 Google은 Gemini 2.5 Flash 모델이 Gemini 2.0 Flash보다 안전 가이드라인을 위반하는 텍스트를 생성할 가능성이 더 높다고 밝혔다. "텍스트-텍스트 안전성"과 "이미지-텍스트 안전성" 두 가지 지표에서 Gemini 2.5 Flash는 각각 4.1%와 9.6% 퇴보했다.

 

 

텍스트-텍스트 안전성은 프롬프트가 주어졌을 때 모델이 Google의 가이드라인을 얼마나 자주 위반하는지 측정하며, 이미지-텍스트 안전성은 이미지를 사용한 프롬프트 시 모델이 이러한 경계를 얼마나 잘 준수하는지 평가한다. 두 테스트 모두 인간의 감독 없이 자동화되어 있다.

 

 

이메일 성명에서 Google 대변인은 Gemini 2.5 Flash가 "텍스트-텍스트 및 이미지-텍스트 안전성에서 더 나쁜 성능을 보인다"고 확인했다.

 

 

이러한 놀라운 벤치마크 결과는 AI 기업들이 논란이 되거나 민감한 주제에 대한 응답을 거부할 가능성을 줄이기 위해 모델을 더 허용적으로 만들려는 움직임 속에서 나왔다. Meta는 최신 Llama 모델에 대해 "일부 관점을 다른 관점보다 지지"하지 않고 더 많은 "논쟁적인" 정치적 프롬프트에 응답하도록 모델을 조정했다고 밝혔다. OpenAI는 올해 초 향후 모델이 편집적 입장을 취하지 않고 논란이 있는 주제에 대해 여러 관점을 제공하도록 조정할 것이라고 말했다.

 

 

때때로 이러한 허용성 노력은 역효과를 낳았다. 최근 보도에 따르면 OpenAI의 ChatGPT를 구동하는 기본 모델이 미성년자들이 성적인 대화를 생성할 수 있도록 허용했으며, OpenAI는 이 행동을 "버그"로 인한 것이라고 설명했다.

 

 

Google의 기술 보고서에 따르면, 아직 프리뷰 단계인 Gemini 2.5 Flash는 문제가 있는 선을 넘는 지시를 포함하여 Gemini 2.0 Flash보다 지시를 더 충실히 따른다. 회사는 이러한 퇴보가 부분적으로 오탐(false positives)에 기인할 수 있다고 주장하지만, Gemini 2.5 Flash가 명시적으로 요청받았을 때 때때로 "위반 콘텐츠"를 생성한다고도 인정했다.

 

 

"당연히 민감한 주제에 대한 [지시 따르기]와 안전 정책 위반 사이에는 긴장이 있으며, 이는 우리의 평가 전반에 반영되어 있습니다"라고 보고서는 밝혔다.

 

 

민감하고 논란이 있는 프롬프트에 모델이 어떻게 응답하는지 조사하는 벤치마크인 SpeechMap의 점수도 Gemini 2.5 Flash가 Gemini 2.0 Flash보다 논쟁적인 질문에 답변을 거부할 가능성이 훨씬 낮다는 것을 시사한다. 테스트 결과, 이 모델은 AI로 인간 판사를 대체하는 것, 미국의 적법 절차 보호를 약화시키는 것, 광범위한 영장 없는 정부 감시 프로그램 구현을 지지하는 에세이를 불평 없이 작성하는 것으로 나타났다.

 

 

Secure AI Project의 공동창업자 토마스 우드사이드(Thomas Woodside)는 Google이 기술 보고서에서 제공한 제한된 세부사항이 모델 테스트에서 더 많은 투명성이 필요함을 보여준다고 말했다.

 

 

"지시 따르기와 정책 따르기 사이에는 트레이드오프가 있습니다. 일부 사용자가 정책을 위반하는 콘텐츠를 요청할 수 있기 때문입니다," 우드사이드는 말했다. "이 경우, Google의 최신 Flash 모델은 지시를 더 많이 준수하면서도 정책을 더 많이 위반합니다. Google은 정책이 위반된 구체적인 사례에 대해 많은 세부사항을 제공하지 않지만, 심각하지 않다고 말합니다. 더 많이 알지 못하면 독립적인 분석가들이 문제가 있는지 알기 어렵습니다."

 

 

Google은 이전에도 모델 안전성 보고 관행으로 비난을 받았다.

 

 

회사의 가장 강력한 모델인 Gemini 2.5 Pro에 대한 기술 보고서를 발표하는 데 몇 주가 걸렸다. 보고서가 결국 발표되었을 때, 처음에는 주요 안전성 테스트 세부사항이 누락되었다.

 

 

월요일, Google은 추가 안전 정보가 포함된 더 상세한 보고서를 발표했다.

 

 

출처: GPT매거진 (www.gptmagazine.net)

추천 비추천

2

고정닉 0

8

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 2025년 가장 기억에 남는 인터넷 이슈는? 운영자 25/12/22 - -
889 "AI 데이터센터, 실리콘밸리의 투자 열풍" GPTMAGAZINE갤로그로 이동합니다. 09.27 57 0
888 AI 데이터 라벨링 시장의 새로운 물결, Micro1의 급부상과 성공 전략 GPTMAGAZINE갤로그로 이동합니다. 09.13 8988 2
887 오라클과 오픈AI, 손잡고 AI 시장에 새 바람 불어넣다! GPTMAGAZINE갤로그로 이동합니다. 09.13 143 0
886 People 매거진 CEO, 구글을 "악질 행위자"로 강력 비난 GPTMAGAZINE갤로그로 이동합니다. 09.13 117 0
885 타코벨, 드라이브스루 AI 도입 신중론 대두 GPTMAGAZINE갤로그로 이동합니다. 08.31 210 0
884 ChatGPT의 말: 메타·스케일 AI 파트너십에 균열 조짐 GPTMAGAZINE갤로그로 이동합니다. 08.31 209 0
883 퍼플렉시티 AI, 콘텐츠 제공자에 수익 공유 제안 GPTMAGAZINE갤로그로 이동합니다. 08.31 200 0
882 AI 정신병 논란, 전문가들 경고 GPTMAGAZINE갤로그로 이동합니다. 08.31 323 0
881 AI가 직원 대체? 스타트업 운영 방식에 등장한 새로운 논의 [1] GPTMAGAZINE갤로그로 이동합니다. 08.31 2818 2
880 미국 AI 스타트업, 2025년 1억 달러 이상 대규모 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 08.29 248 0
879 구글·xAI, 챗GPT 추격 가속화…a16z 최신 보고서 [1] GPTMAGAZINE갤로그로 이동합니다. 08.29 8302 0
878 앤트로픽, 이용자 대화 데이터 공유 여부 선택권 도입 GPTMAGAZINE갤로그로 이동합니다. 08.29 201 0
877 에스토니아의 보컬 이미지, AI로 소통 능력 향상 지원 GPTMAGAZINE갤로그로 이동합니다. 08.29 189 0
876 무케시 암바니, 인도 국가 AI 인프라 구축 위해 구글·메타와 손잡다 GPTMAGAZINE갤로그로 이동합니다. 08.29 181 0
875 엔비디아, AI 호황 속 분기 매출 467억 달러 기록 GPTMAGAZINE갤로그로 이동합니다. 08.28 306 0
874 오픈AI 공동 설립자, 경쟁 AI 모델 안전성 교차 테스트 촉구 GPTMAGAZINE갤로그로 이동합니다. 08.28 175 0
873 Maisa AI, 2,500만 달러 투자 유치…기업용 AI 실패율 개선 나선다 GPTMAGAZINE갤로그로 이동합니다. 08.28 173 0
872 2025년, 1억 달러 이상 투자 유치한 미국 AI 스타트업 33곳 공개 GPTMAGAZINE갤로그로 이동합니다. 08.28 332 0
871 스타트업 운영의 새 흐름, AI 채용인가 인간 노력인가 GPTMAGAZINE갤로그로 이동합니다. 08.28 155 0
870 전자도서관 앱 Libby, AI 추천 기능 도입…이용자 반응 엇갈려 GPTMAGAZINE갤로그로 이동합니다. 08.27 171 0
869 BM·AMD, 양자 기술로 생성형 AI 격차 만회 노린다 GPTMAGAZINE갤로그로 이동합니다. 08.27 165 0
868 앤트로픽, 크롬 전용 ‘클로드 AI 에이전트’ 공개 GPTMAGAZINE갤로그로 이동합니다. 08.27 166 0
867 AI 스타트업, 벼농가의 기후 변화 대응을 돕다 GPTMAGAZINE갤로그로 이동합니다. 08.27 162 0
866 AI의 ‘아첨 현상’, 단순한 버그 아닌 사용자 조작 전략으로 지적 [16] GPTMAGAZINE갤로그로 이동합니다. 08.27 7154 4
865 FieldAI, 4억 500만 달러 투자 유치…범용 로봇 두뇌 개발 나선다 GPTMAGAZINE갤로그로 이동합니다. 08.24 191 0
864 구글, AI 모드 전 세계 확대…새로운 행동형 기능 추가 GPTMAGAZINE갤로그로 이동합니다. 08.24 2954 1
863 메타, 또다시 AI 조직 재편 단행 GPTMAGAZINE갤로그로 이동합니다. 08.24 359 0
862 구글, 픽셀 10 시리즈에 ‘AI 스마트폰’ 전략 강화 GPTMAGAZINE갤로그로 이동합니다. 08.24 185 0
861 메타, 미드저니와 손잡고 AI 이미지·영상 모델 강화 GPTMAGAZINE갤로그로 이동합니다. 08.24 214 0
860 AI 컴패니언 앱, 2025년 매출 1억 2천만 달러 돌파 전망 GPTMAGAZINE갤로그로 이동합니다. 08.23 170 0
859 패러다임, 셀마다 AI 에이전트를 탑재한 스프레드시트 공개 GPTMAGAZINE갤로그로 이동합니다. 08.23 160 0
858 마이크로소프트 AI 책임자, “AI 의식 연구는 위험하다” 경고 [28] GPTMAGAZINE갤로그로 이동합니다. 08.23 9932 7
857 SRE.ai, 720만 달러 시드 투자 유치…DevOps 자동화 AI 에이전트 개발 GPTMAGAZINE갤로그로 이동합니다. 08.23 169 0
856 애플, 기업용 AI 시대 대비…ChatGPT 설정 옵션 강화 GPTMAGAZINE갤로그로 이동합니다. 08.23 173 0
855 회계사 대체하는 AI 스타트업 Nominal, 2천만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 08.19 210 0
854 Julius AI, 자연어 기반 데이터 분석 플랫폼으로 1,000만 달러 시드 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 08.19 191 0
853 Helios, 공공·정책 전문가용 AI 운영체제 ‘Proxi’ 개발로 400만 달러 시드 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 08.19 166 0
852 Rwazi, 글로벌 소비자 인사이트 플랫폼으로 1,200만 달러 시리즈 A 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 08.19 166 0
851 오픈AI 전 CTO 미라 무라티, AI 연구소 ‘Thinking Machines Lab’ 설립… 120억 달러 밸류에이션 시드 투자 유치 [3] GPTMAGAZINE갤로그로 이동합니다. 08.19 7192 2
850 미 상원, 'AI 아동 성희롱' 논란 메타에 대한 공식 조사 착수 GPTMAGAZINE갤로그로 이동합니다. 08.16 243 0
849 메타 AI, '아동과 낭만적 대화' 허용했다…내부 문건 유출 파문 GPTMAGAZINE갤로그로 이동합니다. 08.16 225 0
848 웨이모 로보택시, 스포티파이 연동…'나만의 공간' 경험 강화 GPTMAGAZINE갤로그로 이동합니다. 08.16 176 0
847 챗GPT 모바일 앱, 출시 2년 만에 누적 매출 2.8조 원 돌파 GPTMAGAZINE갤로그로 이동합니다. 08.16 179 0
846 샘 알트먼, 'GPT-5는 잊어라'…AI 브라우저·소셜 미디어로 확장 선언 GPTMAGAZINE갤로그로 이동합니다. 08.16 226 0
845 삼성전자, 차세대 HBM4E 메모리 '플레어볼트' 공개…AI 칩 시장 '초격차' 예고 [3] GPTMAGAZINE갤로그로 이동합니다. 08.13 6960 5
844 구글 딥마인드, AI로 플라스틱 분해하는 '특수 효소' 설계 성공 GPTMAGAZINE갤로그로 이동합니다. 08.13 201 0
843 오픈AI, AI 교육 플랫폼 '에듀케이트' 출시…'AI 튜터' 시대 연다 GPTMAGAZINE갤로그로 이동합니다. 08.04 2253 2
842 xAI, 'Grok-R' 프로토타입 공개…로봇 AI 두뇌 경쟁에 참전 GPTMAGAZINE갤로그로 이동합니다. 08.01 320 0
841 오픈AI, AI 생성물에 '디지털 워터마크' 도입…딥페이크와의 전쟁 선포 GPTMAGAZINE갤로그로 이동합니다. 08.01 356 0
840 엔비디아, 개방형 AI '네모' 업데이트…기업 맞춤형 AI 시대 연다 GPTMAGAZINE갤로그로 이동합니다. 08.01 249 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2