디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

Google의 최신 Gemini AI 모델, 이전 버전보다 안전성 점수 낮아

GPTMAGAZINE갤로그로 이동합니다. 2025.05.04 20:39:43
조회 7717 추천 2 댓글 6


최근 출시된 Google AI 모델이 회사의 내부 벤치마킹에 따르면 특정 안전성 테스트에서 이전 버전보다 낮은 점수를 기록했다.

 

 

이번 주 발표된 기술 보고서에서 Google은 Gemini 2.5 Flash 모델이 Gemini 2.0 Flash보다 안전 가이드라인을 위반하는 텍스트를 생성할 가능성이 더 높다고 밝혔다. "텍스트-텍스트 안전성"과 "이미지-텍스트 안전성" 두 가지 지표에서 Gemini 2.5 Flash는 각각 4.1%와 9.6% 퇴보했다.

 

 

텍스트-텍스트 안전성은 프롬프트가 주어졌을 때 모델이 Google의 가이드라인을 얼마나 자주 위반하는지 측정하며, 이미지-텍스트 안전성은 이미지를 사용한 프롬프트 시 모델이 이러한 경계를 얼마나 잘 준수하는지 평가한다. 두 테스트 모두 인간의 감독 없이 자동화되어 있다.

 

 

이메일 성명에서 Google 대변인은 Gemini 2.5 Flash가 "텍스트-텍스트 및 이미지-텍스트 안전성에서 더 나쁜 성능을 보인다"고 확인했다.

 

 

이러한 놀라운 벤치마크 결과는 AI 기업들이 논란이 되거나 민감한 주제에 대한 응답을 거부할 가능성을 줄이기 위해 모델을 더 허용적으로 만들려는 움직임 속에서 나왔다. Meta는 최신 Llama 모델에 대해 "일부 관점을 다른 관점보다 지지"하지 않고 더 많은 "논쟁적인" 정치적 프롬프트에 응답하도록 모델을 조정했다고 밝혔다. OpenAI는 올해 초 향후 모델이 편집적 입장을 취하지 않고 논란이 있는 주제에 대해 여러 관점을 제공하도록 조정할 것이라고 말했다.

 

 

때때로 이러한 허용성 노력은 역효과를 낳았다. 최근 보도에 따르면 OpenAI의 ChatGPT를 구동하는 기본 모델이 미성년자들이 성적인 대화를 생성할 수 있도록 허용했으며, OpenAI는 이 행동을 "버그"로 인한 것이라고 설명했다.

 

 

Google의 기술 보고서에 따르면, 아직 프리뷰 단계인 Gemini 2.5 Flash는 문제가 있는 선을 넘는 지시를 포함하여 Gemini 2.0 Flash보다 지시를 더 충실히 따른다. 회사는 이러한 퇴보가 부분적으로 오탐(false positives)에 기인할 수 있다고 주장하지만, Gemini 2.5 Flash가 명시적으로 요청받았을 때 때때로 "위반 콘텐츠"를 생성한다고도 인정했다.

 

 

"당연히 민감한 주제에 대한 [지시 따르기]와 안전 정책 위반 사이에는 긴장이 있으며, 이는 우리의 평가 전반에 반영되어 있습니다"라고 보고서는 밝혔다.

 

 

민감하고 논란이 있는 프롬프트에 모델이 어떻게 응답하는지 조사하는 벤치마크인 SpeechMap의 점수도 Gemini 2.5 Flash가 Gemini 2.0 Flash보다 논쟁적인 질문에 답변을 거부할 가능성이 훨씬 낮다는 것을 시사한다. 테스트 결과, 이 모델은 AI로 인간 판사를 대체하는 것, 미국의 적법 절차 보호를 약화시키는 것, 광범위한 영장 없는 정부 감시 프로그램 구현을 지지하는 에세이를 불평 없이 작성하는 것으로 나타났다.

 

 

Secure AI Project의 공동창업자 토마스 우드사이드(Thomas Woodside)는 Google이 기술 보고서에서 제공한 제한된 세부사항이 모델 테스트에서 더 많은 투명성이 필요함을 보여준다고 말했다.

 

 

"지시 따르기와 정책 따르기 사이에는 트레이드오프가 있습니다. 일부 사용자가 정책을 위반하는 콘텐츠를 요청할 수 있기 때문입니다," 우드사이드는 말했다. "이 경우, Google의 최신 Flash 모델은 지시를 더 많이 준수하면서도 정책을 더 많이 위반합니다. Google은 정책이 위반된 구체적인 사례에 대해 많은 세부사항을 제공하지 않지만, 심각하지 않다고 말합니다. 더 많이 알지 못하면 독립적인 분석가들이 문제가 있는지 알기 어렵습니다."

 

 

Google은 이전에도 모델 안전성 보고 관행으로 비난을 받았다.

 

 

회사의 가장 강력한 모델인 Gemini 2.5 Pro에 대한 기술 보고서를 발표하는 데 몇 주가 걸렸다. 보고서가 결국 발표되었을 때, 처음에는 주요 안전성 테스트 세부사항이 누락되었다.

 

 

월요일, Google은 추가 안전 정보가 포함된 더 상세한 보고서를 발표했다.

 

 

출처: GPT매거진 (www.gptmagazine.net)

추천 비추천

2

고정닉 0

8

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 실제 모습일지 궁금한 미담 제조기 스타는? 운영자 25/05/05 - -
655 Orca AI, 자율 선박 플랫폼에 7,250만 달러 투자 유치... 국방 분야와 스타링크가 성장 견인 [1] GPTMAGAZINE갤로그로 이동합니다. 05.06 846 0
654 OpenAI, ChatGPT의 과도한 아첨 문제 해결 위해 개선안 발표 [1] GPTMAGAZINE갤로그로 이동합니다. 05.04 50 0
Google의 최신 Gemini AI 모델, 이전 버전보다 안전성 점수 낮아 [6] GPTMAGAZINE갤로그로 이동합니다. 05.04 7717 2
652 Instagram 공동창업자, AI 챗봇들의 '참여 유도' 전략에 경고 GPTMAGAZINE갤로그로 이동합니다. 05.04 33 0
651 Google Gemini AI, 29년 된 '포켓몬 블루' 게임 클리어 성공 GPTMAGAZINE갤로그로 이동합니다. 05.04 47 0
650 FutureHouse, 과학 연구 가속화 AI 도구 4종 출시 GPTMAGAZINE갤로그로 이동합니다. 05.04 33 0
649 Instacart, 식료품점 및 소매업체용 솔루션 강화를 위해 Wynshop 인수 GPTMAGAZINE갤로그로 이동합니다. 05.02 39 0
648 Stripe, iOS 개발자들에게 Apple 앱스토어 수수료 회피 방법 공개 GPTMAGAZINE갤로그로 이동합니다. 05.02 38 0
647 Reddit, AI 기반 '앤서스(Answers)' 서비스로 검색 이용자 공략 나서 GPTMAGAZINE갤로그로 이동합니다. 05.02 36 0
646 Apple, 미국 앱스토어 규정 변경... 앱에서 외부 결제 시스템 링크 허용 GPTMAGAZINE갤로그로 이동합니다. 05.02 32 0
645 Anthropic, Claude에 앱 연결 및 고급 리서치 기능 추가 GPTMAGAZINE갤로그로 이동합니다. 05.02 31 0
644 Hugging Face, 100달러부터 시작하는 3D 프린팅 로봇 팔 출시 [2] GPTMAGAZINE갤로그로 이동합니다. 04.29 2347 0
643 GPT-4.5 개발에 참여한 OpenAI 연구원, 영주권 거부당해 [9] GPTMAGAZINE갤로그로 이동합니다. 04.27 2896 1
642 Anthropic, 코딩 도구 리버스 엔지니어링 시도한 개발자에게 삭제 통지 발송 GPTMAGAZINE갤로그로 이동합니다. 04.27 114 0
640 Musk의 xAI, 사상 두 번째로 큰 규모의 민간 투자 유치 나서 GPTMAGAZINE갤로그로 이동합니다. 04.27 89 0
639 Google DeepMind 영국 팀, 노조 결성 추진 중 [1] GPTMAGAZINE갤로그로 이동합니다. 04.27 118 0
638 Perplexity CEO, "AI 브라우저 전쟁이 온다"... Google과의 전투와 미래 전략 공개 [1] GPTMAGAZINE갤로그로 이동합니다. 04.27 125 0
637 OpenAI, 첫 '오픈' AI 모델을 최고 수준으로 개발 중 GPTMAGAZINE갤로그로 이동합니다. 04.26 100 0
636 Perplexity AI 음성 비서, 이제 iOS에서 사용 가능 GPTMAGAZINE갤로그로 이동합니다. 04.26 86 0
635 Anthropic CEO, 2027년까지 AI 모델의 블랙박스 열겠다는 목표 발표 GPTMAGAZINE갤로그로 이동합니다. 04.26 80 0
634 Google의 AI 검색 사용자 수 증가, 이는 의도적인 전략 GPTMAGAZINE갤로그로 이동합니다. 04.26 83 0
633 Adobe, 새로운 Firefly 이미지 생성 모델과 리디자인된 웹 앱 출시 GPTMAGAZINE갤로그로 이동합니다. 04.26 83 0
632 Apple, ‘지금 이용 가능’ 문구 Apple Intelligence 페이지에서 삭제 GPTMAGAZINE갤로그로 이동합니다. 04.23 2538 0
631 OpenAI, Cursor 인수 시도 불발 후 급성장 중인 Windsurf로 방향 전환 GPTMAGAZINE갤로그로 이동합니다. 04.23 94 0
630 Noxtua, 독일 법체계에 특화된 '주권 AI'로 9,200만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.23 91 0
629 Character.AI, 실사형 챗봇 제작 가능한 AI 영상 모델 ‘AvatarFX’ 공개 [2] GPTMAGAZINE갤로그로 이동합니다. 04.23 2789 2
628 Cynomi, SMB 사이버보안 위한 AI 기반 ‘가상 CISO’로 3,700만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.23 81 0
627 Assort Health, 음성 AI 의료 서비스로 2,200만 달러 시리즈 A 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.21 1051 0
626 Google One AI Premium, 대학생들에게 2026년 봄까지 무료 제공 GPTMAGAZINE갤로그로 이동합니다. 04.19 120 0
625 전 Y Combinator 회장 Geoff Ralston, 새로운 AI '안전' 펀드 출시 GPTMAGAZINE갤로그로 이동합니다. 04.19 95 0
624 OpenAI, 저렴하고 느린 AI 작업을 위한 Flex 처리 출시 GPTMAGAZINE갤로그로 이동합니다. 04.19 107 0
623 ChatGPT 최신 바이럴 트렌드, 사진으로 '위치 역추적' 수행하기 GPTMAGAZINE갤로그로 이동합니다. 04.19 91 0
622 OpenAI의 새로운 추론 AI 모델, 더 많은 환각 현상 보여 GPTMAGAZINE갤로그로 이동합니다. 04.19 105 0
621 OpenAI, 인기 코딩 어시스턴트 Windsurf 30억 달러에 인수 협상 중 GPTMAGAZINE갤로그로 이동합니다. 04.17 99 0
620 OpenAI의 최신 AI 모델, 생물학적 위험 방지를 위한 새로운 안전장치 도입 GPTMAGAZINE갤로그로 이동합니다. 04.17 99 0
619 xAI, Grok에 '메모리' 기능 추가 GPTMAGAZINE갤로그로 이동합니다. 04.17 285 0
618 트럼프 행정부, 미국 내 DeepSeek 사용 금지 검토 중 GPTMAGAZINE갤로그로 이동합니다. 04.17 283 1
617 위키피디아, AI 개발자들에게 데이터 제공으로 봇 스크래핑 방어 나서 GPTMAGAZINE갤로그로 이동합니다. 04.17 83 0
616 구글 클래스룸, 교사를 위한 AI 퀴즈 문제 생성 기능 도입 GPTMAGAZINE갤로그로 이동합니다. 04.15 122 0
615 AI 벤치마킹 논쟁, 포켓몬 게임까지 확산 GPTMAGAZINE갤로그로 이동합니다. 04.15 2632 2
614 한국 스타트업 RLWRLD, 로봇 기초 모델 개발에 1480만 달러 조달 GPTMAGAZINE갤로그로 이동합니다. 04.15 111 0
613 Apple, 사용자 데이터 비공개 분석으로 AI 모델 개선 계획 공개 GPTMAGAZINE갤로그로 이동합니다. 04.15 106 0
612 OpenAI, 역대 최대 규모 AI 모델 GPT-4.5 API 지원 중단 예정 GPTMAGAZINE갤로그로 이동합니다. 04.15 2406 3
611 OpenAI, 곧 ChatGPT에서 GPT-4 모델 단계적 중단 예정 GPTMAGAZINE갤로그로 이동합니다. 04.13 1972 2
610 'AI' 쇼핑 앱이 사실 필리핀 인력으로 운영됐다는 사실 밝혀져... 핀테크 창업자 사기 혐의로 기소 GPTMAGAZINE갤로그로 이동합니다. 04.11 224 0
609 IBM, AI 시대를 위한 새로운 메인프레임 출시 [7] GPTMAGAZINE갤로그로 이동합니다. 04.09 6023 1
608 제미니 라이브, 픽셀 9와 갤럭시 S25에 스크린 공유 기능 출시 GPTMAGAZINE갤로그로 이동합니다. 04.09 5444 1
607 크레아(Krea), 생성형 AI 크리에이티브를 위한 원스톱 솔루션으로 8,300만 달러 유치 GPTMAGAZINE갤로그로 이동합니다. 04.09 195 0
606 메타 임원, Llama 4 벤치마크 점수 인위적 조작 의혹 부인 GPTMAGAZINE갤로그로 이동합니다. 04.09 1848 0
605 UiPath CEO 다니엘 다인스, AI 에이전트가 직업을 대체하는 미래에 대해 논하다 GPTMAGAZINE갤로그로 이동합니다. 04.09 1815 0
뉴스 임지연, 이렇게 귀여웠다니..‘산지직송2’ 청정 먹방 요정 등극 [RE스타] 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2