디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 구글 딥마인드, 이미지 생성 AI 벤치마크 '젝코' 공개

ㅇㅇ(182.230) 2024.04.30 19:01:03
조회 153 추천 2 댓글 1
														

https://www.aitimes.com/news/articleView.html?idxno=159241

 



7ce88974b18307f739ee82ed4fee756adfcc9064d4ae6b84e22ff3843e30605cb5ff



구글 딥마인드가 이미지 생성 인공지능(AI) 모델의 성능을 평가하기 위한 벤치마크를 공개했다. 프롬프트에 맞는 정확한 이미지 생성이 중요한 텍스트-이미지 생성 AI 모델에 대한 평가 도구로 자리매김할 것이라는 전망이다.


벤처비트는 29일(현지시간) 구글 딥마인드 연구진이 텍스트-이미지 AI 모델의 성능을 평가하는 벤치마크 ‘젝코(Gecko)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.


연구진은 "지금은 텍스트에서 이미지로 생성하는 모델이 널리 사용되고 있지만, 이 모델들이 반드시 주어진 프롬프트와 일치하는 이미지를 생성하지는 않는다"라고 지적했다. 이어 “현재 달리나 미드저니, 스테이블 디퓨전과 같은 모델의 능력을 평가하기 위해 주로 사용되는 데이터셋이나 자동 측정법도 제한적이고 중요한 점을 놓칠 수 있으며 인간 평가와도 다를 수 있다”라고 주장했다.


이를 해결하기 위해 개발한 젝코는 텍스트-이미지 생성 모델에 대한 벤치마크 기준을 높인다. 다양한 기술과 복잡성을 테스트하는 2000개의 텍스트 프롬프트를 제공한다. 이런 프롬프트를 특정 하위 기술로 분류, 모델의 이미지 생성 퀄리티를 떨어 뜨리는 정확한 약점을 찾아낸다.



7ce88974b18307f739ee82ec46ee7564a2b493dc5132652790d9e55e0f33a2ac59e5



연구진은 "이 기술 중심의 벤치마크는 프롬프트를 하위 기술로 분류해 사용자가 어떤 기술이 어려운지뿐만 아니라, 어떤 수준의 복잡성에서 기술이 어려워지는지를 정확히 파악할 수 있도록 한다"라고 설명했다.


젝코 프레임워크는 텍스트에서 이미지로 변환하는 AI 모델의 평가에서의 단점을 해결하기 위해 🔼포괄적인 기술 중심의 벤치마크 데이터셋 🔼다양한 템플릿에 걸친 폭넓은 인간 주석 🔼개선된 자동 평가 메트릭 🔼다양한 기준에서 모델 성능에 대한 통찰력을 제공한다. 



7ce88974b18307f739ee82ec47ee7564a016b3f5740829cf9862e06986d978c5e7



또 요즘 유행하는 인간 선호도 평가도 추가했다.


젝코 프롬프트에 대한 여러 주요 모델들이 생성한 이미지에 대해 10만건 이상의 인간 평가를 수집했다. 이를 통해 이 벤치마크는 모델의 한계, 모호한 프롬프트, 일관되지 않은 평가 방법으로 인해 성능 차이가 나타는지를 구분해 낼 수 있다는 설명이다.


마지막으로 젝코는 질문 응답을 기반으로 한 자동 평가 측정을 특징으로 하고 있으며, 이 측정법은 기존보다 인간의 판단과 더 일치한다는 설명이다. 최신 모델을 비교할 경우, 이전에 감지되지 않았던 각 모델의 장점과 약점을 파악할 수 있었다고 밝혔다.



7ce88974b18307f739ee82ec44ee766d206b6f29456a51f5115de568bdce8d1dea



젝코 벤치마크 테스트를 수행한 결과, 딥마인드의 '뮤즈(Muse)' 모델이 구글의 '이마젠(Imagen)', 스태빌리티 AI의 '스테이블 디퓨전 XL' 및 '스테이블 디퓨전 1.5' 보다 전반적으로 높은 점수를 기록한 것으로 나타났다.


딥마인드는 젝코 코드와 데이터를 무료로 사용할 수 있도록 할 방침이다.


자동등록방지

추천 비추천

2

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
478787 일반 사람뇌는 평소에도 그저 눈뜨고 살아있느라 이미 상당히 연산하고 있을텐데 ㅇㅇ(175.192) 09:11 38 0
478786 일반 지미애플 트윗 람냥갤로그로 이동합니다. 09:09 137 0
478785 일반 Gpt5성능 어느정도일것 같음?? [4] ㅇㅇ갤로그로 이동합니다. 09:03 111 0
478784 일반 하루2끼 식사패턴 질문하니까 [3] ㅇㅇ(125.178) 08:59 110 0
478783 일반 "비행기가 하늘을 날려면 새를 모방해야해요" [1] ㅇㅇ(121.124) 08:57 153 0
478782 일반 그럼 요한슨 말고 딴여자 목소리 쓰믄 되지! [2] ㅇㅇ(175.192) 08:50 223 0
478781 일반 대의를 위해서 희생을 해라 ㅇㅇ(58.29) 08:48 80 0
478780 정보 사티아 나델라 "Windows에 사진 메모리 기능 넣을 것" [4] ㅇㅇ(125.191) 08:47 231 1
478779 일반 이런? LLM 이 인공신경망의 일종이네? [1] ㅇㅇ(175.192) 08:47 114 0
478778 일반 AI가 수능에 도움 주면 이렇게 되려나? ㅇㅇ(183.96) 08:47 29 0
478777 일반 환각 해결 못한채로 4o같은거 만들면 ㅇㅇ(222.234) 08:45 51 0
478776 일반 알트만이 완전 잘못했구만 [10] ㅇㅇ(117.20) 08:44 347 0
478775 일반 그래서 지금 당장 가능한게머ㅓ임? [1] ㅇㅇ갤로그로 이동합니다. 08:42 73 0
478774 일반 sky빼고 출시하면 안댐? et갤로그로 이동합니다. 08:35 78 0
478773 일반 결국 배포가 늦춰진 거잖음 [1] ㅇㅇ(121.128) 08:31 146 0
478772 일반 Sky때문 인공지능보이스 출시 지체되는거네 [1] 연맛갤로그로 이동합니다. 08:28 202 0
478771 일반 지금 가장 큰 수수께끼는 이걸까? [1] ㅇㅇ(175.192) 08:22 100 0
478770 일반 sky=스칼렛 요한슨 흉내낸 목소리 [5] ㅇㅇ(211.46) 08:19 367 0
478769 일반 오픈ai 매출 2배 떡상 ㅇㅇ갤로그로 이동합니다. 08:19 273 0
478768 일반 알트만이 생각보다 감정적인 사람인듯 ㅇㅇ(211.179) 08:18 117 0
478767 일반 밑글 공감. 의사결정이 인간한테 있는 게 아직은 큼 ㅇㅇ(103.237) 08:15 53 0
478766 일반 인공지능이 발달해도 결국은 소비는 인간이 함 dasdasdasd(121.178) 08:09 69 0
478765 일반 아 시발 또 뉴스에서 ㅈㄹㅈㄹ하겠네 ㅇㅇ(110.46) 08:07 151 0
478764 일반 스칼렛 요한슨 성명문 알트만 ㅈ댄듯? [37] ㅇㅇ갤로그로 이동합니다. 07:54 1012 11
478763 일반 보이스 기능 몇 달 후는 진짜 에반데.. [1] ㅇㅇ(218.157) 07:45 215 0
478762 일반 AI로 만든 이미지는 상업적 이용이 안 됨? [2] ㅇㅇ(218.147) 07:44 90 0
478761 일반 오늘도 하루빨리 노동대체가 되길 간절히빌며 눈물의 출근길강행 [1] ㅇㅇ(221.154) 07:39 83 0
478760 일반 Chatbot Arena 순위 (하드프롬프트 적용) [6] 디붕이(121.190) 07:31 269 2
478758 일반 코파일럿에 4o탑제된거면 유료왜씀? [5] ㅇㅇ갤로그로 이동합니다. 07:08 279 0
478757 일반 남세동 "AGI가 오고 있다" [5] ㅇㅇ(125.143) 06:55 529 3
478756 일반 인공지능 목소리로 학습되서 유명해지면 [1] ㅇㅇ(110.46) 06:55 128 0
478755 일반 Gpt4o 사만다 애플출시보다 늦으면 ㅅㅂ [1] 연맛갤로그로 이동합니다. 06:46 204 0
478104 정보 '저작권 문제 없는' 그림 ai, 마침내 출시 [27] 한가운데갤로그로 이동합니다. 05.19 1488 14
478288 일반 얀르쿤의 개같은 복종을 보고싶다 [9] 늦네에특이점갤로그로 이동합니다. 05.20 459 9
478357 일반 특붕이 변기 고장난거 gpt4o한테 물어봐서 고침. [21] ㅇㅇ갤로그로 이동합니다. 05.20 1601 26
478482 일반 제미니 어드벤스드 에이전트 적용됨 지림 ㄷㄷㄷ [7] ㅇㅇ갤로그로 이동합니다. 05.20 668 13
478753 정보 속보) GPT-4o 음성 모드 출시 지연 (+수정) [32] Ad_Astra갤로그로 이동합니다. 06:14 734 3
478751 정보 "최적의 프롬프트 단어 수는 21개" 제미니 가이드북 발간 디시콘발사대갤로그로 이동합니다. 05:54 173 2
478750 일반 근데 gpt4o 인터넷검색 되는데 빙 왜씀 ㅇㅇ(124.54) 05:51 103 0
478749 정보 앤트로픽은 ASL-3에 도달시 모델 학습,배포 중지 약속 [7] ㅇㅇ(119.77) 05:45 323 0
478748 정보 앤트로픽, claude 3 opus의 4배 컴퓨팅 모델 교육 중 [2] ㅇㅇ(119.77) 05:37 259 3
478747 정보 코파일럿(by gpt-4o)와 함께하는 마인크래프트 [4] ㅇㅇ(119.77) 05:31 297 4
478745 일반 예측이 지능의 본질인 이유.4ai [18] ㅇㅇ(125.143) 05:15 397 1
478743 일반 홀로그램 과도기인가 [7] ㅇㅇ(223.39) 05:06 244 0
478742 일반 시발 좀 보이스 기능 언제푸냐! ㅇㅇ(118.235) 05:05 57 0
478741 일반 예측은 지능의 본질임 ㅇㅇ(125.143) 05:01 78 2
478740 일반 미래엔 책을 안읽겠네 [6] ㅇㅇ(223.39) 04:59 244 0
478739 일반 논문작성하기 가장 괜찮은 ai는 뭐냐 ㅇㅇ(49.96) 04:55 45 0
478738 일반 아직도 환각 심하냐? ㅇㅇ(1.240) 04:47 51 0
478737 일반 2025 AGI 믿는 이유.. [8] ㅇㅇ(125.143) 04:35 289 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2