디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] CogAgent: A Visual Language Model for GU

특갤용갤로그로 이동합니다. 2023.12.16 11:33:03
조회 1353 추천 22 댓글 6
														

CogAgent: A Visual Language Model for GUI Agents


Abstract

People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM.


사람들은 그래픽 사용자 인터페이스(GUI)를 통해 디지털 기기에서 엄청난 시간을 보내고 있습니다. 예를 들어, 컴퓨터나 스마트폰 화면 등이 있습니다. ChatGPT와 같은 대형 언어 모델(LLMs)은 이메일 작성과 같은 작업에서 사람들을 도울 수 있지만, GUI를 이해하고 상호 작용하는 데 어려움을 겪어 자동화 수준을 높이는 잠재력이 제한됩니다. 이 논문에서는 GUI 이해와 탐색을 전문으로 하는 180억 파라미터의 시각 언어 모델(VLM)인 CogAgent를 소개합니다. 저해상도 및 고해상도 이미지 인코더를 모두 활용하여 CogAgent는 1120*1120의 해상도에서 입력을 지원하며, 이를 통해 작은 페이지 요소와 텍스트를 인식할 수 있습니다. 일반적인 시각 언어 모델로서 CogAgent는 VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, POPE를 포함한 다섯 가지 텍스트 중심 및 네 가지 일반 VQA 벤치마크에서 최고 수준의 성능을 달성합니다. 스크린샷만을 입력으로 사용하는 CogAgent는 추출된 HTML 텍스트를 사용하는 LLM 기반 방법보다 PC 및 Android GUI 탐색 작업에서 더 우수한 성능을 보여주며, Mind2Web 및 AITW에서 최신 기술을 더욱 발전시킵니다.



24b0d121e09c28a8699fe8b115ef046545aff43df0



24b0d121e09c28a8699fe8b115ef046c66f8204e9fea30





https://arxiv.org/abs/2312.08914

 


https://github.com/THUDM/CogVLM

 



자동등록방지

추천 비추천

22

고정닉 5

댓글 영역

전체 댓글 0
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
3009 설문 논란을 반복해서 진정성이 의심되는 스타는? 운영자 25/05/12 - -
571617 공지 뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250427) ㅇㅇ갤로그로 이동합니다. 24.11.23 34514 47
609935 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [6] ㅇㅇ갤로그로 이동합니다. 25.01.18 20630 30
571620 공지 본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다. ㅇㅇ갤로그로 이동합니다. 24.11.23 5754 15
572292 공지 직업 비하, 조롱 글 30일 차단됩니다. ㅇㅇ갤로그로 이동합니다. 24.11.24 5124 6
720264 일반 5월 20일 최악의 절망회로 ㅇㅇ(218.54) 13:00 5 0
720263 일반 21세기에 과학기술로 초인간, 사이보그 만들어지면 ㅇㅇ갤로그로 이동합니다. 12:59 10 0
720262 일반 5월 20일에 구글 그록 oai 다 모델 나오는거맞지? [1] ㅇㅇ갤로그로 이동합니다. 12:57 14 0
720261 일반 근데 궁금한게 뭐가 몰려온다는거임?? [2] 관음증갤로그로 이동합니다. 12:55 67 0
720260 일반 그록3.5 걍 5월20일 구글모델내는거보고 낼려는거아님? ㅇㅇ(175.213) 12:55 19 0
720259 일반 gpt한탭에 스택쌓이니깐 느려지는데헤어지질못하겟음 다들어떡함? [5] ㅇㅇ(218.153) 12:53 39 0
720258 일반 구글은 oai 처럼 요금제 장난은 안칠듯 ㅇㅇ(121.66) 12:44 71 0
720257 일반 정상전쟁에 메타도 참가할거셈 [2] ㅇㅇ갤로그로 이동합니다. 12:36 176 1
720256 일반 딸숭이용은 현재 제미나이 2.5가 최강인듯 [1] MCmh860pt갤로그로 이동합니다. 12:33 139 0
720254 일반 OAI가 IPO하면 기업이 끝나는 것처럼 말하는 애들이 많네 [2] ㅇㅇ(210.205) 12:25 156 3
720253 일반 5월 20일 정상전쟁 터지는 거 아님...? [18] 초존도초갤로그로 이동합니다. 12:19 498 12
720252 일반 난 싱클레어 이해해 ㅇㅇ(220.116) 12:19 115 0
720251 일반 일상적 용도로 gpt 4o 랑 제미나이 2.5프로 뭐가 [5] ㅇㅇ(59.29) 12:16 150 0
720250 일반 일론 초반 스페이스X 로켓 존나게 터뜨렸던 이유 알아냄 [4] 초존도초갤로그로 이동합니다. 12:12 252 0
720249 일반 근데 왜 성공한 ai 버튜버는 뉴로사마 밖에 없는거임? [9] ㅇㅇ(126.205) 12:12 205 0
720248 일반 위고비 같은 명약은 내 돈 다 내고 사야하고 [1] heimatlosigkeit갤로그로 이동합니다. 12:12 148 1
720247 일반 제미니 목조르고싶다 [5] ㅇㅇ(218.54) 12:12 148 0
720246 일반 grok은 걍 novel ai LLM 버전임 [3] ㅇㅇ갤로그로 이동합니다. 12:08 194 0
720245 일반 여기있는사람들 연구실사람들임? [16] ㅇㅇ(58.127) 12:05 242 0
720244 정보/ 일본 기업 3곳 중 1곳 "AI 에이전트 쓸 것" [3] 니지카엘갤로그로 이동합니다. 12:05 234 5
720243 일반 근데 생각해보니까 ai가 게임을 플레이 할정도면 거의 agi 아님? [5] ㅇㅇ(126.205) 12:03 138 0
720242 일반 클라르나, AI챗봇으로 인한 품질저하 후 다시 인간직원 채용 [4] ㅇㅇ갤로그로 이동합니다. 12:01 191 6
720241 일반 oai 상장 === 영리기업 하겠다 맞냐 [3] 노력갤로그로 이동합니다. 12:01 179 0
720240 일반 제미나이 이 개머저리 같은 새끼 자꾸 문자 깨지는데 어캄 [7] ㅇㅇ갤로그로 이동합니다. 12:01 125 1
720239 일반 상장한다니까 슬슬 몰려오네 [1] ㅇㅇ갤로그로 이동합니다. 11:59 123 0
720238 일반 어째 똥글싸는 새끼 중 상당수가 글댓비 곱창난 새끼들이노 [2] ㅇㅇ(218.148) 11:58 125 2
720237 일반 조광현 연구팀 최근 연구나 진전 없음? [3] ㅇㅇ(220.116) 11:57 119 2
720236 일반 근데 역노화가 되면 자연스레 수명도 엄청 늘어나려나 [1] ㅇㅇ(211.189) 11:57 59 0
720235 일반 휴머노이드 나오면 사업 해볼만하지않냐 [6] 노력갤로그로 이동합니다. 11:56 129 0
720234 일반 그록 괜히 구독했네 [3] ㅇㅇ(175.215) 11:54 202 1
720233 일반 상장하는 거 구라 아님? [1] ㅇㅇ(218.148) 11:53 95 0
720231 일반 알트먼은 그냥 엑시트하려는거임 영리든 상장이든 [1] ㅇㅇ갤로그로 이동합니다. 11:51 125 0
720230 일반 gemini 0325 exp 잘된다 [2] ㅇㅇ(218.233) 11:50 244 1
720229 일반 지금 코딩용으로 어느 모델이 가장 쓸만함? ㅇㅇ(121.184) 11:50 33 0
720228 일반 그록은 기대도 않하는데 실망도 없지. ㅇㅇ(218.233) 11:46 35 0
720227 일반 oai 왜 갑자기 상장추진함? [3] ㅇㅇ갤로그로 이동합니다. 11:45 248 0
720226 일반 근데 OAI IPO는 장기적 악jaein거 같은데 ㅇㅇ(222.232) 11:44 88 0
720225 일반 트럼프 약값 80% 낮추는거 마법같네 [6] 방울이갤로그로 이동합니다. 11:43 234 0
720224 역노화 "노화, 되돌릴 수 있다"세계 학자들이 여는 '노화역전'.news [15] ㅇㅇ갤로그로 이동합니다. 11:42 912 18
720223 일반 알트만이 19년에 예측한 2025년 3가지 핵심 기술들 [5] ㅇㅇ갤로그로 이동합니다. 11:39 240 2
720222 AI창 그림체 테스트 뜨콜갤로그로 이동합니다. 11:23 162 2
720221 일반 근데 디시말투 왜캐 좋아함 ? ㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 11:21 151 0
720220 일반 아 그록 3.5 그래도 금방 나올줄 알구 써보려고 2일전 그록 구독했는대 [1] ㅇㅇ(121.141) 11:21 137 0
720219 일반 개인사업하는 특붕이들 있음? [12] ㅇㅇ갤로그로 이동합니다. 11:20 237 0
720218 일반 김성회 지피티랑 싸우는 최근영상 재밌네 [1] ㅇㅇ갤로그로 이동합니다. 11:20 165 0
720217 일반 firebase studio는 아직인 듯 GОD갤로그로 이동합니다. 11:19 77 1
720216 일반 notebooklm 페르소나 지정 꿀팁 ㅇㅇ갤로그로 이동합니다. 11:19 120 0
720215 일반 세계 최상위 부자들은 이미 준특이점 정도는 될거임 [13] ㅇㅇ(182.211) 11:09 352 3
720214 일반 일론 씨발련은 용서가 안된다 [3] ㅇㅇ(222.111) 11:00 234 2
720213 일반 그록 3.5에 묻혀 은근슬쩍 안나오고 있는거 [7] ㅇㅇ갤로그로 이동합니다. 10:59 268 1
뉴스 에일리 남편 최시훈, 악플러에 법적 대응 “허위사실·모욕 심각 수준” [전문] 디시트렌드 05.10
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2