디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 애플, 휴대폰 화면 이해하고 작용하는 AI 출시앱에서 작성

ㅇㅇ(116.120) 2024.04.13 19:08:10
조회 159 추천 3 댓글 1
														

 

마크테크포스트는 11일(현지시간) 애플이 모바일 사용자 인터페이스(UI)에 대한 이해와 상호 작용을 향상하기 위해 특별히 개발된 모델인 ‘패럿-UI(Ferret-UI)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.

패럿-UI는 사용자가 AI 에이전트와 대화할 때 화면 내의 이미지, 데이터 등 상호작용할 모든 엔터티들을 참조하거나 사용할 수 있다. 

예를 들어 사용자는 휴대폰의 검색앱 화면에서 ‘근처 약국을 찾아줘’라고 AI 에이전트에 요청할 수 있다. 패럿-UI를 적용한 AI 에이전트는 모바일 UI를 이해해 검색창에 검색어를 입력하고 실행까지 할 수 있다.

패럿-UI는 UI 벤치마크 테스트에서 오픈 소스 멀티모달언어모델(LMM) ‘패럿’과 'GPT-4V'를 능가하는 성능을 보였다.

아이콘 인식 작업에서 패럿-UI는 GPT-4V 모델에 비해 25% 향상된 정확도 95%를 달성했다. 위젯 분류 성공률은 90%로 GPT-4V를 30% 능가했다. 위젯, 아이콘 찾기 등의 접지 작업에서는 패럿-UI가 각각 92%, 93%의 정확도를 유지해 기존 모델 대비 20%, 22% 향상된 성능을 보였다 

더불어 애플은 지난 1일 음성 비서와의 자연스러운 상호 작용을 위해 화면상에 나타낸 각종 참조 사항은 물론 대화 및 배경 맥락에 참조를 이해할 수 있는 새로운 언어모델 ‘렐름(ReALM)’을 공개했다.

이는 시리와 같은 음성 비서와 대화할 때 백그라운드 작업, 화면 데이터, 대화 관련 엔터티 등 상호작용할 상황별 정보를 참조할 수 있도록 한 것으로, 역시 AI 에이전트에 필요한 기능이다. 

다만 AI 에이전트에서 가장 중요한 대형언어모델(LLM)은 아직 출시한 바 없다. 이 때문에 자체 모델 출시에 앞서, 이미 검증된 구글이나 오픈AI 모델을 도입하기 위해 파트너십을 추진한다는 소식도 전해졌다
자동등록방지

추천 비추천

3

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
469206 일반 와 ㅅㅂ ㅌㅇㅇ(118.32) 05.14 25 0
469205 일반 수학 나왔노 ㅋㅋㅋ 비닌갤로그로 이동합니다. 05.14 51 0
469204 일반 fucking great lolll 퐁칸8갤로그로 이동합니다. 05.14 16 0
469203 일반 이정도면 0.5 her정도 되냐? ㅇㅇ(121.124) 05.14 11 0
469202 일반 미친새끼들 뭔 만들었는지 모르겠으면 개추 ㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 42 1
469201 일반 그래서 x8 어디갔냐고 ㅇㅇ(222.112) 05.14 13 0
469200 일반 특이점이 왔다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 37 0
469199 일반 아니 근데 also 를 무료로 풀어??÷ ㅇㅇ(125.137) 05.14 41 0
469198 일반 그래서 노동이야? 불로야? [1] ㅇㅇ(58.29) 05.14 28 0
469197 일반 AGI2024 ㅇㅇ(218.153) 05.14 19 0
469194 일반 아니 진짜 리얼타임이 맞냐? 말이됨? ㅇㅇ(220.118) 05.14 34 0
469193 일반 상대방 말이 안끝났는데 인식함 ㅇㅇ(124.111) 05.14 28 0
469191 일반 AI 목소리 낭낭하네 ㅋㅋㅋㅋㅋ ㅇㅇ­갤로그로 이동합니다. 05.14 20 0
469189 일반 반응속도는 확 빨라지긴 했노 ㅇㅇ(115.139) 05.14 13 0
469188 일반 성대모사 능력 향상! [1] 나일론마스크갤로그로 이동합니다. 05.14 24 0
469187 일반 저거 조작 아냐??? ㅇㅇ(121.128) 05.14 17 0
469186 일반 좋긴하노 ㅋㅋㅋ ㅇㅇ(112.186) 05.14 6 0
469185 일반 목소리가 ㅈㄴ떨리는데 ㅇㅇ(121.144) 05.14 14 0
469184 일반 글라도스노 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 솔.이☆갤로그로 이동합니다. 05.14 10 0
469183 일반 FIREKICK갤로그로 이동합니다. 05.14 45 0
469182 일반 사만다 맞네 ㅋㅋㅋㅋ 초존도초갤로그로 이동합니다. 05.14 11 0
469181 일반 리얼타임에 저가 다 되면 진짜 헉명인데 ㅇㅇ(58.226) 05.14 21 0
469180 일반 저거 걍 안에 사람있는 거 아니냐 타비타비갤로그로 이동합니다. 05.14 8 0
469179 일반 전율인데? 와 미쳤다 ㅇㅇ(218.147) 05.14 14 0
469178 일반 애매하네? 반값 흠... [2] ㅇㅇ(222.236) 05.14 89 0
469177 일반 시발 레전듣레전드리전드레전드 ㅇㅇ(121.124) 05.14 10 0
469176 일반 지리네;;; ㅇㅇ(121.178) 05.14 16 0
469175 일반 저거 무료가능임? ㅇㅇ(211.248) 05.14 26 0
469174 일반 지금 시연중인게 무료란거임? [3] ㅇㅇ갤로그로 이동합니다. 05.14 51 0
469173 일반 와 중간에 말끊기도 된다. 그냥 사람인데? ㅇㅇ(218.232) 05.14 11 0
469172 일반 ㅁㅊ ㅋㅋㅋㅋ ㅇㅇ(220.122) 05.14 7 0
469170 일반 오 이건 좀 괜찮은데?? ㅇㅇ갤로그로 이동합니다. 05.14 13 0
469169 일반 와 노래 ㅋㅋㅋㅋ ㅇㅇ(121.191) 05.14 11 0
469168 일반 씨발 이정도면 인정한다 ㅇㅇ(110.12) 05.14 19 0
469166 일반 노래도 해버리면 씨발 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(14.7) 05.14 28 0
469165 일반 실시간으로 피드백이 되네 ㅋㅋㅋㅋ ㅇㅇ(222.232) 05.14 17 0
469164 일반 사만다 맞노 ㅋㅋㅋㅋㅋㅋㅋㅋ 이세이미야케갤로그로 이동합니다. 05.14 14 0
469163 일반 한숨 인식, real time conversation은 신기하네 ㅇㅇ(58.124) 05.14 31 0
469162 일반 트만이형 만세 ㅇㅇ(125.180) 05.14 8 0
469161 일반 노래 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(59.17) 05.14 11 0
469160 일반 샘 알트먼 전략이 뭔지 알겠네 ㅇㅇ(220.116) 05.14 94 0
469159 일반 her 이다 시발ㅋㅋㅋㅋㅋ ㅇㅇ(125.137) 05.14 14 0
469158 일반 특이점이온다 오·픈·채·팅·방 라라라갤로그로 이동합니다. 05.14 11 0
469157 일반 와 목소리 실시간으로 변하는거 ㅇㅇ갤로그로 이동합니다. 05.14 23 0
469156 일반 아니 저건 그냥 gpt에 목소리 입힌거잖아 씨발 장난하냐 ㅋㅋㅋㅋ 비닌갤로그로 이동합니다. 05.14 130 0
469155 일반 아니 이거 진짜미쳤넼ㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(110.46) 05.14 16 0
469154 일반 그래서 한국어 할수있음??? ㅇㅇ갤로그로 이동합니다. 05.14 34 0
469153 일반 글라도스 나왔노 ㅋㅋ 람냥갤로그로 이동합니다. 05.14 14 0
469152 일반 말을 끊고 대화해????????????? 와 씨발 ㅇㅇ(121.156) 05.14 23 0
469151 일반 사람아니냐?? ㄷㄷㄷ ㅇㅇ(1.245) 05.14 7 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2