디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 애플, 화면 맥락을 보고 이해할 수 있는 AI 개발

ㅇㅇ(182.230) 2024.04.02 21:04:45
조회 2317 추천 19 댓글 8
														

https://www.aitimes.com/news/articleView.html?idxno=158475

 



7ce88872b28707f739ef82ec4eee776fe66bf143d737b938a33cfe6bc3cfe84f2c37



애플이 화면 상에 표시된 전화번호, URL 링크, 이메일 주소와 같은 다양한 유형의 참조 정보를 이해해 시리(Siri)와 같은 음성 비서와 상황에 맞는 대화를 나눌 수 있도록 지원하는 새로운 언어모델을 공개했다.

벤처비트는 1일(현지시간) 애플이 음성 비서와의 자연스러운 상호 작용을 위해 화면상에 나타낸 각종 참조 사항은 물론 대화 및 배경 맥락에 참조를 이해할 수 있는 새로운 언어모델 ‘렐름(ReALM)’에 관한 논문을 온라인 아키이브에 게재했다고 전했다.

시리와 같은 음성 비서와 대화할 때 사용자는 백그라운드 작업, 화면 데이터, 대화 관련 엔터티 등 상호작용할 상황별 정보를 얼마든지 참조할 수 있다.

예를 들어 사용자가 근처 약국을 요청하고 시리가 인근 약국 목록을 화면에 제시한 후 사용자는 다시 ‘맨 아래 번호로 전화해’ 라고 요청할 수 있다. 이때 기존 시리는 이 요청을 수행할 수 없었지만, 렐름을 적용한 시리는 맥락을 이해해 화면 상의 목록 데이터의 맨 아래 부분에 나와 있는 약국으로 전화를 걸 수 있다.

사람의 말은 일반적으로 ‘그들’이나 ‘그것’과 같은 모호한 대상을 포함한다. 사람은 이런 참조가 무엇을 가리키는 지 맥락에 따라 명백히 이해할 수 있지만, 이제까지 기계는 어려웠다.

참조 해결(reference resolution)이란 컴퓨터 프로그램이 사용자가 ‘이것’ 또는 ‘저것’이라고 말하는 방식과 같은 모호한 언어 입력을 기반으로 작업을 수행하는 것을 의미한다.

이런 참조 해결은 다양한 종류의 맥락을 이해하고 사용자의 요구 사항을 자연스럽게 전달하거나 성공적으로 처리하는 음성 비서에게는 필수적인 능력이다.

이러한 맥락에는 🔼화면 엔터티 🔼대화 엔터티 🔼배경 엔터티와 관련된 맥락이 포함된다. 화면 엔터티는 현재 사용자 화면에 표시되는 엔터티다. 예를 들어 전화번호, URL 링크, 이메일 주소와 같은 참조 정보가 포함된다.

대화 엔터티는 대화 내용과 관련있는 참조 엔터티를 의미한다. 예를 들어 사용자가 ‘엄마에게 전화해’라고 말하면 엄마의 연락처가 관련 엔터티가 된다.

배경 엔터티는 백그라운드에서 실행 중인 엔티티로 울리기 시작하는 알람이나 배경에서 재생되는 음악 등이 될 수 있다.


7ce88872b28707f739ef82ec4fee776fa442df7fc3e2de99f4faa771fd51341aeb



렐름은 참조 해결의 복잡한 작업을 언어 모델링 문제로 변환, 다양한 유형의 참조를 성능을 저하시키지 않고 해결한다.

GPT-4는 화면 정보를 이해하기 위해 이미지 분석에 의지하는 반면, 렐름은 모든 것을 텍스트로 변환하여 접근 방식을 간소화했다. 화면 엔터티의 경우 화면을 그리드로 나누고 화면에 있는 엔터티의 캡처 데이터를 상대적인 공간 위치와 함께 텍스트로 인코딩하는 식이다.

기존 시스템과 비교, 8000만 매개변수의 가장 작은 모델 ‘렐름-80M’이 화면 참조에 대해 5% 이상의 퍼포먼스 향상을 이루는 등 다양한 유형의 참조에 대해 큰 개선을 보였다.

또 GPT-3.5 및 GPT-4와의 벤치마크 테스트에서는 렐름-80M 모델이 GPT-4와 유사한 성능을 기록했으며, 2억5000만 매개변수의 ‘렐름-250M’과 10억 매개변수의 ‘렐름-1B’ 및 30억 매개변수의 ‘렐름-3B’ 모델 등이 모두 GPT-4를 능가하는 뛰어난 성능을 보였다.

가장 작은 렐름-80M 모델이 훨씬 적은 매개변수로 GPT-4와 유사하게 작동, 온디바이스 AI에 적합하다는 설명이다.

이번 연구 결과를 발표는 애플이 시리 및 기타 제품을 친숙하고 상황에 맞게 인식하도록 만들기 위해 지속적으로 투자하고 있음을 시사한다는 분석이다. 즉 이 기능을 이용, 아이폰 내 기능을 향상하겠다는 의도다.

그러나 연구진은 자동화된 화면 분석에 의존하는 데에는 한계가 있다고 경고했다. 여러 이미지를 구별하는 것과 같이 복잡한 시각적 참조를 처리하려면 결국 컴퓨터 비전과 멀티모달 기술을 통합해야 한다는 지적이다.


자동등록방지

추천 비추천

19

고정닉 12

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
466397 일반 Gpt5 없는데 어떻게 gpt5보다 놀랍다는말이 성립함?? [1] ㅇㅇ(121.146) 05.12 121 0
466396 일반 5보다 놀랍다고 말하는 스샷 어딧음? [3] 어브리갤로그로 이동합니다. 05.12 243 0
466395 일반 gpt5보다 쩐다는글이어딨음 [5] 껌젖갤로그로 이동합니다. 05.12 386 0
466394 일반 알트만피셜로 GPT5보다 더엄청난게 화요일에 발표한다니 ㅇㅇ(27.124) 05.12 112 0
466393 일반 알트만이 GPT5보다 놀랍다고발언했을정도면 뭐냐 ㅇㅇ(220.83) 05.12 84 0
466391 일반 제미나이 1.5 공개할때 sora 공개했네 ㅋㅋㅋ [1] ㅇㅇ(218.50) 05.12 303 0
466390 일반 브램 32기가중에 좋은 모델이 뭐임 [16] 질문봇갤로그로 이동합니다. 05.12 153 0
466389 일반 GPT-5보다 놀라울 수가 있나? [2] 회전율갤로그로 이동합니다. 05.12 201 0
466388 일반 내년에 특갤오면 되지? [2] ㅇㅇ(110.46) 05.12 135 0
466387 일반 구글은 똑똑한놈들 많은데 왜 못따라가냐 [5] ㅇㅇ(210.90) 05.12 217 0
466386 일반 gpts고 플러그인이고 별로인건 유료화를 안해서 그런건데 [3] ㅇㅇ(218.50) 05.12 102 0
466385 일반 모르겠고 디스토피아든 유토피아든 ㅇㅇ(39.116) 05.12 55 0
466384 일반 화요일날 개쩌는거 나오면 특갤 1등 가능하냐 [3] ㅇㅇ갤로그로 이동합니다. 05.12 158 1
466383 일반 소라 씹덕 버젼은 안나오냐? [1] ㅇㅇ(182.230) 05.12 207 1
466382 일반 gpt 4 ultra trubo 출시 [2] ㅇㅇ(118.33) 05.12 223 0
466381 일반 소라부터 넘고오라니? 소라를oai에서 만듬ㅋ [4] 친근한게이브갤로그로 이동합니다. 05.12 223 0
466380 일반 gpt5보다 놀랍다는 ㄹㅇ 망언아니냐 [1] 네덕근첩갤로그로 이동합니다. 05.12 298 0
466379 일반 우린 개쩌는 것을 봤고 [1] ㅇㅇ갤로그로 이동합니다. 05.12 187 0
466378 일반 새로 나오는 모델이 ㅇㅇ(211.228) 05.12 54 0
466377 일반 인생 마지막 OO! 즐기세요!(수십년) ㅇㅇ갤로그로 이동합니다. 05.12 89 0
466376 일반 우린 애미씨발 개쩌는 것을 봤고 ㅇㅇ(222.108) 05.12 86 0
466375 일반 GPTs 때 특갤 반응 새삼 생각나네 [3] ㅇㅇ(119.207) 05.12 214 0
466374 일반 라마3 가장 작은게 브램이 몇기가 필요함 [7] 질문봇갤로그로 이동합니다. 05.12 110 0
466373 일반 GPT4.5 출시냐? 화요일에 [1] ㅇㅇ(121.184) 05.12 142 0
466372 일반 뭔 gpt5보다 놀랍다 ㅇㅈㄹ ㅋㅋㅋ 소라부터 넘고 와라노ㅋㅋ [3] 네덕근첩갤로그로 이동합니다. 05.12 350 0
466371 일반 gpt4로 야설 번역하는데 정책 위반이라고 번역이 안돼.... [2] ㅇㅇ(211.243) 05.12 202 0
466370 일반 근데 구글 예전에 무슨 전화걸어서 미용실 예약 잡은거 [5] ㅇㅇ(112.161) 05.12 155 0
466369 일반 진짜 ai비서떔에 온라인겜 시장 좆되곘는데? [6] ㅇㅇ(117.20) 05.12 414 0
466368 일반 정확히 언제 발표임? [1] ㅇㅇ갤로그로 이동합니다. 05.12 103 0
466366 일반 딥페이크는 음지의 알트만들이 노력 중이니 [1] ㅇㅇ(121.140) 05.12 151 0
466365 일반 일단 클로드3 구독 해지하고 기다리는중 ㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.12 70 0
466364 일반 깊고 좁은거보다 얉고 넓은게 AI 트렌드아닌가싶다. [2] 딩둘딩갤로그로 이동합니다. 05.12 121 0
466363 일반 이번 업데이트는 보나마나 ㅇㅇ(125.190) 05.12 91 0
466362 일반 AI 잘 써먹으려면 [7] 지각의문갤로그로 이동합니다. 05.12 185 0
466361 일반 자율에이전트 나오면 온라인게임 다 망함? [1] ㅇㅇ(14.45) 05.12 131 0
466360 일반 알트만, OAI : NSFW 허용할 계획이지만 딥페이크, 미성년자는 [4] ㅇㅇ(175.206) 05.12 359 2
466359 일반 근데 발표하고 바로 적용임? 친근한게이브갤로그로 이동합니다. 05.12 94 0
466358 일반 사만다 나와도 내말 끊지는 말아줫으면 [2] 외웨갤로그로 이동합니다. 05.12 115 0
466357 일반 아동성애는 언제나 검열의 명분이 되었다 [10] Samus갤로그로 이동합니다. 05.12 381 3
466356 일반 3월 미래꽃 트윗: 마지막 평범한 여름 [4] 모브갤로그로 이동합니다. 05.12 289 0
466355 일반 It's like magic 친근한게이브갤로그로 이동합니다. 05.12 90 0
466354 일반 그럼 돼지신장 이식한 사람중 남은사람은 이분이네 [2] ㅇㅇ(210.106) 05.12 197 0
466353 일반 솔직히 챗지피티 어플에서 하는 음성대화는 ㅇㅇ(121.124) 05.12 81 0
466352 일반 근데 역노화건 신체변경이건 이후엔 아동포르노 [1] ㅇㅇ(39.124) 05.12 257 0
466350 일반 아무리 봐도 아동포르노는 진짜 씹 가불기인듯 [3] ㅇㅇ(59.4) 05.12 369 3
466349 일반 아이폰 siri 아이돌 보이스+연애모드 월 30$ [4] ㅇㅇ갤로그로 이동합니다. 05.12 153 1
466348 일반 마케팅 좆같은게 삼성폰 내장 로컬 ai도 너무 느려서 [1] ㅇㅇ(125.134) 05.12 182 0
466347 일반 초지능 나오면 [1] ㅇㅇ(220.65) 05.12 82 0
466346 일반 걍 장단점 있고 전체적 성능은 제미니 클로3 gpt4 비슷하고 [3] ㅇㅇ(218.154) 05.12 120 1
466345 일반 아직 대화형 1황은 gpt임? [2] ㅇㅇ갤로그로 이동합니다. 05.12 204 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2