디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 애플, 화면 맥락을 보고 이해할 수 있는 AI 개발

ㅇㅇ(182.230) 2024.04.02 21:04:45
조회 2308 추천 19 댓글 8
														

https://www.aitimes.com/news/articleView.html?idxno=158475

 



7ce88872b28707f739ef82ec4eee776fe66bf143d737b938a33cfe6bc3cfe84f2c37



애플이 화면 상에 표시된 전화번호, URL 링크, 이메일 주소와 같은 다양한 유형의 참조 정보를 이해해 시리(Siri)와 같은 음성 비서와 상황에 맞는 대화를 나눌 수 있도록 지원하는 새로운 언어모델을 공개했다.

벤처비트는 1일(현지시간) 애플이 음성 비서와의 자연스러운 상호 작용을 위해 화면상에 나타낸 각종 참조 사항은 물론 대화 및 배경 맥락에 참조를 이해할 수 있는 새로운 언어모델 ‘렐름(ReALM)’에 관한 논문을 온라인 아키이브에 게재했다고 전했다.

시리와 같은 음성 비서와 대화할 때 사용자는 백그라운드 작업, 화면 데이터, 대화 관련 엔터티 등 상호작용할 상황별 정보를 얼마든지 참조할 수 있다.

예를 들어 사용자가 근처 약국을 요청하고 시리가 인근 약국 목록을 화면에 제시한 후 사용자는 다시 ‘맨 아래 번호로 전화해’ 라고 요청할 수 있다. 이때 기존 시리는 이 요청을 수행할 수 없었지만, 렐름을 적용한 시리는 맥락을 이해해 화면 상의 목록 데이터의 맨 아래 부분에 나와 있는 약국으로 전화를 걸 수 있다.

사람의 말은 일반적으로 ‘그들’이나 ‘그것’과 같은 모호한 대상을 포함한다. 사람은 이런 참조가 무엇을 가리키는 지 맥락에 따라 명백히 이해할 수 있지만, 이제까지 기계는 어려웠다.

참조 해결(reference resolution)이란 컴퓨터 프로그램이 사용자가 ‘이것’ 또는 ‘저것’이라고 말하는 방식과 같은 모호한 언어 입력을 기반으로 작업을 수행하는 것을 의미한다.

이런 참조 해결은 다양한 종류의 맥락을 이해하고 사용자의 요구 사항을 자연스럽게 전달하거나 성공적으로 처리하는 음성 비서에게는 필수적인 능력이다.

이러한 맥락에는 🔼화면 엔터티 🔼대화 엔터티 🔼배경 엔터티와 관련된 맥락이 포함된다. 화면 엔터티는 현재 사용자 화면에 표시되는 엔터티다. 예를 들어 전화번호, URL 링크, 이메일 주소와 같은 참조 정보가 포함된다.

대화 엔터티는 대화 내용과 관련있는 참조 엔터티를 의미한다. 예를 들어 사용자가 ‘엄마에게 전화해’라고 말하면 엄마의 연락처가 관련 엔터티가 된다.

배경 엔터티는 백그라운드에서 실행 중인 엔티티로 울리기 시작하는 알람이나 배경에서 재생되는 음악 등이 될 수 있다.


7ce88872b28707f739ef82ec4fee776fa442df7fc3e2de99f4faa771fd51341aeb



렐름은 참조 해결의 복잡한 작업을 언어 모델링 문제로 변환, 다양한 유형의 참조를 성능을 저하시키지 않고 해결한다.

GPT-4는 화면 정보를 이해하기 위해 이미지 분석에 의지하는 반면, 렐름은 모든 것을 텍스트로 변환하여 접근 방식을 간소화했다. 화면 엔터티의 경우 화면을 그리드로 나누고 화면에 있는 엔터티의 캡처 데이터를 상대적인 공간 위치와 함께 텍스트로 인코딩하는 식이다.

기존 시스템과 비교, 8000만 매개변수의 가장 작은 모델 ‘렐름-80M’이 화면 참조에 대해 5% 이상의 퍼포먼스 향상을 이루는 등 다양한 유형의 참조에 대해 큰 개선을 보였다.

또 GPT-3.5 및 GPT-4와의 벤치마크 테스트에서는 렐름-80M 모델이 GPT-4와 유사한 성능을 기록했으며, 2억5000만 매개변수의 ‘렐름-250M’과 10억 매개변수의 ‘렐름-1B’ 및 30억 매개변수의 ‘렐름-3B’ 모델 등이 모두 GPT-4를 능가하는 뛰어난 성능을 보였다.

가장 작은 렐름-80M 모델이 훨씬 적은 매개변수로 GPT-4와 유사하게 작동, 온디바이스 AI에 적합하다는 설명이다.

이번 연구 결과를 발표는 애플이 시리 및 기타 제품을 친숙하고 상황에 맞게 인식하도록 만들기 위해 지속적으로 투자하고 있음을 시사한다는 분석이다. 즉 이 기능을 이용, 아이폰 내 기능을 향상하겠다는 의도다.

그러나 연구진은 자동화된 화면 분석에 의존하는 데에는 한계가 있다고 경고했다. 여러 이미지를 구별하는 것과 같이 복잡한 시각적 참조를 처리하려면 결국 컴퓨터 비전과 멀티모달 기술을 통합해야 한다는 지적이다.


자동등록방지

추천 비추천

19

고정닉 12

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2858 설문 SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는? 운영자 24/05/06 - -
455442 정보 오픈AI, 기업 시장 확장 위해 MS와 경쟁 불사 [2] ㅇㅇ(182.230) 04.13 1290 20
455441 정보 오픈AI, 유출 혐의로 연구원 2명 해고..."효과적인 이타주의 연관" [8] ㅇㅇ(182.230) 04.13 1379 18
455438 정보 메타가 공개한 AGI로 가는 방법, 'V-제파'란 [13] ㅇㅇ(182.230) 04.13 2012 30
455436 정보 메타, AI의 ‘현실 이해' 돕는 오픈 소스 데이터셋 출시 [2] ㅇㅇ(182.230) 04.13 794 13
455435 정보 그록 1.5v 발표 [14] 특술람갤로그로 이동합니다. 04.13 1538 28
455434 정보 "로봇이 일자리를 빼앗는다는 것은 '신화'에 불과" [7] ㅇㅇ(182.230) 04.13 1821 17
455433 정보 아마존 "생성 AI는 인터넷 이후 최고 기술"...앤드류 응 이사회 합류 [4] ㅇㅇ(182.230) 04.13 1054 13
455432 정보 생추어리, 자동차 부품 생산에 AI 로봇 투입 파트너십 [1] ㅇㅇ(182.230) 04.13 461 15
455430 정보 애플, AI 강화 위해 'M4' 칩 조기 업그레이드 [3] ㅇㅇ(182.230) 04.13 1049 18
455428 정보 MS, 군사용 도구로 오픈AI '달리' 판매 시도 [1] ㅇㅇ(182.230) 04.13 180 10
455415 일반 개발자 근들갑보다 특이쭝이들 조울증이 더 꼴보기 실어여 ㅇㅅㅇ [19] ㅇㅇ(122.36) 04.13 1375 41
455397 AI창 샘 알트만 디스곡 만들어 줘 [5] ㅇㅇ갤로그로 이동합니다. 04.13 1314 30
455396 정보 Cognition의 Devin으로 알아보는 AI업계의 과대광고 [17] ㅇㅇ(218.53) 04.13 1559 55
455381 일반 부자들도 역노화 포기한것같다 [10] ㅇㅇ(125.180) 04.13 1893 14
455363 일반 테슬라, 첨단 휴머노이드 로봇 특허 기술 공개 [3] ㅇㅇ(116.120) 04.13 1499 25
455357 일반 와 ㅅㅂ뭐냐 수학성능 ㅈㄴ올랐네 [17] ㅇㅇ(221.160) 04.13 2341 21
455341 일반 오픈ai가 데이터 엄청 긁어 모으고 있네 [3] ㅇㅇ갤로그로 이동합니다. 04.13 1950 26
455340 일반 전 PayPal CEO "gpt5는 정말 놀라운 순간이 될 것" [25] 특술람갤로그로 이동합니다. 04.13 2667 35
455335 일반 Mistral AI CEO "나는 AGI를 믿지 않는다" [10] 특술람갤로그로 이동합니다. 04.13 1890 23
455328 일반 특갤말투로 해달라니까 탈옥됐다 [9] ㅇㅇ(14.36) 04.13 2068 40
455315 일반 이새끼 뭐임?? [11] ㅇㅇ갤로그로 이동합니다. 04.13 1507 23
455278 일반 내가 믿고 거르는 기술소식 4가지 [43] ㅇㅇ(183.106) 04.12 3518 109
455200 정보 하이브리드 소듐 전지 개발…"수 초 만에 급속 충전" [29] 니지카엘갤로그로 이동합니다. 04.12 1977 23
455194 일반 커즈와일 : 자신의 예상보다 기술발전이 빠르게 진행중 [59] 부패하는유전자!!!갤로그로 이동합니다. 04.12 3472 48
455183 일반 GPT 신버전이 클로드 벤치 이겼다며 [6] ㅇㅇ(182.211) 04.12 892 14
455064 정보 MS, 5월 컨퍼런스서 '윈도우 AI 기능' 발표에 초점 [8] ㅇㅇ(182.230) 04.11 1705 17
455143 정보 Rho-1: 모든 토큰이 필요한 것은 아닙니다 [10] 특술람갤로그로 이동합니다. 04.12 1339 18
455126 정보 GPT-4 turbo 0409 공식벤치결과 [12] 특술람갤로그로 이동합니다. 04.12 2236 22
455113 정보 OAI 연구원 2명 정보 유출 혐의로 해고됨 [14] ㅇㅇ(211.59) 04.12 2147 18
455084 정보 [사이언스샷] 꿈의 면역항암제, 줄기세포처럼 회춘해 업그레이드 [8] ㅇㅇ갤로그로 이동합니다. 04.12 1331 20
455165 일반 0409 버전 다른건 몰라도 수학은 꽤 상승폭이 크네 [2] ㅇㅇ(218.154) 04.12 396 14
455158 일반 gpt4 0410 ㄷㄷㄷㄷㄷㄷㄷ [7] ㅇㅇ(182.229) 04.12 800 15
455078 일반 앤드류 응, 아마존 이사회에 합류 [9] ㅇㅇ(116.120) 04.12 1633 15
455076 AI창 그냥 존나 아름답네 [20] ㅇㅇ갤로그로 이동합니다. 04.12 4725 33
455063 정보 구글, '생성 AI 사진 편집' 기능 무료로 확대 [10] ㅇㅇ(182.230) 04.11 2033 16
455061 정보 GPU 배송 2~3개월로 단축..."연말쯤 지연 없어질 것" [5] ㅇㅇ(182.230) 04.11 1659 18
454901 정보 구글 무한 컨텍스트 트랜스포머 발표 [11] 특술람갤로그로 이동합니다. 04.11 2427 22
454792 정보 현재까지 인류가 만든 가장 정확하고 큰 뇌지도 [11] ㅇㅇ(220.118) 04.11 3928 31
454778 정보 전례없는 해상도로 뇌를 스캔하는 초강력 MRI [4] ㅇㅇ(182.230) 04.11 896 17
454739 일반 작년에 내년 4월초까지도 GPT5 안나왔을줄 상상도 못했으면 개추ㅋㅋ [9] ㅇㅇ(121.130) 04.11 2789 46
454712 정보 메타, '라마 3' 대형 버전 매개변수는 1400억개 [7] ㅇㅇ(182.230) 04.10 1842 21
454698 정보 달 표면 티타늄, 맨틀까지 가라앉았다가 분출됐다 [3] ㅇㅇ(182.230) 04.10 1697 18
454689 AI창 Suno 킬러 AI 출시기념 [19] ㅇㅇ갤로그로 이동합니다. 04.10 2875 35
454679 일반 udio 미쳤는데? [22] 디시콘발사대갤로그로 이동합니다. 04.10 2471 20
454676 정보 Suno 킬러, Udio 공식 출사표! (무료 제공 ㅎㄷㄷ) [10] ㅇㅇ(123.100) 04.10 2277 23
454664 일반 gpt터보 0409 성능테스트 결과가 죄다 제각각이네 [3] ㅇㅇ(175.213) 04.10 1204 17
454645 정보 미스트랄 새 모델 오픈소스ㄷㄷㄷ [9] ㅇㅇ(123.100) 04.10 1556 18
454548 일반 코딩은 더 성능 떨어진다 ㄷㄷㄷ [3] ㅇㅇ(121.190) 04.10 3324 20
454498 정보 Gpt4 turbo 0409 코딩점수도 올랐음 [7] 특술람갤로그로 이동합니다. 04.10 1957 22
454437 정보 메타 "AGI 도약 방법 발견...'트랜스포머'와 다른 아키텍처 개발 중 [34] ㅇㅇ(211.59) 04.10 2927 31
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2