애플이 화면 상에 표시된 전화번호, URL 링크, 이메일 주소와 같은 다양한 유형의 참조 정보를 이해해 시리(Siri)와 같은 음성 비서와 상황에 맞는 대화를 나눌 수 있도록 지원하는 새로운 언어모델을 공개했다.
벤처비트는 1일(현지시간) 애플이 음성 비서와의 자연스러운 상호 작용을 위해 화면상에 나타낸 각종 참조 사항은 물론 대화 및 배경 맥락에 참조를 이해할 수 있는 새로운 언어모델 ‘렐름(ReALM)’에 관한 논문을 온라인 아키이브에 게재했다고 전했다.
시리와 같은 음성 비서와 대화할 때 사용자는 백그라운드 작업, 화면 데이터, 대화 관련 엔터티 등 상호작용할 상황별 정보를 얼마든지 참조할 수 있다.
예를 들어 사용자가 근처 약국을 요청하고 시리가 인근 약국 목록을 화면에 제시한 후 사용자는 다시 ‘맨 아래 번호로 전화해’ 라고 요청할 수 있다. 이때 기존 시리는 이 요청을 수행할 수 없었지만, 렐름을 적용한 시리는 맥락을 이해해 화면 상의 목록 데이터의 맨 아래 부분에 나와 있는 약국으로 전화를 걸 수 있다.
사람의 말은 일반적으로 ‘그들’이나 ‘그것’과 같은 모호한 대상을 포함한다. 사람은 이런 참조가 무엇을 가리키는 지 맥락에 따라 명백히 이해할 수 있지만, 이제까지 기계는 어려웠다.
참조 해결(reference resolution)이란 컴퓨터 프로그램이 사용자가 ‘이것’ 또는 ‘저것’이라고 말하는 방식과 같은 모호한 언어 입력을 기반으로 작업을 수행하는 것을 의미한다.
이런 참조 해결은 다양한 종류의 맥락을 이해하고 사용자의 요구 사항을 자연스럽게 전달하거나 성공적으로 처리하는 음성 비서에게는 필수적인 능력이다.
이러한 맥락에는 🔼화면 엔터티 🔼대화 엔터티 🔼배경 엔터티와 관련된 맥락이 포함된다. 화면 엔터티는 현재 사용자 화면에 표시되는 엔터티다. 예를 들어 전화번호, URL 링크, 이메일 주소와 같은 참조 정보가 포함된다.
대화 엔터티는 대화 내용과 관련있는 참조 엔터티를 의미한다. 예를 들어 사용자가 ‘엄마에게 전화해’라고 말하면 엄마의 연락처가 관련 엔터티가 된다.
배경 엔터티는 백그라운드에서 실행 중인 엔티티로 울리기 시작하는 알람이나 배경에서 재생되는 음악 등이 될 수 있다.
렐름은 참조 해결의 복잡한 작업을 언어 모델링 문제로 변환, 다양한 유형의 참조를 성능을 저하시키지 않고 해결한다.
GPT-4는 화면 정보를 이해하기 위해 이미지 분석에 의지하는 반면, 렐름은 모든 것을 텍스트로 변환하여 접근 방식을 간소화했다. 화면 엔터티의 경우 화면을 그리드로 나누고 화면에 있는 엔터티의 캡처 데이터를 상대적인 공간 위치와 함께 텍스트로 인코딩하는 식이다.
기존 시스템과 비교, 8000만 매개변수의 가장 작은 모델 ‘렐름-80M’이 화면 참조에 대해 5% 이상의 퍼포먼스 향상을 이루는 등 다양한 유형의 참조에 대해 큰 개선을 보였다.
또 GPT-3.5 및 GPT-4와의 벤치마크 테스트에서는 렐름-80M 모델이 GPT-4와 유사한 성능을 기록했으며, 2억5000만 매개변수의 ‘렐름-250M’과 10억 매개변수의 ‘렐름-1B’ 및 30억 매개변수의 ‘렐름-3B’ 모델 등이 모두 GPT-4를 능가하는 뛰어난 성능을 보였다.
가장 작은 렐름-80M 모델이 훨씬 적은 매개변수로 GPT-4와 유사하게 작동, 온디바이스 AI에 적합하다는 설명이다.
이번 연구 결과를 발표는 애플이 시리 및 기타 제품을 친숙하고 상황에 맞게 인식하도록 만들기 위해 지속적으로 투자하고 있음을 시사한다는 분석이다. 즉 이 기능을 이용, 아이폰 내 기능을 향상하겠다는 의도다.
그러나 연구진은 자동화된 화면 분석에 의존하는 데에는 한계가 있다고 경고했다. 여러 이미지를 구별하는 것과 같이 복잡한 시각적 참조를 처리하려면 결국 컴퓨터 비전과 멀티모달 기술을 통합해야 한다는 지적이다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.