디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 구글, 새로운 프레임워크인 LANISTR 소개

ㅇㅇ(221.152) 2024.05.26 14:09:29
조회 322 추천 3 댓글 1
														


http://research.google/blog/lanistr-multimodal-learning-from-structured-and-unstructured-data/

 



LANISTR는 기존 멀티모달 학습 기술에 비해 다음과 같은 잠재력과 의의를 지닙니다.


1. 구조화된 데이터와 비구조화된 데이터의 통합: 기존 연구는 주로 텍스트나 이미지와 같은 비구조화된 데이터에 집중했지만, LANISTR는 시계열, 표 형식 데이터와 같은 구조화된 데이터까지 함께 학습합니다. 이는 실제 상황에서 더욱 풍부하고 현실적인 데이터 활용을 가능하게 합니다. 예를 들어, 환자의 의료 기록(텍스트), 의료 영상(이미지), 그리고 생체 신호(시계열) 데이터를 종합적으로 분석하여 더 정확한 진단을 내릴 수 있습니다.


2. 누락된 데이터 처리: 현실 세계 데이터는 종종 특정 양식의 정보가 부족한 경우가 많습니다. LANISTR는 이러한 누락된 양식을 효과적으로 처리하는 방법을 학습하여 현실적인 데이터셋에 대한 적용성을 높입니다.


3. 레이블링된 데이터 부족 문제 완화: LANISTR는 자체 지도 학습 방식을 통해 대량의 레이블링되지 않은 데이터를 활용하여 모델을 사전 학습합니다. 이는 레이블링된 데이터가 부족한 분야에서도 높은 성능을 달성하는데 기여합니다.


4. 다양한 분야에 대한 적용 가능성: LANISTR는 의료, 소매 등 다양한 분야에서 높은 성능을 보여주었습니다. 이는 LANISTR가 특정 분야에 국한되지 않고 폭넓은 분야에서 멀티모달 학습의 새로운 가능성을 제시한다는 것을 의미합니다.


요약하자면, LANISTR는 구조화된 데이터와 비구조화된 데이터를 함께 학습하고, 누락된 데이터를 효과적으로 처리하며, 레이블링된 데이터 부족 문제를 완화하는 등 기존 기술의 한계를 극복하여 멀티모달 학습 분야에 새로운 지평을 열었습니다. 이는 실제 세계의 복잡한 문제를 해결하는 데 AI를 활용하는데 크게 기여할 것으로 기대됩니다.



ㅡㅡㅡㅡㅡㅡㅡ




LANISTR: 구조화 및 비구조화 데이터를 활용한 멀티모달 학습


LANISTR는 구조화되지 않은 데이터(이미지, 텍스트)와 구조화된 데이터(시계열, 표 형식)를 함께 학습하여 정렬 및 융합하고 궁극적으로 클래스 예측을 생성하는 새로운 프레임워크입니다.



최근 멀티모달 학습의 혁신은 주로 비전, 언어, 비디오 및 오디오 양식(Flamingo, PaLI, CLIP, VATT 등)을 아우르는 비구조화 데이터에 집중되어 왔습니다. 그러나 표 형식이나 시계열 형식을 포함한 구조화된 데이터를 사용한 공동 표현 학습은 실제 세계에서 구조화된 데이터가 지배적인 데이터 유형임에도 불구하고 상대적으로 연구가 미흡했습니다. 예를 들어 의료 진단이나 소매 수요 예측과 같은 실제 시나리오에서는 종종 구조화된 데이터와 구조화되지 않은 데이터의 통합이 요구됩니다. 이는 통합된 아키텍처와 구조화된 양식과 구조화되지 않은 양식을 정렬하는 고유한 사전 훈련 전략을 사용하여 두 가지 명확히 다른 데이터 유형을 멀티모달 방식으로 함께 학습해야 할 필요성을 강조합니다.



구조화된 데이터와 구조화되지 않은 데이터를 사용한 멀티모달 학습의 잠재적 이점을 활용하려면 양식의 수, 입력 크기 및 데이터 이질성이 증가함에 따라 더욱 중요해지는 두 가지 문제를 해결해야 합니다. 첫째, 입력 특징 차원과 이질성이 증가함에 따라 심층 신경망은 특히 제한된 규모의 데이터 세트에서 훈련될 때 과적합 및 차선의 일반화에 취약해질 수 있습니다. 이 문제는 종종 다른 독립적이고 동일하게 분포된(i.i.d.) 양식과 달리 일반화가 잘 되는 모델을 구축하기 어렵게 만드는 비정상적인 동작(패션 트렌드, 감각 측정값 등)을 나타내는 시계열 데이터와 같이 구조화되지 않은 데이터와 구조화된 데이터를 함께 사용할 때 더욱 악화됩니다. 마찬가지로 표 형식 데이터에는 종종 최소한의 정보가 포함된 수많은 열(특징)이 포함되어 있어 가짜 상관관계에 과적합될 수 있습니다. 둘째, 일부 양식이 없어서 발생하는 문제는 각 샘플에 일부 양식이 포함되지 않을 수 있는 두 개 이상의 양식(예: 이미지+텍스트+표 형식+시계열)이 있는 멀티모달 데이터에서 더욱 두드러집니다. 우리가 아는 한, 구조화되지 않은 데이터와 구조화된 데이터에서 학습할 때 이러한 문제를 해결하는 체계적인 연구는 현재 문헌에 없습니다.



이러한 문제를 해결하기 위해 "LANISTR: 구조화 및 비구조화 데이터의 멀티모달 학습"에서 LANguage, Image 및 STRuctured 데이터에서 학습하는 새로운 프레임워크를 소개합니다. LANISTR는 구조화되지 않은 데이터(이미지, 텍스트)와 구조화된 데이터(시계열, 표 형식)를 수집하고 정렬 및 융합을 수행한 다음 최종적으로 예측을 생성하여 멀티모달 학습을 가능하게 합니다. 공개적으로 사용 가능한 두 개의 의료 및 소매 데이터 세트를 사용하는 LANISTR는 각각 0.1% 및 0.01%의 레이블이 지정된 데이터로 미세 조정할 때 놀라운 개선 사항을 보여줍니다. 특히 이러한 개선 사항은 실질적인 누락된 양식 문제에 대한 LANISTR의 견고성을 강조하면서 모든 양식을 포함하지 않는 매우 높은 비율의 샘플(각각 35.7% 및 99.8%)에서도 관찰됩니다.




모델 아키텍처


LANISTR의 아키텍처는 양식별 인코더와 융합 메커니즘 역할을 하는 멀티모달 인코더-디코더 모듈로 구성됩니다. 먼저 원시 입력은 언어 인코더, 이미지 인코더 및 구조화된 데이터 인코더로 인코딩됩니다. 데이터 세트에 따라 표 형식 데이터용과 시계열 데이터용의 두 개의 별도 구조화된 데이터 인코더가 있을 수 있습니다. 이러한 양식별 인코더는 모두 주의 기반 아키텍처로 선택됩니다.


입력이 인코딩된 후 단일 계층 투영 헤드가 있는 양식별 인코더를 사용하여 투영하고 멀티모달 융합 모듈에 공급하기 전에 해당 임베딩을 함께 연결합니다.

멀티모달 데이터로 작업할 때 공통적인 병목 현상은 개별 양식 간의 교차 양식 상호 작용을 반영하는 의미 있는 표현을 추출하는 것입니다. 6개의 Transformer 계층으로 융합 인코더를 생성할 때 교차 양식 관계를 캡처하는 데 주로 사용되는 교차 주의를 활용합니다.


아래 그림은 소매 애플리케이션의 장난감 예제를 사용하여 LANISTR 아키텍처를 보여줍니다. 목표는 제품이 받게 될 별 등급을 예측하는 것입니다. 이 예에서 제품은 사용자 리뷰(텍스트), 숫자 및 범주 사양(표 형식 특징) 및 사용자의 구매 내역(시간 시퀀스)과 함께 제공되는 개 사료 캔(이미지)입니다. LANISTR는 이러한 다양한 양식을 통합하여 별 등급 예측을 생성합니다.



a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f59f13cd6e54222c129ed87dafe7a5dbbde305




LANISTR는 구조화되지 않은 데이터(이미지, 텍스트)와 구조화된 데이터(시계열, 표 형식)를 수집하고 정렬 및 융합을 수행한 다음 최종적으로 예측을 생성하여 멀티모달 학습을 가능하게 합니다.


LANISTR 방법론의 핵심은 단일 모달 및 멀티모달 수준 모두에 적용되는 마스킹 기반 훈련에 뿌리를 두고 있습니다. LANISTR는 두 가지 유형의 목표를 사용하여 사전 훈련됩니다.


   1. 단일 모달 마스킹 목표. LANISTR의 모든 단일 모달 인코더에 대한 일반적인 자체 지도 학습 전략으로 마스크된 언어, 이미지, 시계열 및 표 형식 특징 모델링을 사용합니다. 이를 통해 마스킹된 입력이 인코더에 공급되기 때문에 누락된 양식이 있는 데이터를 단일 모달 인코더에 활용할 수 있으며, 일종의 재구성 또는 예측 작업을 훈련에 사용할 수 있습니다.


   2. 유사성 기반 멀티모달 마스킹 손실. FLAVA와 같은 비전 및 언어를 사용한 멀티모달 학습에 대한 이전 작업은 마스킹된 멀티모달 입력에서 하나의 양식(예: 텍스트) 또는 이미지 및 텍스트 양식을 모두 재구성하는 데 중점을 둡니다. 이 작업에서는 마스킹된 멀티모달 데이터 표현과 마스킹되지 않은 멀티모달 데이터 표현 간의 유사성을 극대화하는 새로운 마스킹된 멀티모달 학습 손실을 제안합니다. 이 목표는 두 개의 증강된 이미지 버전 간의 유사성을 극대화하는 것이 목표인 Siamese 네트워크에서 시작된 아이디어와 유사합니다. 그러나 우리 프레임워크에서 목표는 마스킹된 입력과 마스킹되지 않은 입력에서 생성된 임베딩 간의 유사성을 극대화하는 것입니다. 아래에 표시된 것처럼 이 목표는 마스킹된 데이터와 마스킹되지 않은 데이터의 임베딩 간의 코사인 유사성이 극대화되도록 모델이 교차 양식 관계를 학습하도록 장려합니다.



a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f59817cd6eb636d6e545cc25247df9a938f2d0




사전 훈련 후 사전 훈련된 가중치를 사용하여 단일 모달 인코더와 멀티모달 인코더를 모두 초기화합니다. 그런 다음 다운스트림 작업을 위해 멀티모달 인코더에 다중 계층 분류 모듈이 연결됩니다. LANISTR 모델은 3억 개의 매개변수로 구성됩니다. 미세 조정하는 동안 단일 모달 인코더를 고정 상태로 유지하면서 멀티모달 인코더와 분류 모듈 훈련에 집중합니다. 이는 전체 아키텍처의 약 15%를 훈련하는 것과 같습니다. LANISTR의 다재다능함은 레이블이 지정된 데이터에 액세스할 수 있는 경우 적절한 헤드와 목적 함수를 통합하여 회귀 또는 검색과 같은 다른 작업으로 확장된다는 점은 주목할 가치가 있습니다.




결과


MIMIC-IV(임상 예측 작업에 널리 사용되는 의료 데이터 세트) 및 Amazon Review Data를 사용하여 AutoGluon, ALBEF 및 MedFuse를 포함한 다양한 경쟁 기준선에 대한 LANISTR의 성능을 비교합니다. 새로운 아키텍처와 목적 함수를 갖춘 LANISTR는 여러 까다로운 작업에서 최첨단 결과를 달성합니다.

아래 플롯은 MIMIC-IV 데이터 세트를 사용한 사망률 예측 결과를 강조해서 보여줍니다. LANISTR는 수신기 작동 특성 곡선 아래 영역(AUROC)에서 평균 87.37%를 달성하여 이미지 및 텍스트만 사용할 수 있는 기준선 모델 FLAVA 및 CoCa와 이미지 및 시계열 양식만 사용하는 MedFuse 모델보다 훨씬 뛰어납니다. 후기 융합 기준선은 세 가지 모든 양식 임베딩을 연결하는 간단한 융합 메커니즘입니다.



a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f5981dcd6e661d12384427735a235db5b13ef7



Amazon Review 데이터 세트를 사용한 제품 등급 예측의 경우 사무용품 카테고리에서 레이블이 지정되지 않은 데이터(LANISTR 및 ALBEF)를 사용할 수 있는 방법을 사전 훈련하고 뷰티 제품 카테고리를 사용하여 미세 조정합니다. LANISTR는 평균 76.27%의 정확도를 달성하여 경쟁 기준선보다 훨씬 뛰어납니다. 특히 사전 훈련 없이도 LANISTR의 고유한 융합 메커니즘은 둘 다 사전 훈련을 지원하지 않는 후기 융합과 AutoGluon을 모두 능가합니다. ALBEF의 경우 표 형식 특징을 추가 텍스트 입력으로 통합하는 "Tab2Txt" 접근 방식을 살펴본 반면 원래 ALBEF 기준선은 이미지 및 텍스트 양식만 활용했습니다. 우리는 둘 다 LANISTR보다 훨씬 뛰어나다는 것을 증명합니다. 우리의 결과는 레이블이 지정되지 않은 데이터와 레이블이 지정된 데이터를 함께 사용하여 구조화된 데이터와 구조화되지 않은 데이터를 학습하는 것의 중요성을 확인시켜줍니다.


절제 연구와 이러한 작업의 특정 과제는 LANISTR가 모든 양식을 있는 그대로 적극적으로 수집하고, 자체 지도 사전 훈련 중에 많은 양의 레이블이 지정되지 않은 데이터를 활용하고, 누락된 양식을 원활하게 처리하는 기능을 보여줍니다.



a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f59911cd6ecd41cb4d6c050efbaea14da3ab18




결론


LANISTR는 언어, 이미지 및 구조화된 데이터(표 형식 및 시계열)를 위한 새로운 프레임워크입니다. 단일 모달 및 새로운 유사성 기반 멀티모달 마스킹 전략을 통해 LANISTR는 누락된 양식 및 제한된 레이블이 지정된 데이터를 포함한 문제를 해결하고 다양한 도메인에서 최첨단 성능을 달성합니다.




감사의 말

공동 저자인 Sercan Arik과 Tomas Pfister의 공헌에 감사드립니다. 이 블로그 게시물에서 우리 연구의 본질을 특징으로 하는 애니메이션 그림을 만든 Tom Small에게 특별히 감사드립니다.

자동등록방지

추천 비추천

3

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2872 설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3198] 특갤용갤로그로 이동합니다. 23.08.06 40846 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [6] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2977 2
363220 공지 선형글 삭제 기준 [7] 특갤용갤로그로 이동합니다. 23.10.14 7709 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 14002 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [51] 특갤용갤로그로 이동합니다. 23.11.07 9322 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8973 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 9599 30
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 8590 35
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 23368 34
493880 일반 보이스가 아직도 안 나올 줄은 몰랐다..ㅠㅠ ㅇㅇ갤로그로 이동합니다. 17:58 0 0
493879 일반 아니 근데 여친봇, 섹스봇 냄새 어떻게 할 생각임 진짜로 홀로섬외딴배갤로그로 이동합니다. 17:58 0 0
493878 일반 디스토피아 sf 가져올 때마다 영화 그만보라는게 웃긴 점 ㅇㅇ갤로그로 이동합니다. 17:56 3 0
493877 일반 아이언맨에 나오는 자비스 정도면 [11] 괴발자(118.37) 17:47 93 0
493876 일반 ㅌㅇㅈ ㅈㅂ 241ㅇㅊ [3] 포스트휴먼.갤로그로 이동합니다. 17:45 29 1
493875 일반 판례찾는 법조인은 지금당장 없애도 문제없지않냐? [7] ㅇㅇ(106.101) 17:43 51 0
493874 일반 재귀개선 AGI는 허상임 [3] ㅇㅇ(221.144) 17:41 95 2
493873 일반 갤주책왔는데 북스캔 택배가 제일쌈?? 동네 프린터점은 부르는게 [2] ㅇㅇ(118.235) 17:41 32 0
493872 일반 지금으로부터 4년 전 ㅇㅇ(122.39) 17:40 44 0
493871 일반 llm이 캐즘이었으면 어케됨 [2] ㅇㅇ(221.150) 17:38 28 0
493870 일반 Agi 2025이여야 한다 ㅇㅇ(106.101) 17:36 23 0
493869 일반 지금 의료개혁한다고 증원하는것보다 ㅇㅇ(106.101) 17:35 28 0
493868 일반 벌쌕스 아가리 터는거 존나 그럴싸한데 개꼴림 ㅇㅇ(106.102) 17:31 29 1
493866 일반 사람도 환각있는데? [5] ㅇㅇ(221.157) 17:27 78 0
493865 일반 한국이 통일되면 북한지역에다 원전 도배시켜야지... [10] ㅇㅇ갤로그로 이동합니다. 17:27 96 0
493864 일반 혹시 AI한테 취업 관련해서 물어봐도 괜찮음? [7] ㅇㅇ(211.201) 17:23 70 0
493863 일반 빛의속도가 제일 빠른데 초속300000km고정인게 신기하지않냐? [16] ㅇㅇ(106.101) 17:16 148 0
493862 일반 우리나라도 지금 원전밀어주는거아님? [6] ㅇㅇ(106.101) 17:14 81 0
493861 일반 지구탈출이 레벨1이면 태양계탈출은 레벨몇임? [5] ㅇㅇ(106.101) 17:09 71 0
493860 일반 한국은 걍 원전.핵융합에 몰빵하는게 답이지... [14] ㅇㅇ갤로그로 이동합니다. 17:06 129 0
493859 정보/ 'AGI' 인재 모으는 삼성전자…'마하-1' 출시 준비 '착착' [3] AGI#갤로그로 이동합니다. 17:04 164 4
493858 일반 ㅈ됐다!! 세미 AGI까지 2일 남았다 [6] ㅇㅇ갤로그로 이동합니다. 17:04 214 2
493857 일반 우리나라는 거지니까 원자력발전하는게 맞지 [19] ㅇㅇ(106.101) 17:01 133 0
493856 일반 낼 제미니 업뎃 몇시지 [3] 람냥갤로그로 이동합니다. 16:55 86 0
493855 일반 결국 전세계적인 전력난 문제부터 해결해야함... [6] ㅇㅇ갤로그로 이동합니다. 16:54 96 0
493854 일반 생각보다 피규어ai가 최근에 설립됬규나 야상섹상갤로그로 이동합니다. 16:53 75 0
493853 일반 중국이랑 미국이 달에 가기 시작하면 [2] 괴발자(118.37) 16:52 48 0
493852 일반 ai한테 정치 맡기는거에 대해 어떻게 생각함?? [2] ㅇㅇ갤로그로 이동합니다. 16:52 44 0
493851 일반 단일신경망이라는 노근본 용어 누가 만든거냐? [7] oo(223.33) 16:51 159 5
493850 일반 특이점 오고 자급자족 가능한 우주선 만들어지면 지구는 더이상 필요없지.. [7] ㅇㅇ갤로그로 이동합니다. 16:48 65 0
493848 일반 소식없으니 병신같은 '성능 떨어졌다' 앵무새 무한반복갤 됐노 ㅇㅇ(222.101) 16:46 83 1
493847 일반 4o 얘 gif 인식 드럽게 못하네ㅋㅋ [9] ㅇㅇ갤로그로 이동합니다. 16:45 183 0
493846 일반 특이점 이후 미래의 도시는 어떤 모습일까?? [1] ㅇㅇ갤로그로 이동합니다. 16:40 29 0
493845 일반 인터넷과 ai발달로 슬슬 진입장벽이 사라짐 [4] ㅇㅇ(114.201) 16:40 117 0
493844 일반 RL 등으로 소형 LLM 성능 올리는 연구는 많은데 [4] ㅇㅇ(119.202) 16:16 143 0
493843 일반 사무직들 짤리면 좆되는 이유 [8] 무상(223.38) 16:15 243 0
493842 일반 진짜 그 찌라시대로 보이스 7월 25일에 나오면 어떡하지 [2] ㅇㅇ(119.202) 16:10 150 0
493841 일반 도장(날인) 1000명꺼 이미지 만들어야 하는데 AI 쓸만한게 없네.. [9] ㅇㅇ(211.196) 16:07 131 0
493840 일반 재밌는게 모두의 예상과는 달리 [1] 무상(223.38) 16:06 120 0
493839 일반 난 솔직히 이 상황자체가 이해가 안됨 [28] ㅇㅇ(211.250) 15:54 424 5
493838 일반 드림머신 작작 써라 [5] Dall리신(121.157) 15:46 330 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2