구글, 새로운 프레임워크인 LANISTR 소개

ㅇㅇ · 2024.05.26 14:09:29

http://research.google/blog/lanistr-multimodal-learning-from-structured-and-unstructured-data/

LANISTR: Multimodal learning from structured and unstructured data

LANISTR: Multimodal learning from structured and unstructured data

research.google

LANISTR는 기존 멀티모달 학습 기술에 비해 다음과 같은 잠재력과 의의를 지닙니다.

1. 구조화된 데이터와 비구조화된 데이터의 통합: 기존 연구는 주로 텍스트나 이미지와 같은 비구조화된 데이터에 집중했지만, LANISTR는 시계열, 표 형식 데이터와 같은 구조화된 데이터까지 함께 학습합니다. 이는 실제 상황에서 더욱 풍부하고 현실적인 데이터 활용을 가능하게 합니다. 예를 들어, 환자의 의료 기록(텍스트), 의료 영상(이미지), 그리고 생체 신호(시계열) 데이터를 종합적으로 분석하여 더 정확한 진단을 내릴 수 있습니다.

2. 누락된 데이터 처리: 현실 세계 데이터는 종종 특정 양식의 정보가 부족한 경우가 많습니다. LANISTR는 이러한 누락된 양식을 효과적으로 처리하는 방법을 학습하여 현실적인 데이터셋에 대한 적용성을 높입니다.

3. 레이블링된 데이터 부족 문제 완화: LANISTR는 자체 지도 학습 방식을 통해 대량의 레이블링되지 않은 데이터를 활용하여 모델을 사전 학습합니다. 이는 레이블링된 데이터가 부족한 분야에서도 높은 성능을 달성하는데 기여합니다.

4. 다양한 분야에 대한 적용 가능성: LANISTR는 의료, 소매 등 다양한 분야에서 높은 성능을 보여주었습니다. 이는 LANISTR가 특정 분야에 국한되지 않고 폭넓은 분야에서 멀티모달 학습의 새로운 가능성을 제시한다는 것을 의미합니다.

요약하자면, LANISTR는 구조화된 데이터와 비구조화된 데이터를 함께 학습하고, 누락된 데이터를 효과적으로 처리하며, 레이블링된 데이터 부족 문제를 완화하는 등 기존 기술의 한계를 극복하여 멀티모달 학습 분야에 새로운 지평을 열었습니다. 이는 실제 세계의 복잡한 문제를 해결하는 데 AI를 활용하는데 크게 기여할 것으로 기대됩니다.

ㅡㅡㅡㅡㅡㅡㅡ

LANISTR: 구조화 및 비구조화 데이터를 활용한 멀티모달 학습

LANISTR는 구조화되지 않은 데이터(이미지, 텍스트)와 구조화된 데이터(시계열, 표 형식)를 함께 학습하여 정렬 및 융합하고 궁극적으로 클래스 예측을 생성하는 새로운 프레임워크입니다.

최근 멀티모달 학습의 혁신은 주로 비전, 언어, 비디오 및 오디오 양식(Flamingo, PaLI, CLIP, VATT 등)을 아우르는 비구조화 데이터에 집중되어 왔습니다. 그러나 표 형식이나 시계열 형식을 포함한 구조화된 데이터를 사용한 공동 표현 학습은 실제 세계에서 구조화된 데이터가 지배적인 데이터 유형임에도 불구하고 상대적으로 연구가 미흡했습니다. 예를 들어 의료 진단이나 소매 수요 예측과 같은 실제 시나리오에서는 종종 구조화된 데이터와 구조화되지 않은 데이터의 통합이 요구됩니다. 이는 통합된 아키텍처와 구조화된 양식과 구조화되지 않은 양식을 정렬하는 고유한 사전 훈련 전략을 사용하여 두 가지 명확히 다른 데이터 유형을 멀티모달 방식으로 함께 학습해야 할 필요성을 강조합니다.

구조화된 데이터와 구조화되지 않은 데이터를 사용한 멀티모달 학습의 잠재적 이점을 활용하려면 양식의 수, 입력 크기 및 데이터 이질성이 증가함에 따라 더욱 중요해지는 두 가지 문제를 해결해야 합니다. 첫째, 입력 특징 차원과 이질성이 증가함에 따라 심층 신경망은 특히 제한된 규모의 데이터 세트에서 훈련될 때 과적합 및 차선의 일반화에 취약해질 수 있습니다. 이 문제는 종종 다른 독립적이고 동일하게 분포된(i.i.d.) 양식과 달리 일반화가 잘 되는 모델을 구축하기 어렵게 만드는 비정상적인 동작(패션 트렌드, 감각 측정값 등)을 나타내는 시계열 데이터와 같이 구조화되지 않은 데이터와 구조화된 데이터를 함께 사용할 때 더욱 악화됩니다. 마찬가지로 표 형식 데이터에는 종종 최소한의 정보가 포함된 수많은 열(특징)이 포함되어 있어 가짜 상관관계에 과적합될 수 있습니다. 둘째, 일부 양식이 없어서 발생하는 문제는 각 샘플에 일부 양식이 포함되지 않을 수 있는 두 개 이상의 양식(예: 이미지+텍스트+표 형식+시계열)이 있는 멀티모달 데이터에서 더욱 두드러집니다. 우리가 아는 한, 구조화되지 않은 데이터와 구조화된 데이터에서 학습할 때 이러한 문제를 해결하는 체계적인 연구는 현재 문헌에 없습니다.

이러한 문제를 해결하기 위해 "LANISTR: 구조화 및 비구조화 데이터의 멀티모달 학습"에서 LANguage, Image 및 STRuctured 데이터에서 학습하는 새로운 프레임워크를 소개합니다. LANISTR는 구조화되지 않은 데이터(이미지, 텍스트)와 구조화된 데이터(시계열, 표 형식)를 수집하고 정렬 및 융합을 수행한 다음 최종적으로 예측을 생성하여 멀티모달 학습을 가능하게 합니다. 공개적으로 사용 가능한 두 개의 의료 및 소매 데이터 세트를 사용하는 LANISTR는 각각 0.1% 및 0.01%의 레이블이 지정된 데이터로 미세 조정할 때 놀라운 개선 사항을 보여줍니다. 특히 이러한 개선 사항은 실질적인 누락된 양식 문제에 대한 LANISTR의 견고성을 강조하면서 모든 양식을 포함하지 않는 매우 높은 비율의 샘플(각각 35.7% 및 99.8%)에서도 관찰됩니다.

모델 아키텍처

LANISTR의 아키텍처는 양식별 인코더와 융합 메커니즘 역할을 하는 멀티모달 인코더-디코더 모듈로 구성됩니다. 먼저 원시 입력은 언어 인코더, 이미지 인코더 및 구조화된 데이터 인코더로 인코딩됩니다. 데이터 세트에 따라 표 형식 데이터용과 시계열 데이터용의 두 개의 별도 구조화된 데이터 인코더가 있을 수 있습니다. 이러한 양식별 인코더는 모두 주의 기반 아키텍처로 선택됩니다.

입력이 인코딩된 후 단일 계층 투영 헤드가 있는 양식별 인코더를 사용하여 투영하고 멀티모달 융합 모듈에 공급하기 전에 해당 임베딩을 함께 연결합니다.

멀티모달 데이터로 작업할 때 공통적인 병목 현상은 개별 양식 간의 교차 양식 상호 작용을 반영하는 의미 있는 표현을 추출하는 것입니다. 6개의 Transformer 계층으로 융합 인코더를 생성할 때 교차 양식 관계를 캡처하는 데 주로 사용되는 교차 주의를 활용합니다.

아래 그림은 소매 애플리케이션의 장난감 예제를 사용하여 LANISTR 아키텍처를 보여줍니다. 목표는 제품이 받게 될 별 등급을 예측하는 것입니다. 이 예에서 제품은 사용자 리뷰(텍스트), 숫자 및 범주 사양(표 형식 특징) 및 사용자의 구매 내역(시간 시퀀스)과 함께 제공되는 개 사료 캔(이미지)입니다. LANISTR는 이러한 다양한 양식을 통합하여 별 등급 예측을 생성합니다.

a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f59f13cd6e54222c129ed87dafe7a5dbbde305

LANISTR는 구조화되지 않은 데이터(이미지, 텍스트)와 구조화된 데이터(시계열, 표 형식)를 수집하고 정렬 및 융합을 수행한 다음 최종적으로 예측을 생성하여 멀티모달 학습을 가능하게 합니다.

LANISTR 방법론의 핵심은 단일 모달 및 멀티모달 수준 모두에 적용되는 마스킹 기반 훈련에 뿌리를 두고 있습니다. LANISTR는 두 가지 유형의 목표를 사용하여 사전 훈련됩니다.

1. 단일 모달 마스킹 목표. LANISTR의 모든 단일 모달 인코더에 대한 일반적인 자체 지도 학습 전략으로 마스크된 언어, 이미지, 시계열 및 표 형식 특징 모델링을 사용합니다. 이를 통해 마스킹된 입력이 인코더에 공급되기 때문에 누락된 양식이 있는 데이터를 단일 모달 인코더에 활용할 수 있으며, 일종의 재구성 또는 예측 작업을 훈련에 사용할 수 있습니다.

2. 유사성 기반 멀티모달 마스킹 손실. FLAVA와 같은 비전 및 언어를 사용한 멀티모달 학습에 대한 이전 작업은 마스킹된 멀티모달 입력에서 하나의 양식(예: 텍스트) 또는 이미지 및 텍스트 양식을 모두 재구성하는 데 중점을 둡니다. 이 작업에서는 마스킹된 멀티모달 데이터 표현과 마스킹되지 않은 멀티모달 데이터 표현 간의 유사성을 극대화하는 새로운 마스킹된 멀티모달 학습 손실을 제안합니다. 이 목표는 두 개의 증강된 이미지 버전 간의 유사성을 극대화하는 것이 목표인 Siamese 네트워크에서 시작된 아이디어와 유사합니다. 그러나 우리 프레임워크에서 목표는 마스킹된 입력과 마스킹되지 않은 입력에서 생성된 임베딩 간의 유사성을 극대화하는 것입니다. 아래에 표시된 것처럼 이 목표는 마스킹된 데이터와 마스킹되지 않은 데이터의 임베딩 간의 코사인 유사성이 극대화되도록 모델이 교차 양식 관계를 학습하도록 장려합니다.

a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f59817cd6eb636d6e545cc25247df9a938f2d0

사전 훈련 후 사전 훈련된 가중치를 사용하여 단일 모달 인코더와 멀티모달 인코더를 모두 초기화합니다. 그런 다음 다운스트림 작업을 위해 멀티모달 인코더에 다중 계층 분류 모듈이 연결됩니다. LANISTR 모델은 3억 개의 매개변수로 구성됩니다. 미세 조정하는 동안 단일 모달 인코더를 고정 상태로 유지하면서 멀티모달 인코더와 분류 모듈 훈련에 집중합니다. 이는 전체 아키텍처의 약 15%를 훈련하는 것과 같습니다. LANISTR의 다재다능함은 레이블이 지정된 데이터에 액세스할 수 있는 경우 적절한 헤드와 목적 함수를 통합하여 회귀 또는 검색과 같은 다른 작업으로 확장된다는 점은 주목할 가치가 있습니다.

결과

MIMIC-IV(임상 예측 작업에 널리 사용되는 의료 데이터 세트) 및 Amazon Review Data를 사용하여 AutoGluon, ALBEF 및 MedFuse를 포함한 다양한 경쟁 기준선에 대한 LANISTR의 성능을 비교합니다. 새로운 아키텍처와 목적 함수를 갖춘 LANISTR는 여러 까다로운 작업에서 최첨단 결과를 달성합니다.

아래 플롯은 MIMIC-IV 데이터 세트를 사용한 사망률 예측 결과를 강조해서 보여줍니다. LANISTR는 수신기 작동 특성 곡선 아래 영역(AUROC)에서 평균 87.37%를 달성하여 이미지 및 텍스트만 사용할 수 있는 기준선 모델 FLAVA 및 CoCa와 이미지 및 시계열 양식만 사용하는 MedFuse 모델보다 훨씬 뛰어납니다. 후기 융합 기준선은 세 가지 모든 양식 임베딩을 연결하는 간단한 융합 메커니즘입니다.

a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f5981dcd6e661d12384427735a235db5b13ef7

Amazon Review 데이터 세트를 사용한 제품 등급 예측의 경우 사무용품 카테고리에서 레이블이 지정되지 않은 데이터(LANISTR 및 ALBEF)를 사용할 수 있는 방법을 사전 훈련하고 뷰티 제품 카테고리를 사용하여 미세 조정합니다. LANISTR는 평균 76.27%의 정확도를 달성하여 경쟁 기준선보다 훨씬 뛰어납니다. 특히 사전 훈련 없이도 LANISTR의 고유한 융합 메커니즘은 둘 다 사전 훈련을 지원하지 않는 후기 융합과 AutoGluon을 모두 능가합니다. ALBEF의 경우 표 형식 특징을 추가 텍스트 입력으로 통합하는 "Tab2Txt" 접근 방식을 살펴본 반면 원래 ALBEF 기준선은 이미지 및 텍스트 양식만 활용했습니다. 우리는 둘 다 LANISTR보다 훨씬 뛰어나다는 것을 증명합니다. 우리의 결과는 레이블이 지정되지 않은 데이터와 레이블이 지정된 데이터를 함께 사용하여 구조화된 데이터와 구조화되지 않은 데이터를 학습하는 것의 중요성을 확인시켜줍니다.

절제 연구와 이러한 작업의 특정 과제는 LANISTR가 모든 양식을 있는 그대로 적극적으로 수집하고, 자체 지도 사전 훈련 중에 많은 양의 레이블이 지정되지 않은 데이터를 활용하고, 누락된 양식을 원활하게 처리하는 기능을 보여줍니다.

a15714ab041eb360be3335625683746f0053452cd6a4ed89d63162f59911cd6ecd41cb4d6c050efbaea14da3ab18

결론

LANISTR는 언어, 이미지 및 구조화된 데이터(표 형식 및 시계열)를 위한 새로운 프레임워크입니다. 단일 모달 및 새로운 유사성 기반 멀티모달 마스킹 전략을 통해 LANISTR는 누락된 양식 및 제한된 레이블이 지정된 데이터를 포함한 문제를 해결하고 다양한 도메인에서 최첨단 성능을 달성합니다.

감사의 말

공동 저자인 Sercan Arik과 Tomas Pfister의 공헌에 감사드립니다. 이 블로그 게시물에서 우리 연구의 본질을 특징으로 하는 애니메이션 그림을 만든 Tom Small에게 특별히 감사드립니다.

번호	말머리	제목	글쓴이	작성일	조회	추천
2872	설문	연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은?	운영자	24/06/17	-	-
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3198]	*특갤용*	23.08.06	40846	43
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [6]	*부패하는유전자!!!*	24.03.06	2977	2
363220	공지	선형글 삭제 기준 [7]	*특갤용*	23.10.14	7709	24
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40]	ㅇㅇ(182.230)	23.11.11	14002	122
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [51]	*특갤용*	23.11.07	9322	79
385147	공지	구글의 AGI 분류 체계 [17]	ㅇㅇ	23.11.22	8973	31
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	9599	30
412470	공지	레이 커즈와일 신간 6월 25일 발매 [29]	모브	24.01.24	8590	35
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	23368	34
493880	일반	보이스가 아직도 안 나올 줄은 몰랐다..ㅠㅠ	ㅇㅇ	17:58	0	0
493879	일반	아니 근데 여친봇, 섹스봇 냄새 어떻게 할 생각임 진짜로	홀로섬외딴배	17:58	0	0
493878	일반	디스토피아 sf 가져올 때마다 영화 그만보라는게 웃긴 점	ㅇㅇ	17:56	3	0
493877	일반	아이언맨에 나오는 자비스 정도면 [11]	괴발자(118.37)	17:47	93	0
493876	일반	ㅌㅇㅈ ㅈㅂ 241ㅇㅊ [3]	포스트휴먼.	17:45	29	1
493875	일반	판례찾는 법조인은 지금당장 없애도 문제없지않냐? [7]	ㅇㅇ(106.101)	17:43	51	0
493874	일반	재귀개선 AGI는 허상임 [3]	ㅇㅇ(221.144)	17:41	95	2
493873	일반	갤주책왔는데 북스캔 택배가 제일쌈?? 동네 프린터점은 부르는게 [2]	ㅇㅇ(118.235)	17:41	32	0
493872	일반	지금으로부터 4년 전	ㅇㅇ(122.39)	17:40	44	0
493871	일반	llm이 캐즘이었으면 어케됨 [2]	ㅇㅇ(221.150)	17:38	28	0
493870	일반	Agi 2025이여야 한다	ㅇㅇ(106.101)	17:36	23	0
493869	일반	지금 의료개혁한다고 증원하는것보다	ㅇㅇ(106.101)	17:35	28	0
493868	일반	벌쌕스 아가리 터는거 존나 그럴싸한데 개꼴림	ㅇㅇ(106.102)	17:31	29	1
493866	일반	사람도 환각있는데? [5]	ㅇㅇ(221.157)	17:27	78	0
493865	일반	한국이 통일되면 북한지역에다 원전 도배시켜야지... [10]	ㅇㅇ	17:27	96	0
493864	일반	혹시 AI한테 취업 관련해서 물어봐도 괜찮음? [7]	ㅇㅇ(211.201)	17:23	70	0
493863	일반	빛의속도가 제일 빠른데 초속300000km고정인게 신기하지않냐? [16]	ㅇㅇ(106.101)	17:16	148	0
493862	일반	우리나라도 지금 원전밀어주는거아님? [6]	ㅇㅇ(106.101)	17:14	81	0
493861	일반	지구탈출이 레벨1이면 태양계탈출은 레벨몇임? [5]	ㅇㅇ(106.101)	17:09	71	0
493860	일반	한국은 걍 원전.핵융합에 몰빵하는게 답이지... [14]	ㅇㅇ	17:06	129	0
493859	정보/ 정보/뉴스	'AGI' 인재 모으는 삼성전자…'마하-1' 출시 준비 '착착' [3]	AGI#	17:04	164	4
493858	일반	ㅈ됐다!! 세미 AGI까지 2일 남았다 [6]	ㅇㅇ	17:04	214	2
493857	일반	우리나라는 거지니까 원자력발전하는게 맞지 [19]	ㅇㅇ(106.101)	17:01	133	0
493856	일반	낼 제미니 업뎃 몇시지 [3]	람냥	16:55	86	0
493855	일반	결국 전세계적인 전력난 문제부터 해결해야함... [6]	ㅇㅇ	16:54	96	0
493854	일반	생각보다 피규어ai가 최근에 설립됬규나	야상섹상	16:53	75	0
493853	일반	중국이랑 미국이 달에 가기 시작하면 [2]	괴발자(118.37)	16:52	48	0
493852	일반	ai한테 정치 맡기는거에 대해 어떻게 생각함?? [2]	ㅇㅇ	16:52	44	0
493851	일반	단일신경망이라는 노근본 용어 누가 만든거냐? [7]	oo(223.33)	16:51	159	5
493850	일반	특이점 오고 자급자족 가능한 우주선 만들어지면 지구는 더이상 필요없지.. [7]	ㅇㅇ	16:48	65	0
493848	일반	소식없으니 병신같은 '성능 떨어졌다' 앵무새 무한반복갤 됐노	ㅇㅇ(222.101)	16:46	83	1
493847	일반	4o 얘 gif 인식 드럽게 못하네ㅋㅋ [9]	ㅇㅇ	16:45	183	0
493846	일반	특이점 이후 미래의 도시는 어떤 모습일까?? [1]	ㅇㅇ	16:40	29	0
493845	일반	인터넷과 ai발달로 슬슬 진입장벽이 사라짐 [4]	ㅇㅇ(114.201)	16:40	117	0
493844	일반	RL 등으로 소형 LLM 성능 올리는 연구는 많은데 [4]	ㅇㅇ(119.202)	16:16	143	0
493843	일반	사무직들 짤리면 좆되는 이유 [8]	무상(223.38)	16:15	243	0
493842	일반	진짜 그 찌라시대로 보이스 7월 25일에 나오면 어떡하지 [2]	ㅇㅇ(119.202)	16:10	150	0
493841	일반	도장(날인) 1000명꺼 이미지 만들어야 하는데 AI 쓸만한게 없네.. [9]	ㅇㅇ(211.196)	16:07	131	0
493840	일반	재밌는게 모두의 예상과는 달리 [1]	무상(223.38)	16:06	120	0
493839	일반	난 솔직히 이 상황자체가 이해가 안됨 [28]	ㅇㅇ(211.250)	15:54	424	5
493838	일반	드림머신 작작 써라 [5]	Dall리신(121.157)	15:46	330	1

최근 방문

즐겨찾기

즐겨찾기 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

마이너 갤러리 소개

차단하기

[특이점이 온다 갤러리]

갤러리 본문 영역

게시물을 간편하게 NFT로 만들어 보세요!

NFT 발행 방법

NFT 발행

비회원 글삭제,수정

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결