채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (2)

ㅇㅇ · 2024.03.28 15:43:39

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=449641&page=1

채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (1) - 특이점이 온다 마이너 갤러리

https://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(24)00027-5Abstract지금까지 대규모 언어 모델(LLM)이 인간의 언어 사용에 가장 근

gall.dcinside.com

사회적 추론

"물!"

비트겐슈타인은 이와 같은 단일 단어 발화를 사용하여 언어적 의미가 맥락에 매우 의존한다는 것을 보여주었다. 이 단어의 문자 그대로의 의미는 간단하지만, 의도된 의미는 더 다양하다. 이 단어가 사막에서 목마른 사람에 의해 내뱉어지고 있는가? 등산객이 숨겨진 시내에 대해 친구에게 경고하는 것인가? 참을성 없는 식당 손님이 웨이터에게 말하는 것인가? 인지 과학과 언어학에서의 연구는 언어의 이러한 맥락 의존적 측면이 단순히 주변적인 것이 아니라 인간의 언어 생성과 이해의 핵심 부분이라는 것을 인식하게 되었다[12, 28]. 문자 그대로의 내용을 넘어 발화의 의도된 의미를 추론하는 데 필요한 기술 집합을 화용론이라고 한다.

화용론은 언어망과 다른 뇌 영역을 모두 포함하는 다양한 신경 메커니즘을 사용할 가능성이 높다[174, 175, 176]. 따라서 화용론적 추론의 서로 다른 유형은 형식적 능력이나 기능적 능력으로 분류될 수 있다. 여기서는 화용론에 필요한 핵심 기능적 능력 중 하나인 사회적 추론에 초점을 맞춘다.

인간. 신경과학적 증거는 인간의 뇌에 사회적 정보를 처리하기 위한 전용 네트워크가 있다는 것을 보여준다[44, 177]. 현재의 논의와 가장 관련이 있는 것은 마음 이론 네트워크이다[178]. 이 뇌 영역 집합은 소유자가 (언어 사용 여부와 관계없이) 누군가의 정신 상태를 추론하려고 할 때 활성화된다[179, 180]. 언어 이해에 대한 마음 이론 네트워크의 구체적인 기여는 두 가지 범주로 나눌 수 있다. 첫째, 다른 기능적으로 특화된 뇌 모듈과 마찬가지로, 그것은 해당 영역과 관련된 의미론적 내용을 처리할 때 활성화된다: 등장인물의 심리 상태를 추론해야 하는 서술은 마음 이론 네트워크를 활성화시키고[180], 등장인물의 의도를 추론해야 하는 텍스트는 그렇지 않은 텍스트보다 더 큰 활동을 유발한다[181, 182]. 둘째, 마음 이론 네트워크는 농담, 풍자, 간접 언어, 대화 함축과 같은 현상을 포함한 비유적 언어를 이해하는 과정에서 더 강하게 활성화된다[176, 183]. 즉, 발화의 의미를 이해하기 위해 화자의 의도를 추론해야 하는 상황에서 그러하다. 따라서 성공적인 언어 이해는 우리의 더 광범위하고 언어에 국한되지 않는 사회적 추론 기술에 의존한다.

LLM. RLHF로 훈련된 최근 모델은 은유와 공손한 거짓말과 같은 비유적 발화를 해석하는 데 강력한 성능을 보여주었다. 이는 그들이 적어도 일부 화용론 작업에서 인간 수준 또는 거의 인간 수준의 성능에 도달할 수 있음을 시사한다[184]. 그럼에도 불구하고 LLM은 화용론 영역 전반에 걸쳐 불균등한 성능을 보인다: 은유 이해 능력이 급증하는 동안 풍자를 해석하거나 농담을 완성하는 능력은 제한적이었다[184]. 전반적으로 LLM에 가장 쉬운 화용론의 측면은 인간에게서 언어망에 의해 지원되는 측면일 가능성이 있다.

LLM의 마음 이론 과제 해결 능력은 특히 논란의 대상이 되어 왔다. 이러한 과제는 사회적 지식과 상황 모델을 유지하는 능력을 모두 필요로 한다. 전형적인 예로는 등장인물 X가 등장인물 Y가 주변에 없을 때 물건을 위치 A에서 위치 B로 옮기는 것이 있다. 따라서 Y는 이동을 보지 못한다. 목표는 물체의 실제 위치(위치 B)와 등장인물 Y가 물체가 있다고 믿는 위치(위치 A)를 예측하는 것이다. 지시문으로 미세 조정된 LLM이 마음 이론 과제를 마스터했다는 대담한 주장[185]은 기본 통제(예: 등장인물 Y에게 실제 물체 위치를 알려주는 등)를 포함시키면 LLM 성능이 우연 수준 이하로 떨어진다는 것으로 빠르게 반박되었다[186]. 몇몇 다른 연구에서도 마음 이론 과제에 대한 LLM 성능의 한계를 확인했다[187, 188, 189, cf. 190]. 이러한 한계를 극복하기 위한 한 가지 해결책은 LLM에 개체 상태와 등장인물 신념의 symbolic tracker를 추가하는 것이었는데[191], 이는 인간에서의 언어와 마음 이론 처리 사이의 분리를 반영하는 접근 방식이다.

언어 입력은 기능적 능력을 부트스트랩할 수 있다

많은 비언어적 인지 능력은 언어 입력에 의해 상당히 향상될 수 있다. 인간에서 이 관계는 특히 발달 과정에서 두드러진다: 아기는 언어적 레이블과 동반될 때 새로운 개념적 범주를 더 쉽게 학습하고[192], 언어 접근이 지연된 아동은 사회적 추론 능력도 지연된다[193]. 성인기에도 특정 수 단어에 대한 지식은 정확한 수를 개념적으로 표현하는 능력을 예측한다[194]. 언어 입력에 세계에 대한 방대한 양의 정보가 포함되어 있고, 언어가 사람들의 세계 지식의 중요한 데이터 출처이자 표현 기질이라는 사실과 결합할 때, 이 증거는 원칙적으로 오직 언어 입력에서만 훈련된 모델도 기능적 언어 능력의 상당 부분을 습득할 수 있음을 시사한다.

따라서 우리는 기능적 언어 능력이 언어 기반 모델의 범위를 벗어난다고 주장하지 않는다. 우리의 주요 목표는 (1) 인간 뇌에서 별개의 신경 회로에 의존하는 형식적 언어 능력과 기능적 언어 능력 사이의 개념적 구별을 강조하고, (2) LLM의 형식적 능력과 기능적 언어 능력 사이의 격차를 시연하는 것이다. 이러한 사실은 인간 뇌처럼 언어를 사용하는 데 성공하는 AI 모델 역시 능력 유형별로 별도의 메커니즘을 필요로 하거나 그로부터 이익을 얻을 수 있다는 추측으로 이어진다. 우리는 다음으로 이 아이디어를 논의한다.

인간처럼 언어를 사용하는 모델을 향하여

이 논문에서 우리는 형식적 언어 능력과 기능적 언어 능력이 별개의 능력이며, 형식적 능력은 별도의 언어 네트워크(언어망)에 의존하고 기능적 능력은 다양한 뇌 네트워크의 통합을 필요로 한다는 논제를 제시했다. 우리는 형식적 능력이 단어 간 문맥 예측 목적의 결과로 현대 LLM에서 출현한다는 것을 보여주었다. 그러나 이 목적만으로는 LLM에 기능적 언어 능력 기술을 갖추기에 불충분한 것으로 보인다. 신경과학적 증거에 기반하여, 우리는 현실 언어 사용에 성공하는 모델은 인간 뇌의 형식적 능력과 기능적 능력의 분업을 모방하여 모듈화될 필요가 있을 것이라고 제안한다.

우리는 LLM 회로의 형식적 능력과 기능적 능력을 분리하는 데 적어도 두 가지 방법이 있다고 본다: 시스템 아키텍처에 명시적으로 모듈성을 구축하는 것(우리는 이를 아키텍처 모듈성이라고 부른다)과 훈련 데이터와 목적 함수를 통해 훈련 과정에서 자연스럽게 모듈성을 유도하는 것(우리는 이를 창발적 모듈성이라고 부른다).

아키텍처 모듈성 접근법은 오랜 역사를 가지고 있다. 그것은 아마도 상당히 전문화된 아키텍처를 가진 별개의 구성요소를 함께 엮는 것을 포함한다[195, 196]. 현대의 예로는 트랜스포머 언어 모델과 별도의 메모리 모듈[예: 161, 197], 또는 언어 모듈, 시각 모듈, 추론 모듈을 포함하는 시각적 질문 답변 모델[198, 199] 등이 있다. 이러한 모듈형 모델은 높은 작업 성능을 달성하고, 더 효율적이며(즉, 더 작은 데이터셋에서 훈련될 수 있고 추론 중에 더 적은 계산량이 필요함), 더 나은 일반화 가능성을 보여준다(즉, 이전에 보지 못한 속성을 가진 데이터셋에서도 잘 수행함). 이러한 모델의 모듈은 별도로 또는 함께 훈련될 수 있는데, 이는 인간이 새로운 복잡한 작업을 수행하는 방법을 배울 때 다양한 인지 기술을 유연하게 결합하는 방식과 유사하다.

최근에는 이러한 종류의 모듈성에 대한 욕구가 API 호출[200], 수학 계산기[201], 플래너[202], 그리고 특정 구조화된 작업을 수행하는 다른 종류의 모듈을 포함하는 능력으로 언어 모델을 보강하려는 시도로 확장되었다.

이와 같은 맥락에서의 또 다른 접근법은 자연어 질의를 코드로 변환하기 위해 LLM을 모듈로 사용한 다음, 그 코드를 상징적 모듈에 전달하여 답변을 생성하는 것이다. [149]는 이 접근법에 대한 연구 프로그램을 개괄하면서, 자연어와 코드 모두를 생성하도록 미세 조정된 GPT-3 버전(Codex)이 텍스트 입력을 관계 영역(친족 체계와 같은), 접지된 영역(시각적 장면과 같은), 그리고 계획과 타인의 계획 이해를 필요로 하는 상황에 대해 추론하는 데 사용될 수 있는 의미 있는 구조화된 확률적 프로그램으로 변환할 수 있음을 보여준다. 그들의 접근법은 LLM이 성공하는 것(즉, 형식적 언어 능력)을 상징적 구조와 추상화의 이점을 누리는 다른 인지 모듈과 통합하기 위한 유망한 방향을 시사한다.

창발적 모듈성 접근법은 훈련 과정에서 모델 내에 전문화된 하위 구성요소가 출현하는 것을 촉진하는 조건을 만들면서 모델을 종단간(end-to-end) 훈련시키는 것을 포함한다. 모듈형 구조는 언어 이외의 영역에서 일부 종단간 신경망 시스템에서 자발적으로 출현하는 것으로 나타났는데[예: 203, 204], 이는 창발적 모듈성이 많은 복잡한 작업에 대한 최적의 솔루션을 구성할 수 있음을 시사한다. 이 접근법이 성공하기 위한 한 가지 전략은 모델 아키텍처가 모델 내에서 개별적이고 전문화된 모듈의 발달을 장려하는 것이다. 오늘날 가장 인기 있는 아키텍처인 트랜스포머는 서로 다른 어텐션 헤드가 서로 다른 입력 특징에 주의를 기울일 수 있게 함으로써 이 조건을 어느 정도 충족한다[예: 205, 206, 207]. 특정 접근법은 트랜스포머에 전문가 혼합(mixture-of-experts) 아키텍처를 부여하여 별도의 "전문가"가 서로 다른 계산을 수행하도록 더욱 명시적으로 모듈화를 촉진한다[208, 209, 210].

모듈형 모델 아키텍처는 형식적 능력과 기능적 능력을 구분하는 언어에 대한 뇌의 기능적 아키텍처와 훨씬 더 잘 일치한다. 인간 뇌의 모듈형 구조를 모방하지 않고 형식적으로나 기능적으로 능숙한 시스템을 구축하는 것이 가능할까? 이론적으로는 그렇다: 서로 다른 기본 아키텍처(예: 모듈형 vs 비모듈형)를 가진 시스템이 원칙적으로 유사한 행동을 보일 수 있다. 그러나 아키텍처 수준에서 형식적 능력과 기능적 능력 기술을 명시적으로 분리하는 것이 AI 모델이 인간과 유사한 방식으로 언어를 사용하도록 보장하는 가장 실패하지 않는 길일 것이다.

결론

지난 몇 년 동안, 언어 모델에 관한 담론은 과대 주장과 과소 주장의 기묘한 혼합으로 구성되었다 [66]. 일부는 모델이 지능의 문턱에 있다고 주장하는 반면, 다른 이들은 숫자 곱셈에서부터 사실적으로 진실된 진술을 생성하는 것에 이르기까지 광범위한 작업에서 LLM의 많은 실패를 지적해 왔다. 여기서 우리는 전산 언어학, 인지 과학, 신경 과학에서의 이전 및 진행 중인 연구와 대화를 나누면서 이러한 모순된 반응을 제시했다. 특히, 우리는 LLM이 특정 유형의 구조적 및 통계적 언어 능력, 즉 형식적 언어 능력을 필요로 하는 작업에서 매우 성공적이라고 주장한다. 비록 그들의 성능이 아직 완전히 인간과 같지는 않지만, 이러한 모델은 단어 간의 계층적 관계를 표현하고 사용하며, 새로운 단어와 구문으로 일반화할 수 있을 만큼 충분히 추상적인 표현을 구축하는 데 인상적인 성공을 거두고 있다. 따라서 이러한 LLM은 인간 언어 처리의 후보 모델로서 언어학에서 충분히 활용되지 않고 있다.

우리는 또한 추론과 같은 현실 언어 사용을 목표로 하는 작업에서 LLM의 일부 실패를 검토하면서, 이러한 작업에 필요한 능력이 형식적 언어 능력과 근본적으로 다르며 언어 처리 네트워크와는 구별되는 인간 두뇌의 네트워크에 의존한다는 점을 강조한다.

비언어적 작업에 대한 LLM의 실패는 언어 처리 모델로서의 유용성을 훼손하지 않는다. 결국 인간에서 언어 처리를 지원하는 뇌 영역(언어망)도 수학을 할 수 없고, 논리적 문제를 해결할 수 없으며, 심지어 문장이나 단락에 걸쳐 이야기의 의미를 추적할 수도 없다. 일반화된 지능의 좋은 예인 인간 정신과 뇌를 지침으로 삼는다면, 우리는 미래의 지능형 시스템 개발에서의 발전이 단일 모델(단일 단어 예측 목적으로 훈련된)이 모든 것을 수행하기를 기대하기보다는 언어 모델과 추상적 지식을 표현하고 복잡한 추론을 지원하는 모델을 결합해야 할 것으로 예상할 수 있다. 마지막으로, 이러한 발전을 감지하고 모니터링하기 위해서는 형식적 언어 능력과 기능적 언어 능력을 깨끗하게 구분하는 벤치마크가 필요하다(Box 5).

인간 언어의 가장 흥미로운 측면은 데이터에서만 학습될 수 없다고 주장해 온 사람들에게, 우리는 LLM이 언어 입력에서 복잡한 구문 기능을 학습할 수 있는 가능성을 설득력 있게 보여준다고 말한다(비록 현재로서는 일반적인 아동이 노출되는 것보다 훨씬 더 많은 입력이 필요하지만). 복잡한 산술을 수행하거나 세계에 대해 추론하는 능력이 부족하다는 이유로 LLM을 비판하는 사람들에게, 우리는 언어 모델에게 휴식을 주라고 말한다. 인간 정신에서 언어와 비언어적 능력의 엄격한 분리를 고려할 때, 우리는 비언어적 능력이 뒤처질 때조차 형식적 언어 능력의 성공을 인정하면서 이러한 능력을 별도로 평가해야 한다. 마지막으로, 기계 학습 시스템의 상태를 개선하려는 사람들에게, 우리는 모델을 지속적으로 확장하는 대신 또는 그에 더해 [213], 더 유망한 해결책은 인간의 뇌처럼 언어 처리를 지각, 추론 및 행동을 수행하는 추가 시스템과 통합하는 모듈식 아키텍처(내장 또는 창발)의 형태로 나타날 것이라고 제안한다.

번호	말머리	제목	글쓴이	작성일	조회	추천
2864	설문	비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는?	운영자	24/06/03	-	-
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3118]	*특갤용*	23.08.06	39649	43
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [2]	*부패하는유전자!!!*	24.03.06	2640	2
363220	공지	선형글 삭제 기준 [7]	*특갤용*	23.10.14	7328	24
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40]	ㅇㅇ(182.230)	23.11.11	13491	122
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [51]	*특갤용*	23.11.07	9023	79
385147	공지	구글의 AGI 분류 체계 [17]	ㅇㅇ	23.11.22	8491	31
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	9238	30
412470	공지	레이 커즈와일 신간 6월 25일 발매 [29]	모브	24.01.24	8132	34
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	22849	33
486108	일반	애플 발표에 왜 기대를 하냐. 저번 마소 발표 꼴 날게 뻔한데.	ㅇㅇ(121.184)	13:53	28	0
486107	정보/ 정보/뉴스	앤트로픽 직원 ai 안전빌미 정부규제 반대	ㅇㅇ(125.191)	13:50	40	0
486106	일반	걍 오에 이 씨발련들 제미니 발표 하루 전날 엿맥이려고	ㅇㅇ(118.235)	13:49	24	0
486105	일반	6월 7일 특붕쿤들의 모습 [2]	ㅇㅇ(118.36)	13:45	80	2
486104	일반	GPTs 좀 파는 게이 있음? [1]	ㅇㅇ(182.225)	13:44	47	0
486103	일반	특갤 알고 나서 현생 법이나 도덕 우습지 않음? [2]	ㅇㅇ(211.236)	13:39	54	2
486102	일반	아직 gpt를 학교공부에 써먹을 단계는 아니지? [3]	불곰적위대	13:32	107	0
486101	일반	chatgpt 좋은 점 [1]	ㅇㅇ(106.101)	13:26	86	0
486100	일반	우리나라 이주자 받지 말고 그냥 AI로봇 기다렸다가 대체하면 안됨? [7]	ramune	13:20	122	0
486099	일반	찌라시 진짜 ㅈ같아지네 [2]	친근한게이브	13:11	231	0
486098	정보/ 정보/뉴스	문화적 축적을 통한 인간 문화 모델링 [1]	ㅇㅇ(221.167)	12:57	81	0
486097	일반	보이스 애플이 독점하면 어떡하냐 [3]	친근한게이브	12:54	128	0
486096	일반	근데 구조적으로 전유물일 수 밖에 없지 않나? [4]	ㅇㅇ(211.234)	12:53	101	0
486095	일반	ios18 내 폰도 지원하네 아싸라비야 [2]	특이점이온다	12:53	122	0
486094	일반	Few weeks later? ㅈㄹ한다 증말 [1]	야상섹상	12:52	106	0
486093	일반	그래픽카드 하나 있다고 쓸만한 인공지능 굴릴수 있을까 ? [7]	ㅇㅇ	12:50	119	0
486092	일반	우리가 전유물인지 알면 불완전한 전유물 아닌가? [1]	ㅇㅇ(141.223)	12:37	76	0
486091	일반	좆까셈 6일날 출시하라고 발표가 아니라 [1]	ㅇㅇ(218.146)	12:36	132	0
486090	일반	어차피 10년 후에도 흙수저들은 노가다 뛰어야 하는건 똑같잖아	ㅇㅇ	12:34	72	0
486089	일반	이모든 꿀은 황회장이 다 빨아먹는거지 뭐 ㅋ	ㅇㅇ(114.207)	12:33	59	1
486088	일반	식주.충들 좀만 거슬리는 말 하면 숏치라면서 겐세이넣노ㅋㅋㅋ [8]	ㅇㅇ(115.139)	12:24	180	11
486086	일반	GTA6 vs GPT5 [3]	개혁신당	12:22	185	1
486085	일반	Gpts는 진짜 초기버전 유튜브 인스타인데 [3]	탈조선	12:21	175	0
486084	일반	GG 지피티5 나오지마라 [1]	ㅇㅇ(114.207)	12:21	80	0
486083	정보/ 정보/뉴스	SD3 2b모델 6월 12일 공개 [4]	ㅇㅇ(175.208)	12:17	265	7
486082	일반	Gpt5로는 일자리위협 못함	ㅇㅇ(58.29)	12:17	106	1
486081	일반	Gpts가 후지다니 무슨소리노	탈조선	12:17	65	0
486080	정보/ 정보/뉴스	(AGI)인공세대지능: 강화학습을 통한 문화적 축적 [1]	특술람	12:15	106	2
486079	일반	님들 근데 육체노동직업은 안전한거 맞음?? [23]	ㅇㅇ(121.142)	12:14	217	0
486078	일반	현재 인공지능 투자 규모와 기업들의 hype, 대중들의 기대심리 [3]	ㅇㅇ	12:09	99	0
486077	일반	식비만 생각하면 그 소일렌트인가 그게 안 낫나?	ㅇㅇ(121.182)	12:08	43	0
486076	일반	특붕이들 작년에 사무직 따잉거리더만 [9]	ㅇㅇ(218.147)	12:05	332	6
486075	일반	음성도 이지랄인데 gpt5 출시는 얼마나 미루겠냐 [5]	ㅇㅇ	12:05	177	0
486074	일반	구글 발표면 GPT 업데이트 신뢰성 있지	ㅇㅇ(163.152)	11:50	146	1
486072	일반	구글 뭐 잘못한거 있음? [6]	ㅇㅇ(58.29)	11:43	241	0
486071	일반	팩트) ai 기능 ㅈ도 안씀 [3]	ㅇㅇ(180.66)	11:43	363	8
486070	일반	잼민이 좀 기대된다 [1]	ㅇㅇ	11:41	49	0
486069	일반	Gpt 유료 결제는 언제가 나을까? [1]	ㅇㅇ	11:22	111	0
486068	정보/ 정보/뉴스	Gemini 06.05 업데이트 예정 [8]	ㅇㅇ(125.191)	11:17	581	6
486067	일반	GPT - 5 내놓으라고 씨발년아 [1]	ㅇㅇ(221.167)	11:10	284	1
486066	일반	일레븐랩스 목소리 ㅈㄴ자연스럽노 [1]	ㅇㅇ(14.53)	11:08	202	0

갤러리 검색

최근 방문

즐겨찾기

즐겨찾기 갤러리

특이점이 온다 갤러리
마이너

머리말∙꼬리말

머리말∙꼬리말

색상 설정

스포일러 경고 설정

제목에서 경고

본문에서 경고

마이너 갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

마이너 갤러리 소개

차단하기

[특이점이 온다 갤러리]

갤러리 본문 영역

[정보/뉴스] 채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (2)

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

실시간 베스트

뉴스

디시미디어

디시이슈

개념글[UFC]

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결