디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (2)

ㅇㅇ갤로그로 이동합니다. 2024.03.28 15:43:39
조회 1534 추천 30 댓글 9
														

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=449641&page=1

 



사회적 추론


"물!"

비트겐슈타인은 이와 같은 단일 단어 발화를 사용하여 언어적 의미가 맥락에 매우 의존한다는 것을 보여주었다. 이 단어의 문자 그대로의 의미는 간단하지만, 의도된 의미는 더 다양하다. 이 단어가 사막에서 목마른 사람에 의해 내뱉어지고 있는가? 등산객이 숨겨진 시내에 대해 친구에게 경고하는 것인가? 참을성 없는 식당 손님이 웨이터에게 말하는 것인가? 인지 과학과 언어학에서의 연구는 언어의 이러한 맥락 의존적 측면이 단순히 주변적인 것이 아니라 인간의 언어 생성과 이해의 핵심 부분이라는 것을 인식하게 되었다[12, 28]. 문자 그대로의 내용을 넘어 발화의 의도된 의미를 추론하는 데 필요한 기술 집합을 화용론이라고 한다.


화용론은 언어망과 다른 뇌 영역을 모두 포함하는 다양한 신경 메커니즘을 사용할 가능성이 높다[174, 175, 176]. 따라서 화용론적 추론의 서로 다른 유형은 형식적 능력이나 기능적 능력으로 분류될 수 있다. 여기서는 화용론에 필요한 핵심 기능적 능력 중 하나인 사회적 추론에 초점을 맞춘다.


인간. 신경과학적 증거는 인간의 뇌에 사회적 정보를 처리하기 위한 전용 네트워크가 있다는 것을 보여준다[44, 177]. 현재의 논의와 가장 관련이 있는 것은 마음 이론 네트워크이다[178]. 이 뇌 영역 집합은 소유자가 (언어 사용 여부와 관계없이) 누군가의 정신 상태를 추론하려고 할 때 활성화된다[179, 180]. 언어 이해에 대한 마음 이론 네트워크의 구체적인 기여는 두 가지 범주로 나눌 수 있다. 첫째, 다른 기능적으로 특화된 뇌 모듈과 마찬가지로, 그것은 해당 영역과 관련된 의미론적 내용을 처리할 때 활성화된다: 등장인물의 심리 상태를 추론해야 하는 서술은 마음 이론 네트워크를 활성화시키고[180], 등장인물의 의도를 추론해야 하는 텍스트는 그렇지 않은 텍스트보다 더 큰 활동을 유발한다[181, 182]. 둘째, 마음 이론 네트워크는 농담, 풍자, 간접 언어, 대화 함축과 같은 현상을 포함한 비유적 언어를 이해하는 과정에서 더 강하게 활성화된다[176, 183]. 즉, 발화의 의미를 이해하기 위해 화자의 의도를 추론해야 하는 상황에서 그러하다. 따라서 성공적인 언어 이해는 우리의 더 광범위하고 언어에 국한되지 않는 사회적 추론 기술에 의존한다.


LLM. RLHF로 훈련된 최근 모델은 은유와 공손한 거짓말과 같은 비유적 발화를 해석하는 데 강력한 성능을 보여주었다. 이는 그들이 적어도 일부 화용론 작업에서 인간 수준 또는 거의 인간 수준의 성능에 도달할 수 있음을 시사한다[184]. 그럼에도 불구하고 LLM은 화용론 영역 전반에 걸쳐 불균등한 성능을 보인다: 은유 이해 능력이 급증하는 동안 풍자를 해석하거나 농담을 완성하는 능력은 제한적이었다[184]. 전반적으로 LLM에 가장 쉬운 화용론의 측면은 인간에게서 언어망에 의해 지원되는 측면일 가능성이 있다.


LLM의 마음 이론 과제 해결 능력은 특히 논란의 대상이 되어 왔다. 이러한 과제는 사회적 지식과 상황 모델을 유지하는 능력을 모두 필요로 한다. 전형적인 예로는 등장인물 X가 등장인물 Y가 주변에 없을 때 물건을 위치 A에서 위치 B로 옮기는 것이 있다. 따라서 Y는 이동을 보지 못한다. 목표는 물체의 실제 위치(위치 B)와 등장인물 Y가 물체가 있다고 믿는 위치(위치 A)를 예측하는 것이다. 지시문으로 미세 조정된 LLM이 마음 이론 과제를 마스터했다는 대담한 주장[185]은 기본 통제(예: 등장인물 Y에게 실제 물체 위치를 알려주는 등)를 포함시키면 LLM 성능이 우연 수준 이하로 떨어진다는 것으로 빠르게 반박되었다[186]. 몇몇 다른 연구에서도 마음 이론 과제에 대한 LLM 성능의 한계를 확인했다[187, 188, 189, cf. 190]. 이러한 한계를 극복하기 위한 한 가지 해결책은 LLM에 개체 상태와 등장인물 신념의 symbolic tracker를 추가하는 것이었는데[191], 이는 인간에서의 언어와 마음 이론 처리 사이의 분리를 반영하는 접근 방식이다.


언어 입력은 기능적 능력을 부트스트랩할 수 있다


많은 비언어적 인지 능력은 언어 입력에 의해 상당히 향상될 수 있다. 인간에서 이 관계는 특히 발달 과정에서 두드러진다: 아기는 언어적 레이블과 동반될 때 새로운 개념적 범주를 더 쉽게 학습하고[192], 언어 접근이 지연된 아동은 사회적 추론 능력도 지연된다[193]. 성인기에도 특정 수 단어에 대한 지식은 정확한 수를 개념적으로 표현하는 능력을 예측한다[194]. 언어 입력에 세계에 대한 방대한 양의 정보가 포함되어 있고, 언어가 사람들의 세계 지식의 중요한 데이터 출처이자 표현 기질이라는 사실과 결합할 때, 이 증거는 원칙적으로 오직 언어 입력에서만 훈련된 모델도 기능적 언어 능력의 상당 부분을 습득할 수 있음을 시사한다.


따라서 우리는 기능적 언어 능력이 언어 기반 모델의 범위를 벗어난다고 주장하지 않는다. 우리의 주요 목표는 (1) 인간 뇌에서 별개의 신경 회로에 의존하는 형식적 언어 능력과 기능적 언어 능력 사이의 개념적 구별을 강조하고, (2) LLM의 형식적 능력과 기능적 언어 능력 사이의 격차를 시연하는 것이다. 이러한 사실은 인간 뇌처럼 언어를 사용하는 데 성공하는 AI 모델 역시 능력 유형별로 별도의 메커니즘을 필요로 하거나 그로부터 이익을 얻을 수 있다는 추측으로 이어진다. 우리는 다음으로 이 아이디어를 논의한다.



인간처럼 언어를 사용하는 모델을 향하여


이 논문에서 우리는 형식적 언어 능력과 기능적 언어 능력이 별개의 능력이며, 형식적 능력은 별도의 언어 네트워크(언어망)에 의존하고 기능적 능력은 다양한 뇌 네트워크의 통합을 필요로 한다는 논제를 제시했다. 우리는 형식적 능력이 단어 간 문맥 예측 목적의 결과로 현대 LLM에서 출현한다는 것을 보여주었다. 그러나 이 목적만으로는 LLM에 기능적 언어 능력 기술을 갖추기에 불충분한 것으로 보인다. 신경과학적 증거에 기반하여, 우리는 현실 언어 사용에 성공하는 모델은 인간 뇌의 형식적 능력과 기능적 능력의 분업을 모방하여 모듈화될 필요가 있을 것이라고 제안한다.


우리는 LLM 회로의 형식적 능력과 기능적 능력을 분리하는 데 적어도 두 가지 방법이 있다고 본다: 시스템 아키텍처에 명시적으로 모듈성을 구축하는 것(우리는 이를 아키텍처 모듈성이라고 부른다)과 훈련 데이터와 목적 함수를 통해 훈련 과정에서 자연스럽게 모듈성을 유도하는 것(우리는 이를 창발적 모듈성이라고 부른다).


아키텍처 모듈성 접근법은 오랜 역사를 가지고 있다. 그것은 아마도 상당히 전문화된 아키텍처를 가진 별개의 구성요소를 함께 엮는 것을 포함한다[195, 196]. 현대의 예로는 트랜스포머 언어 모델과 별도의 메모리 모듈[예: 161, 197], 또는 언어 모듈, 시각 모듈, 추론 모듈을 포함하는 시각적 질문 답변 모델[198, 199] 등이 있다. 이러한 모듈형 모델은 높은 작업 성능을 달성하고, 더 효율적이며(즉, 더 작은 데이터셋에서 훈련될 수 있고 추론 중에 더 적은 계산량이 필요함), 더 나은 일반화 가능성을 보여준다(즉, 이전에 보지 못한 속성을 가진 데이터셋에서도 잘 수행함). 이러한 모델의 모듈은 별도로 또는 함께 훈련될 수 있는데, 이는 인간이 새로운 복잡한 작업을 수행하는 방법을 배울 때 다양한 인지 기술을 유연하게 결합하는 방식과 유사하다.


최근에는 이러한 종류의 모듈성에 대한 욕구가 API 호출[200], 수학 계산기[201], 플래너[202], 그리고 특정 구조화된 작업을 수행하는 다른 종류의 모듈을 포함하는 능력으로 언어 모델을 보강하려는 시도로 확장되었다.


이와 같은 맥락에서의 또 다른 접근법은 자연어 질의를 코드로 변환하기 위해 LLM을 모듈로 사용한 다음, 그 코드를 상징적 모듈에 전달하여 답변을 생성하는 것이다. [149]는 이 접근법에 대한 연구 프로그램을 개괄하면서, 자연어와 코드 모두를 생성하도록 미세 조정된 GPT-3 버전(Codex)이 텍스트 입력을 관계 영역(친족 체계와 같은), 접지된 영역(시각적 장면과 같은), 그리고 계획과 타인의 계획 이해를 필요로 하는 상황에 대해 추론하는 데 사용될 수 있는 의미 있는 구조화된 확률적 프로그램으로 변환할 수 있음을 보여준다. 그들의 접근법은 LLM이 성공하는 것(즉, 형식적 언어 능력)을 상징적 구조와 추상화의 이점을 누리는 다른 인지 모듈과 통합하기 위한 유망한 방향을 시사한다.


창발적 모듈성 접근법은 훈련 과정에서 모델 내에 전문화된 하위 구성요소가 출현하는 것을 촉진하는 조건을 만들면서 모델을 종단간(end-to-end) 훈련시키는 것을 포함한다. 모듈형 구조는 언어 이외의 영역에서 일부 종단간 신경망 시스템에서 자발적으로 출현하는 것으로 나타났는데[예: 203, 204], 이는 창발적 모듈성이 많은 복잡한 작업에 대한 최적의 솔루션을 구성할 수 있음을 시사한다. 이 접근법이 성공하기 위한 한 가지 전략은 모델 아키텍처가 모델 내에서 개별적이고 전문화된 모듈의 발달을 장려하는 것이다. 오늘날 가장 인기 있는 아키텍처인 트랜스포머는 서로 다른 어텐션 헤드가 서로 다른 입력 특징에 주의를 기울일 수 있게 함으로써 이 조건을 어느 정도 충족한다[예: 205, 206, 207]. 특정 접근법은 트랜스포머에 전문가 혼합(mixture-of-experts) 아키텍처를 부여하여 별도의 "전문가"가 서로 다른 계산을 수행하도록 더욱 명시적으로 모듈화를 촉진한다[208, 209, 210].


모듈형 모델 아키텍처 형식적 능력과 기능적 능력을 구분하는 언어에 대한 뇌의 기능적 아키텍처와 훨씬 더 잘 일치한다. 인간 뇌의 모듈형 구조를 모방하지 않고 형식적으로나 기능적으로 능숙한 시스템을 구축하는 것이 가능할까? 이론적으로는 그렇다: 서로 다른 기본 아키텍처(예: 모듈형 vs 비모듈형)를 가진 시스템이 원칙적으로 유사한 행동을 보일 수 있다. 그러나 아키텍처 수준에서 형식적 능력과 기능적 능력 기술을 명시적으로 분리하는 것이 AI 모델이 인간과 유사한 방식으로 언어를 사용하도록 보장하는 가장 실패하지 않는 길일 것이다.



결론


지난 몇 년 동안, 언어 모델에 관한 담론은 과대 주장과 과소 주장의 기묘한 혼합으로 구성되었다 [66]. 일부는 모델이 지능의 문턱에 있다고 주장하는 반면, 다른 이들은 숫자 곱셈에서부터 사실적으로 진실된 진술을 생성하는 것에 이르기까지 광범위한 작업에서 LLM의 많은 실패를 지적해 왔다. 여기서 우리는 전산 언어학, 인지 과학, 신경 과학에서의 이전 및 진행 중인 연구와 대화를 나누면서 이러한 모순된 반응을 제시했다. 특히, 우리는 LLM이 특정 유형의 구조적 및 통계적 언어 능력, 즉 형식적 언어 능력을 필요로 하는 작업에서 매우 성공적이라고 주장한다. 비록 그들의 성능이 아직 완전히 인간과 같지는 않지만, 이러한 모델은 단어 간의 계층적 관계를 표현하고 사용하며, 새로운 단어와 구문으로 일반화할 수 있을 만큼 충분히 추상적인 표현을 구축하는 데 인상적인 성공을 거두고 있다. 따라서 이러한 LLM은 인간 언어 처리의 후보 모델로서 언어학에서 충분히 활용되지 않고 있다.


우리는 또한 추론과 같은 현실 언어 사용을 목표로 하는 작업에서 LLM의 일부 실패를 검토하면서, 이러한 작업에 필요한 능력이 형식적 언어 능력과 근본적으로 다르며 언어 처리 네트워크와는 구별되는 인간 두뇌의 네트워크에 의존한다는 점을 강조한다.


비언어적 작업에 대한 LLM의 실패는 언어 처리 모델로서의 유용성을 훼손하지 않는다. 결국 인간에서 언어 처리를 지원하는 뇌 영역(언어망)도 수학을 할 수 없고, 논리적 문제를 해결할 수 없으며, 심지어 문장이나 단락에 걸쳐 이야기의 의미를 추적할 수도 없다. 일반화된 지능의 좋은 예인 인간 정신과 뇌를 지침으로 삼는다면, 우리는 미래의 지능형 시스템 개발에서의 발전이 단일 모델(단일 단어 예측 목적으로 훈련된)이 모든 것을 수행하기를 기대하기보다는 언어 모델과 추상적 지식을 표현하고 복잡한 추론을 지원하는 모델을 결합해야 할 것으로 예상할 수 있다. 마지막으로, 이러한 발전을 감지하고 모니터링하기 위해서는 형식적 언어 능력과 기능적 언어 능력을 깨끗하게 구분하는 벤치마크가 필요하다(Box 5).


인간 언어의 가장 흥미로운 측면은 데이터에서만 학습될 수 없다고 주장해 온 사람들에게, 우리는 LLM이 언어 입력에서 복잡한 구문 기능을 학습할 수 있는 가능성을 설득력 있게 보여준다고 말한다(비록 현재로서는 일반적인 아동이 노출되는 것보다 훨씬 더 많은 입력이 필요하지만). 복잡한 산술을 수행하거나 세계에 대해 추론하는 능력이 부족하다는 이유로 LLM을 비판하는 사람들에게, 우리는 언어 모델에게 휴식을 주라고 말한다. 인간 정신에서 언어와 비언어적 능력의 엄격한 분리를 고려할 때, 우리는 비언어적 능력이 뒤처질 때조차 형식적 언어 능력의 성공을 인정하면서 이러한 능력을 별도로 평가해야 한다. 마지막으로, 기계 학습 시스템의 상태를 개선하려는 사람들에게, 우리는 모델을 지속적으로 확장하는 대신 또는 그에 더해 [213], 더 유망한 해결책은 인간의 뇌처럼 언어 처리를 지각, 추론 및 행동을 수행하는 추가 시스템과 통합하는 모듈식 아키텍처(내장 또는 창발)의 형태로 나타날 것이라고 제안한다.



자동등록방지

추천 비추천

30

고정닉 12

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
453110 일반 아니 시발 이왜진? 작곡가들 쵸--비상!!!!!! [36] ㅇㅇ(222.118) 04.05 5567 44
452887 정보/ 염색체 말단 '텔로미어' 메커니즘 규명…"항암 치료 전략에 도움" [24] ㅇㅇ(182.230) 04.05 3526 23
452990 일반 인간 중위 데이터과학자를 능가하는 ai [17] 특술람갤로그로 이동합니다. 04.05 3529 28
452935 일반 "어이 샘! 오늘 트위터 근들갑 차례는 너라고!" [27] ㅇㅇ갤로그로 이동합니다. 04.05 3661 40
452927 일반 AI 일상화에 7100억원 투입···AI 혁명으로 한국 구조적 위기 극복 [32] Varian■Wrynn갤로그로 이동합니다. 04.05 3085 25
452894 정보/ SKT, OAI 미세조정 서비스 이용해 큰 효과 [10] ㅇㅇ(123.100) 04.05 1966 17
452889 정보/ 인간 뇌 모방한 '뉴로모픽 신경망', 컴퓨팅 난제 해결했다 [9] ㅇㅇ(182.230) 04.05 2138 22
452884 정보/ 욱한 마음 누르는 뇌 원리 찾았다…'감정 조절' 치료 가능할까 [10] ㅇㅇ(182.230) 04.05 2445 25
452876 정보/ Cohere, 강력한 오픈소스 LLM 공개(한국어 떡상) [8] ㅇㅇ(118.235) 04.05 2367 24
452868 정보/ KAIST, 소비 전력 15배 줄이는 뉴로모픽 반도체 메모리 소자 개발 [3] ㅇㅇ(182.230) 04.05 315 10
452855 일반 중력 너머 우주서…인류 구할 ‘신약 개발 상용화’ 첫발 [31] ㅇㅇ갤로그로 이동합니다. 04.05 2236 25
452754 일반 나 이상한게 보여.. [28] ㅇㅇ(1.244) 04.04 4768 31
452727 정보/ 오픈ai가 투자한 자율주행 개발 회사가 운영을 중단함 [22] ㅇㅇ(211.59) 04.04 3650 22
452596 일반 美 연구진 “챗GPT4, 임상 추론에서 의사보다 뛰어난 능력 보여” [61] ㅇㅇ(1.239) 04.04 3584 21
452509 정보/ 마소 기록상 가장 신뢰할 수 있는 논리적 큐비트를 시연 [17] ㅇㅇ갤로그로 이동합니다. 04.03 3425 23
452500 정보/ Stable Audio 2.0 발표 [20] ㅇㅇ(125.191) 04.03 3238 24
452470 정보/ 삼성전자, 오픈AI 진영 합류 결정… AI 반도체 ‘드림팀’ 꾸린다 [54] ㅇㅇ(211.59) 04.03 4568 45
452260 정보/ 로건GPT, 구글 제미니팀 입사 [5] ㅇㅇ(123.100) 04.03 2998 22
452246 정보/ Layer-Pruning & QLoRA를 활용한 모델 경량화 [3] ㅇㅇ(182.230) 04.03 1329 18
452199 정보/ 레딧 펌) 1.58비트 3진법 LLM 언어모델 오픈소스 공개 [12] ㅇㅇ갤로그로 이동합니다. 04.02 2660 19
452169 정보/ "2년 내 LLM 학습 데이터 고갈... AI 발전 중단될 것" [40] ㅇㅇ(182.230) 04.02 5019 28
452168 정보/ 구글, LLM 답변을 검색으로 확인하는 'SAFE' 개발 [7] ㅇㅇ(182.230) 04.02 1725 18
452167 정보/ 로봇 경찰견, 사람 대신 총 맞아..."인명 피해 방지" [23] ㅇㅇ(182.230) 04.02 2440 23
452163 정보/ 아마존, LLM '올림푸스' 올여름 출시... 매개변수는 예상 미만 [6] ㅇㅇ(182.230) 04.02 1390 17
452162 정보/ 오픈 소스 ‘미스트랄 7B v0.2’ 출시..."라마 2 능가" [3] ㅇㅇ(182.230) 04.02 1211 17
452155 정보/ 애플, 화면 맥락을 보고 이해할 수 있는 AI 개발 [8] ㅇㅇ(182.230) 04.02 2321 19
452114 일반 특갤이 openAI 지지하는 갤인 이유 [39] ㅇㅇ(175.206) 04.02 3157 45
452094 일반 ??? : ai 작곡으로 유행시킨거 하나라도 갖고와라 [28] ㅇㅇ(223.39) 04.02 4060 33
452024 정보/ 뇌를 모방한 AI 알고리즘을 찾아서, Hopfield 네트워크 [11] ㅇㅇ(182.230) 04.02 2000 23
452018 정보/ IBM의 최신 뉴로모픽 칩 NorthPole [7] ㅇㅇ(182.230) 04.02 1630 27
451975 정보/ MIT, LLM 속 지식 저장위치 찾아내는 방법 발견, 환각문제 개선가능 [18] 니지카엘갤로그로 이동합니다. 04.02 2280 23
451963 일반 근데 이미 본 떡밥이여도 굉장히 치명적인데? [4] ㅇㅇ(220.93) 04.02 1697 17
451923 토의 특이점을 위해서는 기술발전은 체감되지 못해야한다 [69] ㅇㅇ(1.230) 04.02 4332 66
451905 정보/ 기존 광섬유를 활용하여 450만배 빨라진 데이터 전송 성공 [38] 은바다갤로그로 이동합니다. 04.02 2995 22
451888 일반 작곡가 김형석 "suno 로 만든곡이 공모전 1위" ㄷㄷ [28] ㅇㅇ갤로그로 이동합니다. 04.02 3508 28
451881 일반 진짜 특갤 정보차이 너무 심한데 [25] ㅇㅇ갤로그로 이동합니다. 04.02 3853 32
451845 일반 정전갤된 김에 알트만의 포지션(?)을 알아보자 [34] ㅇㅇ(1.230) 04.01 2594 25
451840 정보/ DARPA, "발전속도가 느려지고 있다" [36] ㅇㅇ(222.120) 04.01 4549 26
451792 정보/ 우리은하 중심 블랙홀 이미지 공개 [9] ㅇㅇ(125.142) 04.01 2938 19
451661 일반 AI 아티스트 이아 싱글 컨셉 공개 [17] ㅇㅇ(112.163) 04.01 3506 22
451633 정보/ 딥마인드CEO “AI 투자 광풍이 과장과 사기 불러” [13] 특술람갤로그로 이동합니다. 04.01 2615 24
451607 정보/ OpenAI, 아시아 최초의 거점 일본에서 서비스 [12] 특술람갤로그로 이동합니다. 04.01 3163 21
451538 정보/ 인류 역사상 AI가 인간 살상한 첫 전투 벌어졌다 [39] ㅇㅇ갤로그로 이동합니다. 04.01 4008 33
451509 일반 와 미친.. gpt5 진짜 이정도라고? 혁명 수준인데? [43] ㅇㅇ갤로그로 이동합니다. 04.01 6691 30
451505 정보/ 최근들어 나타나는 Ai기술의 공통점 [24] 테이리갤로그로 이동합니다. 03.31 3274 35
451502 일반 샘 알트만이 말하는 GPT5 성능 [35] 내복맨갤로그로 이동합니다. 03.31 5651 49
451477 일반 샘 알트만 인터뷰 [7] ㅇㅇ(222.119) 03.31 2927 31
451392 정보/ 하루 만에 오픈소스 최고 성능 넘어...삼바노바, MoE 방식 모델 출시 [1] 니지카엘갤로그로 이동합니다. 03.31 1400 17
451161 정보/ 짐 켈러 : 반도체 물리적 한계는 극복 가능 [34] ㅇㅇ­갤로그로 이동합니다. 03.31 4517 27
451218 일반 sora 새영상 미쳤네 [17] ㅇㅇ갤로그로 이동합니다. 03.31 2718 22
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2