채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (1)

ㅇㅇ · 2024.03.28 15:21:56

https://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(24)00027-5

Abstract

지금까지 대규모 언어 모델(LLM)이 인간의 언어 사용에 가장 근접했음에도 불구하고, 이들 모델의 언어 및 인지 능력에 대해서는 의견이 분분하다. 우리는 LLM을 언어 규칙과 패턴에 대한 지식인 형식적 언어 능력과 실제 상황에서 언어를 이해하고 사용하는 기능적 언어 능력으로 구분하여 평가한다. 이 구분은 인간 신경과학 연구에서 형식적 능력과 기능적 능력이 서로 다른 신경 메커니즘에 의존한다는 사실에 근거를 두고 있다. LLM은 형식적 능력에서 놀라울 정도로 우수한 반면, 기능적 능력은 여전히 부족하며 종종 전문적인 미세조정(fine-tuning)이나 외부 모듈과의 결합이 필요하다. 우리는 인간처럼 언어를 사용하는 모델이 이 두 가지 능력을 모두 갖추어야 하며, 이를 위해 형식적 언어 능력에 특화된 메커니즘이 기능적 능력과 구분되어 나타나야 할 수도 있다고 주장한다.

언어-사고 혼동

우리는 어떤 문장을 들었을 때 일반적으로 그것이 합리적이고 사고하는 주체(다른 사람)에 의해 생성되었다고 가정한다. 사람들이 일상 대화에서 사용하는 문장은 그들의 세상에 대한 지식("모든 새가 날 수 있는 것은 아니다."), 추론 능력("너는 15살이니까 술집에 갈 수 없어."), 그리고 목표("저 좀 태워주시겠어요?")에 기반한다. 따라서 우리는 다른 사람의 발화를 그들의 마음을 들여다보는 창으로 삼곤 한다.

1950년 앨런 튜링은 언어와 사고 사이의 이런 긴밀한 관계를 활용해 자신의 유명한 테스트를 제안했다. 튜링 테스트는 언어를 인지에 대한 인터페이스로 사용해, 인간 참가자가 두 대화 상대의 지식과 추론 능력을 탐색함으로써 누가 인간이고 누가 기계인지 판별하도록 한다. 튜링 테스트의 유용성에 대해서는 이후 논란이 있었지만, 이 테스트는 오늘날 사회가 기계 지능에 대해 생각하는 방식을 의심할 여지없이 형성했다.

튜링 테스트의 인기와 일상생활에서의 언어-사고 결합은 언어-사고 관계에 대한 몇 가지 흔한 오류로 이어졌다. 한 가지 오류는 언어를 잘하는 실체(인간이든 기계든)가 반드시 사고도 잘할 것이라는 생각이다. 실체가 긴 일관된 텍스트를 생성한다면, 반드시 풍부한 지식과 추론 능력을 갖추고 있을 것이다. 이를 "잘 하는 언어 -> 잘 하는 사고" 오류라고 부르자. 이 오류는 OpenAI의 GPT 모델, Anthropic의 Claude, Meta의 LLaMa, EleutherAI의 GPT-J 등 최근 LLM의 등장으로 주목받고 있다. 오늘날 LLM은 인간의 출력과 구별하기 어려운 텍스트를 생성할 수 있고, 일부 텍스트 이해 과제에서 인간을 능가하며, 다음 단어 예측에서 초인적 성능을 보인다. 그 결과 LLM이 언어 처리의 주요 진전일 뿐만 아니라 "인공 일반 지능(AGI)의 불씨"를 보여주고 있다는 주장이 대중매체와 학계 문헌 모두에서 제기되고 있다. 그러나 LLM의 능력을 평가할 때는 사고 능력과 언어 능력을 구분하는 것이 중요하다. "잘 하는 언어 -> 잘 하는 사고" 오류는 이 둘을 혼동하기 쉽게 만들어, 사람들이 1960년대의 엘리자(Eliza) 챗봇 같은 가장 기본적인 대화 시스템에도 지능과 의도를 잘못 귀인하게 한다.

이 오류의 대우는 사고를 못하는 모델이 언어도 잘하지 못할 것이라는 생각이다. 이를 "못 하는 사고 -> 못 하는 언어" 오류라고 부르자. LLM은 흔히 일관되고 일반화 가능한 세상 지식의 부족, 상식 추론 능력의 부족, 발화의 진정한 의미를 이해하지 못하는 점 등으로 비판받는다. 이런 증거를 바탕으로 일부 비평가들은 모델이 인간 사고의 풍부함과 정교함을 완전히 포착하는 언어 출력을 생성하지 못한다는 점에서 인간 언어의 좋은 모델이 아니라고 제안한다.

"잘 하는 언어 -> 잘 하는 사고" 오류와 "못 하는 사고 -> 못 하는 언어" 오류는 모두 언어와 사고의 혼동에서 비롯된다. 이런 혼동은 그리 놀랍지 않다. 인간 정체성이 결여된 채 유창한 문장을 생성하는 실체를 만나는 일은 여전히 새롭고 섬뜩한 일이기 때문이다. 따라서 언어 모델이 하는 일을 이해하기 위한 우리의 휴리스틱 - 다른 인간과의 언어 경험에서 생겨난 휴리스틱 - 은 깨지기 마련이다.

언어-사고 혼동의 오류를 완화하기 위해, 우리는 언어 능력을 형식적 언어 능력과 기능적 언어 능력으로 체계적으로 구분할 것을 제안한다. 형식적 언어 능력이란 언어 규칙과 통계적 규칙성에 대한 지식을 말하며, 기능적 언어 능력이란 실제 상황에서 언어를 이해하고 사용하는 능력을 가리킨다. 이런 구분의 동기는 인간 두뇌에서 나온다. 인간 두뇌에서는 형식적 능력과 기능적 능력이 서로 다른 신경 메커니즘에 강력하게 의존한다. 형식적 언어 능력과 기능적 언어 능력은 인간 언어 사용의 필수 요소다. 효과적인 의사소통자는 문법적이고 의미 있는 발화를 생성할 뿐만 아니라, 다양하고 맥락에 따라 달라지는 목표를 달성하기 위해 그런 발화를 전략적으로 사용해야 한다.

이런 구분을 통해, 우리는 현대 LLM의 능력을 평가하고, 최신 LLM에서 형식적 능력과 기능적 능력 사이에 격차가 있음을 주장한다. 현대 LLM의 영어 형식적 능력은 인간 수준에 근접하지만, 기능적 능력은 여전히 들쭉날쭉하며 특정 기능적 능력 영역과 그 영역 내 과제에 따라 결과가 달라진다. 게다가 언어 예측 과제의 데이터 양이 늘어날수록 LLM의 형식적 언어 능력은 극적으로 향상되는 반면, 기능적 언어 능력의 개선은 그만큼 일관되지 않아, LLM 개발자들은 이제 단순한 확장에서 벗어나 관심 행동을 겨냥한 전문적인 방법(예: 인간 피드백에 의한 강화학습(RLHF))이나 LLM과 외부 전문 모듈의 결합("증강 언어 모델"이라 불리는)으로 선회하고 있다.

그러므로 우리는 다음 단어 예측 방식으로는 형식적 언어 능력은 익힐 수 있어도 기능적 언어 능력까지 익히기는 어렵다고 본다. 기능적 능력을 완전히 익히려면 무엇이 필요한지 규명하기는 더 힘든데, 그 이유 중 하나는 인간 인지(상식 추론, 과학 지식, 일상 지식)의 많은 부분이 언어로 전달되어 언어로부터 학습될 수 있지만, 이런 능력 자체가 본질적으로 언어적인 것은 아니기 때문이다. 결과적으로 언어 모델은 다양한 비언어적 능력을 습득한다. 그러나 기능적 능력의 궁극적인 한계는 언어 신호에 담긴 정보와 그 정보를 활용하는 메커니즘에 대한 중요한 미해결 문제에 달려 있다. 우리는 이에 대해 뒤에서 논의할 것이다.

본문의 나머지 부분에서는 인지과학적 관점에서 현대 언어 모델의 능력을 평가하는 프레임워크를 개발한다. 첫 번째 섹션에서는 형식적 언어 능력과 기능적 언어 능력의 개념을 상세히 설명하고, 이런 구분에 대한 인간 신경과학의 증거를 제시한다. 두 번째 섹션에서는 단어-맥락 예측에 훈련된 모델들이 다양한 복잡한 언어 현상을 포착하는 것으로 보아 LLM이 형식적 언어 능력 획득에 성공했음을 보인다. 세 번째 섹션에서는 오늘날 LLM이 종종 실패하거나 최소한 인간보다 성능이 떨어지는 기능적 언어 능력에 필요한 여러 영역들 - 형식적 추론, 세상 지식, 상황 모델링, 사회적 인지 - 을 고찰한다. 네 번째 섹션에서는 우리 프레임워크가 앞으로 언어와 사고 모델을 구축하고 평가하는 데 갖는 함의를 논의한 뒤, 마지막 섹션에서 핵심 결론을 요약한다.

형식적 언어 능력 vs. 기능적 언어 능력

언어 능력에는 무엇이 필요한가?

형식적 언어 능력.

우리는 형식적 언어 능력을 특정 언어를 생성하고 이해하는 데 필요한 일련의 능력으로 정의한다. 넓게 말해, 형식적으로 유능하다는 것은 언어의 형식을 제대로 익히는 것을 뜻한다. 즉, 어떤 문자열이 그 언어의 유효한 단어가 될 수 있는지(예: 영어에서 bnick은 불가능하지만 blick은 가능함), 형태소를 생산적으로 결합해 새로운 단어를 형성하는 법(예: Barack Obama-less-ness는 되지만 Barack Obama-ness-less는 안 됨), 단어가 문장의 어느 자리에 올 수 있는지 알 정도로 단어 의미를 학습하는 것, 그리고 단어를 결합해 유효한 문장을 만드는 법 등이 여기에 해당한다.

언어학사에서 중심적인 위치를 차지해온 만큼, 우리가 형식적 능력을 논의할 때 초점을 맞추는 것은 마지막 능력, 즉 단어를 문장으로 형성하는 것이다. 표준 영어를 사용하는 대부분의 사람들은 "The dogs in my bedroom is asleep(내 침실에 있는 개들은 자고 있다)"이 아니라 "The dogs in my bedroom are asleep"이라고 말한다. 왜냐하면 be 동사는 문장의 주어 자리에 있는 명사("the dogs")의 수에 일치해야 하기 때문이다. 비록 그 동사가 개입하는 단수 명사("bedroom")와 더 가깝다 할지라도 말이다. 언어 능력은 또한 특이한 언어 구성의 규칙성에 대해 극도로 민감해야 한다. 예를 들어, 영어 화자들은 복수 명사와 함께 부정 관사 "a"를 사용하지 않아 "a days"와 같은 구가 비문법적이 되는 것을 알고 있지만, 형용사와 수사가 개입하는 특수 구성에서는 그것이 허용된다는 것도 안다. "a beautiful five days in New York(뉴욕에서의 아름다운 닷새)"가 그 예다.

인간 언어 사용자는 정교한 통계적 학습과 타고난 개념적/언어적 장치의 조합을 통해 규칙과 수천 개의 특이 구성을 배우는 것 같다. 그 결과 인간은 문법적이고 일관된 언어 발화를 이해하고 생성할 수 있게 된다.

기능적 언어 능력.

언어 규칙과 통계적 규칙성에 능숙해지는 것 외에도, 유능한 언어 사용자는 언어를 사용해 세상에서 목표를 달성한다. 즉, 보거나 느끼거나 들을 수 있는 것에 대해 이야기하고, 다양한 주제에 대해 추론하며, 요청하고, 설득하고, 둘러대고, 아첨한다. 사람들은 언어를 다른 지각 및 인지 체계(감각이나 기억 같은)와 함께 사용하며, 정교한 사회적 기술이 뒷받침하는 더 넓은 의사소통 프레임워크의 일환으로 단어를 사용한다. 고립된 형식 언어 체계는 지각, 인지, 행동의 나머지 부분과 상호작용할 수 없다면 쓸모가 없다.

언어를 사용해 세상에서 무언가를 할 때 필요한 능력은 형식적 능력과 구별되며, 언어에 특정적이지 않은 인지에 결정적으로 의존한다(그림 1). 따라서 우리는 기능적 언어 능력을 실제 상황에서 언어를 언어에 특정적이지 않은 능력과 함께 사용할 때 필요한, 언어에 특정적이지 않은 인지 기능으로 정의한다.

형식적 언어 능력과 기능적 언어 능력 구분의 동기

형식적 언어 능력과 기능적 언어 능력을 구분하려는 우리의 동기는 인간 마음의 구조에 대해 우리가 알고 있는 바에서 나온다. 인간에게서 언어는 고차원 인지의 나머지 부분, 그리고 지각 및 행동과 강력하게 분리된다. 아래에서는 이런 분리를 뒷받침하는 인지과학 및 신경과학의 증거를 간략히 요약한다.

언어망은 인간 뇌의 언어 처리를 지원한다. 인간의 언어 처리는 전두엽과 측두엽(일반적으로 좌반구)에 있는 상호 연결된 일련의 뇌 영역에 의존한다. 이 언어망은 이해(구어, 문어, 수어)와 생성 모두를 지원하며, 음운/어휘하 수준부터 구/문장 수준에 이르기까지 다양한 수준의 언어 규칙성에 민감하고, 단어 의미의 처리와 관련된 언어 작용과 결합적 의미 및 통사 처리 모두를 지원한다. 언어망의 손상은 언어 결함으로 이어진다. 언어망과 언어 기능 사이의 이런 밀접한 연결은 이 뇌 영역들이 인간의 언어 처리를 담당함을 시사한다.

언어망은 비언어적 인지를 지원하지 않는다. 언어망은 언어에 대해 매우 선택적이다. 언어 처리와 비언어적 능력 간 강력한 분리에 대한 증거는 주로 두 가지 출처에서 나온다. (a) 신경학적으로 정상인 성인의 기능적 뇌 영상 연구 (b) 일반적으로 뇌졸중이나 퇴행으로 인해 발생하는 언어장애인 실어증 환자에 대한 행동 연구.

7fee8077ab826ef03ce898a518d6040329cd500e68a40f2a3bf3ed

fMRI 같은 뇌 영상 기법은 건강한 사람의 언어망에서 실시간 활동을 관찰하는 데 사용된다. 높은 공간 해상도 덕분에 fMRI는 두 인지 능력이 동일한 뇌 구조물에 의존하는지 연구하는 데 적합하다. 예를 들어 언어와 수학적 추론이 동일한 뇌 영역을 사용하는지 묻기 위해, 우리는 참가자들이 MRI 스캐너 안에서 언어 과제와 수학 과제를 수행하게 한 다음, 언어 처리 중에 활성화되는 뇌 영역이 참가자가 수학 문제를 풀 때도 활성화되는지 검사할 수 있다. 이런 접근을 통해 언어망이 언어 처리에 대해 매우 선택적임을 알 수 있다. 언어망은 사람들이 문장을 듣거나 읽거나 생성할 때 안정적으로 반응하지만, 산술 과제를 수행하거나 논리적 추론에 참여하거나 컴퓨터 프로그램을 이해하거나 음악을 듣거나 물체나 사건을 범주화하거나 사람의 심적 상태에 대해 추론하거나 얼굴 표정이나 제스처 같은 비언어적 의사소통 정보를 처리할 때는 그렇지 않다.

실어증 환자 연구는 어떤 인지 능력이 언어 표상에 의존하는지 검증할 수 있는 독특한 기회를 제공한다. 특히 관심을 끄는 것은 생성과 이해 모두에 영향을 미치는 '전반적 실어증' 사례다. 전반적 실어증 환자는 소수의 단어를 제외하고는 아무것도 남기지 않는 심각한 언어 결함을 보인다. 비언어적 인지의 일부 측면이 언어와 동일한 자원에 의존한다면, 심각한 언어 결함이 있는 사람은 반드시 관련 비언어적 과제 수행에서 손상된 결과를 보일 것이다. 그러나 거의 완전한 언어 능력의 상실에도 불구하고 심각한 실어증 환자는 손상되지 않은 비언어적 인지 능력을 가질 수 있다. 그들은 체스를 두고, 산술 문제를 풀고, 다양한 과제를 수행하기 위해 세상 지식을 활용하며, 인과 관계에 대해 추론하고, 복잡한 사회적 상황을 헤쳐나갈 수 있다.

요약하면, 뇌 영상 연구와 실어증 환자 연구에서 얻은 증거는 매우 일관된다. 인간 뇌에서 언어를 처리하는 메커니즘은 비언어적 인지 과제를 지원하지 않는다. 이런 뚜렷한 분리는 언어 모델의 기능을 조사할 때 언어적 능력과 추상적 지식 및 추론 능력을 분리해야 함을 시사한다. 비언어적 인지는 언어 인터페이스를 통해 검증되고 심지어 학습될 수도 있지만, 그것들은 형식적 언어 능력 이상의 것을 필요로 한다.

LLM은 영어에서 형식적 언어 능력을 상당 부분 마스터했다

2019년 한 인터뷰에서 촘스키는 이렇게 말했다. "우리는 여기서 어떤 질문을 해야 한다: [딥러닝]은 공학인가, 아니면 과학인가? [...] 공학적 관점에서 보면, 그것은 불도저와 같은 가치가 있다. 그것이 인간 언어에 대해 무언가를 말해주는가? 전혀 아니다." 딥러닝 모델이 과학적 관심사가 아니라는 견해는 언어학계에 여전히 널리 퍼져 있으며, 이러한 모델을 인간 언어 처리 및 습득 연구에 통합해야 한다는 많은 주장과 이들을 언어학 및 인지 모델로 진지하게 받아들여야 한다는 논의에도 불구하고, 언어 연구에 통합하는 것은 여전히 저항에 부딪히고 있다.

이 섹션에서는 언어 모델로서의 LLM의 성능을 평가하기 위해, 이 모델들이 인간 두뇌의 언어 선택적 네트워크에서 지원되는 유형의 능력인 형식적 언어 능력을 달성하는 데 진전을 이루었는지 평가한다. 우리는 LLM이 형식적 언어 능력을 마스터 하는데 놀랍도록 성공적이었다고 주장한다. 형식적 언어 능력에서 LLM은 2018년 이전 모델과 질적으로 다른데, 이는 해당 분야의 전문가 중 거의 아무도 예측하지 못했고, 문법적으로 유능한 시스템에는 강력한 언어 특정적 사전 지식이 필요하다는 오랜 주장을 감안할 때 예상치 못한 일이었다. 놀라움과 함께 정보가 있다: 모델의 성공은 언어 이론화에 유익하다.

통계적 언어 모델: 몇 가지 기본 사항

LLM은 통계적 언어 모델링, 단어 임베딩, 연결주의(오늘날 딥러닝으로 불리는 접근법의 초기 용어) 등 계산 언어학의 여러 초기 접근법에서 생겨났다. 초기 통계 언어 모델과 유사하게, LLM은 일반적으로 단어 예측 과제로 먼저 학습된다(이는 20세기 중반 섀넌의 연구까지 거슬러 올라가는 n-gram 모델 학습에 사용된 것과 동일한 과제다). 분산 의미론과 단어 임베딩의 접근법과 유사하게, LLM은 언어 정보를 고차원 공간의 벡터로 표현한다. 초기 연결주의 접근법과 유사하게, LLM은 신경망이다. 신경망은 원래 인간 뇌에서 영감을 얻은 기계 학습 시스템의 한 부류로, 입력 데이터에서 매개변수를 학습한다. 이런 모든 접근법은 구문 규칙의 명시적이고 구조화된 위계적 표상을 사용하는 모델과 대조된다.

N-gram과 단어 임베딩 모델은 자연어 처리의 다양한 영역(예: 맞춤법 교정, 스팸 분류, 감성 분석)에서 어느 정도 성공을 거두었다. 그러나 이들은 텍스트 생성이나 텍스트 이해 같은 일반적 언어 과제에서 인간 수준의 성능에 근접하지 못했다.

이는 순수한 통계적 접근법으로는 자연어의 풍부함, 특히 복잡한 통사적, 형태적, 의미적 영역을 절대 포착할 수 없다는 주장으로 이어졌다. 예를 들어 선형적인 단어열을 입력으로 사용하는 통계적 접근법은 구와 문장을 위계적으로 표현해야 하는 희귀하고 복잡한 통사적 특징을 학습할 수 없다고 주장되었다. 이런 비관론은 이제 LLM에 의해 도전받고 있다.

LLM은 일반적으로 먼저 웹에서 수집한 방대한 양의 텍스트로 구성된 학습 집합에서 훈련된다. 사전학습 동안 LLM은 간단한 목표를 갖는다. 즉, 고정된 수의 이전 토큰을 기반으로 제외된 토큰(LLM의 기본 단위로, 종종 단어나 형태소에 해당하지만 항상 그런 것은 아님)을 예측한다. 예측된 토큰은 실제값(그 문장에서 실제로 등장한 토큰)과 비교되고, 오차 신호가 모델을 통해 역전파되어 많은 매개변수를 업데이트한다. 토큰 예측 목표는 종종 사전학습 단계로 사용되며, 그 다음 모델은 더 구체적인 과제를 위해 미세조정된다.

단어 예측으로 훈련된 트랜스포머 모델이 언어의 구조에 대해 많은 것을 배운다는 점은 주목할 만하다. 여기에는 최근까지도 통계 모델의 범위를 벗어난 것으로 여겨졌던 언어 특징이 포함된다. 이 모델들은 NLP 커뮤니티가 개발한 일반적 언어 이해 테스트(예: GLUE 과제)뿐만 아니라 영어와 대규모 말뭉치가 있는 다른 언어에서의 언어 능력 테스트(Box 3의 저자원 언어 논의 참조)에서도 성공을 거두었다. 이는 우리의 목적상 중요한 점이다.

예를 들어, BLiMP 벤치마크에는 문법적 문장과 비문법적 문장의 최소 쌍이 다양한 복잡한 언어 현상에 걸쳐 포함되어 있다. 예를 들면 filler-gap 의존성("Bert knew what many writers find" vs. "*Bert knew that many writers find")과 부정 극성 표현("The truck has clearly tipped over" vs. "*The truck has ever tipped over") 등이다. 놀랍게도 BabyLM 챌린지에 제출된 한 모델은 BLiMP에서 86%를 달성했다(인간 기준은 89%). 이는 인간 아동이 노출될 수 있는 것과 유사한 양의 데이터로 학습했음에도 불구하고 그렇다(Box 3 참조). 모델은 SyntaxGym 같은 다른 언어 벤치마크에서도 비슷한 인상적인 결과를 얻는다. 이제 특정 복잡한 언어 현상에 대한 수십 건의 연구가 있다(우리는 그중 일부에 대해 아래에서 논의한다).

LLM은 위계적 구조를 학습한다. 인간 언어에서 단어는 결합되어 합성적 의미를 만든다. 다어절 문장에서 개별 단어의 의미는 단순히 선형적으로 하나씩 더해지는 것이 아니다. 대신 그것들은 나무 모양의 구조로 위계적으로 결합될 수 있다.

언어의 위계적 구조는 여러 가지 방식으로 나타난다. 한 가지 두드러진 예는 비국소적(non-local) 자질 일치다. 영어를 포함한 많은 언어에서 동사는 주어와 일치한다. 예를 들어, 복수 주어는 동사 "are"를 사용하고, 단수 주어는 "is"를 사용한다. 2어절 문자열의 빈도만 저장하는 2-gram 모델은 "keys are"가 "keys is"보다 흔하다는 것을 알고 "The keys are on the table"이 "The keys is on the table"보다 더 가능성이 높다는 것을 학습할 수 있다. 그러나 그런 모델은 주어와 동사 사이에 얼마나 많은 단어가 개입하든 둘 사이의 일치를 학습할 수 없다. 예를 들어 "The keys to the old, wooden kitchen cabinet are on the table"에는 주어와 동사 사이에 6개의 개입 단어가 있지만, "are"는 여전히 "keys"와 일치하고 "cabinet"과는 일치하지 않는다. 그러나 영어의 근본적인 위계 구조를 학습하는 모델은 이런 장거리 주어-동사 의존성을 추적할 수 있어야 한다.

오늘날 LLM은 개입하는 방해 단어가 있는 상황에서도 장거리 수 일치를 훨씬 우연 수준 이상으로 수행하며, 문법적 문장 연속을 비문법적인 것보다 선호한다. 다만 일부 초기 모델은 단수형과 복수형의 빈도 차이 같은 빈도 효과에 의해 혼란스러워할 수 있다. 비슷한 맥락에서 LLM은 복잡한 위계 구조를 필요로 하는 filler-gap 의존성 같은 다른 구문도 처리할 수 있다. 마지막으로 모델의 문장 표상 내부 기하구조를 조사한 연구, 모델의 내부 표상에 인과적으로 개입한 연구, 특정 모델 "뉴런"을 켜고 끄는 연구 등은 LLM이 어떻게 위계 구조를 표현하고 비국소적 구조 의존성을 확립하는지에 대한 기제적 통찰을 제공했다.

LLM은 언어적 추상화를 학습한다. 우리는 추상화를 일반화를 가능케 하는 언어 표상으로 정의한다. 예를 들어 품사 범주(명사, 동사 등)나 문법 역할(주어, 목적어 등)이 그런 예다. 앞 섹션에서 설명한 주어-동사 일치라는 개념 자체가 주어와 동사라는 추상적 범주에 의존한다. "The dogs in my bedroom often... (bark/barks)"와 같은 문장에서 모델은 얕은 버전의 일치 규칙, 즉 "dogs"와 "bark"의 연어가 "dogs"와 "barks"의 연어보다 같은 문장에서 더 흔하다는 것을 학습할 수 있다. 그러나 문법상 주어, 수, 동사 같은 범주의 추상적 표상을 가진 모델은 새로운 단어 조합에 대해서도 장거리 수 일치를 처리할 수 있어야 한다.

모델의 추상 규칙 지식을 테스트하는 한 가지 방법은 의미적으로 부조리한 문장을 사용하는 것이다. "The colorless green ideas I ate with the chair... (sleep/sleeps)"가 그 예다. 모델은 이런 의미적으로 일탈된 문장에서도 여러 언어로 일치 과제를 잘 수행하는 것으로 나타났다.

언어적 추상화에 대한 더욱 엄격한 테스트는 LLM이 새로운 단어에 형태-통사적 규칙을 적용할 수 있는지 묻는 것이다. BERT의 추상화 능력에 대한 한 연구는 BERT가 문법 범주를 일반화하는 능력이 어느 정도 있음을 보였다. 그들은 모델에 구 속의 새 단어를 입력으로 제시한다(예: "the blick"에서 blick은 명사일 가능성이 높고 "they dax"에서 dax는 동사일 가능성이 높음). 그리고 입력을 바탕으로 모델이 품사 범주를 일반화할 수 있는지 테스트한다(예: "I went to a blick"에 "I went to a dax"보다 높은 점수를 부여하는지). 그들은 BERT가 이 과제를 부분적으로 성공한다고 결론 내린다. BERT는 일반화를 학습하지만, 반복된 예시 후에만 그렇다. 다만 단어 자체가 합성 능력에 영향을 미치는 방식도 있다. 모델은 또한 (대개) 새 단어를 적절하게 사용할 수 있는 것 같다.

LLM의 언어적 추상화를 테스트하는 연구에서는 흔히 탐침(probing)이라는 방법이 사용된다. 이 문헌에서는 분류기가 종종 내부 모델 표상을 입력으로 받아 품사나 의존 역할 같은 추상적 범주를 출력으로 예측하도록 훈련된다. 탐침의 논리는 이런 추상적 범주가 내부 모델 상태에서 성공적으로 복구될 수 있는지 테스트하는 것이다. 이 접근법을 사용하면 LLM이 "고전적 NLP 파이프라인을 재발견한다"고 주장되었다. 즉, 다양한 층에서 품사, 구문 분석, 개체명, 의미역 같은 특징을 학습한다는 것이다(다만 이에 대한 반론도 있다).

중요한 점은 인간과 유사한 언어 모델이 추상 규칙에만 의존할 것으로 기대되지는 않는다는 것이다. 인간은 언어 학습과 처리에서 때로는 엄격한 위계적 통사 처리와 상충하거나 그것을 무시하는 다양한 단서를 사용한다. 인간은 또한 순수하게 추상 규칙을 적용하는 것과 대조적으로, 정도의 차이는 있지만 이전에 본 입력을 기억하는 데 의존한다. 따라서 LLM의 형식적 능력을 평가할 때는 그들의 수행을 인간과 직접 비교하는 것이 필수적이다. 예를 들어, 이전 연구를 재검토한 결과, GPT-2의 명백한 통사적 일치 결함이 인간에게도 어려운 사례에서 발생한 것으로 나타났다. 전반적으로 LLM은 분명 어느 정도 언어적 추상화를 학습하지만, 그 추상화의 정도는 (인간에 대해서도 그렇듯이) 여전히 논란거리다.

LLM은 구문을 학습한다. 최근 증거는 LLM이 통사적 구문을 학습한다는 것을 시사한다. 이런 구문은 특이하고 어휘에 민감하며 비교적 희귀할 수 있다. "a beautiful five days in Austin(오스틴에서의 아름다운 닷새)"가 그 예다. LLM은 또한 간격이 유한절 경계를 넘어설 때조차도("Surprising though I know it may be") 전치사구 전치 구문("Surprising though it may be...")에 대해 어느 정도 민감성을 보인다. 모델은 유한절 경계를 넘는 그런 예가 굉장히 희귀함에도 불구하고 이런 민감성을 보인다. 70억 문장 말뭉치에서 그런 예는 겨우 58개에 불과하다. 모델이 똑같이 희귀한 어떤 구문은 문법적이고 다른 구문은 그렇지 않다는 것을 학습할 수 있다는 사실은 LLM이 통사에 대해 의미 있는 무언가를 학습한다는 것을 시사한다.

모델은 또한 비교 상관 구문 "the better the syntax, the better the semantics(통사가 좋을수록 의미도 좋아진다)"의 형식에 민감하다. 그러나 이런 민감성이 구문의 의미적 함의에 대한 민감성을 뜻하는 것은 아니다. 실제로 이런 문장에 기반한 추론은 모델에게 어려울 수 있다. 예컨대 내가 "통사가 좋을수록 의미도 좋아진다"라고 말한 뒤 통사가 좋아졌다고 말하면, 이는 의미도 좋아졌음을 뜻한다는 것을 알기 어려울 수 있다. 이런 비대칭성은 형식/기능 구분을 잘 보여준다. 모델은 구문을 사용하고 형식을 제대로 만드는 법은 분명히 알지만, 반드시 의도된 의미를 파악할 수 있는 것은 아니다. 우리는 이에 대해 뒷부분에서 더 자세히 논의할 것이다.

LLM은 인간 언어망의 활동을 예측한다

앞서 논의했듯이, 인간의 언어 처리는 전용 뇌 네트워크(언어망)에 의존한다. 이 네트워크는 형식적 언어 능력의 모든 특징을 보인다. 즉, 고립된 구와 문장에서 추상적 위계 규칙에 민감하고, 자연스러운 이야기에서도 그러하며, 통사적으로는 정형이지만 의미적으로는 공허한("재버워키") 자극에 대해서도 민감하다. 언어망은 또한 특정 단어 연어에도 민감하다(예: n-gram 놀라움에 대한 민감성이 보여주듯). 이는 언어망이 규칙뿐 아니라 언어의 패턴도 학습함을 나타낸다. 언어망의 언어적 대 비언어적 입력에 대한 선택성과 언어 규칙 및 패턴에 대한 민감성은 형식적 언어 능력을 인간에서 언어망 내에서 일어나는 일련의 계산으로 조작적으로 정의할 수 있게 해준다.

LLM과 인간 언어망이 형식적 언어 능력을 성취하기 위해 유사한 계산을 수행한다면, 우리는 그들의 내부 조직에서 유사성을 관찰할 것으로 기대할 수 있다. 그리고 실제로 LLM과 인간 언어망 사이에는 사소하지 않은 유사성이 존재한다.

첫째, LLM의 내부 구조는 언어망의 그것과 닮았다. 둘 다 픽셀이나 음향 파형 같은 양식 특정적 표상 수준이 아니라 추상적 언어 단위(단어/토큰) 수준에서 작동하며, 이런 단위 수준 표상을 구와 문장의 합성적 표상으로 결합한다. 어느 쪽도 통사 처리와 의미 처리에 대해 명확한 공간적 분리를 보이지 않는데, 이는 이 과정들이 둘 다에서 기능적으로 밀접하게 연결되어 있음을 나타낸다.

둘째, LLM 내부 표상과 언어망 내 신경 활동 패턴 사이에 직접적 대응을 확립할 수 있다. 이 대응은 이전에 보지 못한 맥락의 새로운 문장과 단어에 대한 뇌 반응을 성공적으로 예측하는 데 사용될 수 있다. LLM과 뇌의 문장 활성화 패턴 간 이런 유사성은 이 시스템들의 계산을 지원하는 유사한 표상 메커니즘을 시사한다.

우리는 LLM과 언어망의 대응이 일대일이라고 주장하지 않는다. 예를 들어 LLM은 개행 문자를 예측하는 것처럼 전통적인 인간 언어 능력 외의 패턴도 학습한다. 그럼에도 현대 LLM의 내부 표상이 다양한 언어 문자열에 대한 언어망의 반응을 예측할 만한 충분한 정보를 담고 있다는 사실은 LLM의 표상과 언어망의 표상 사이에 어느 정도 대응이 있음을 나타낸다.

LLM을 인간 형식적 언어 능력 모델로 사용하기

오늘날 LLM은 인간의 출력과 구별하기 어려운 매우 일관되고 문법적인 텍스트를 생성한다. 그렇게 하면서 LLM은 위계 구조와 언어적 추상화에 대한 지식을 보이며, 언어 처리 중 인간 뇌 반응과 유사성을 보인다. 이 모델들은 완벽한 추상 언어 규칙 학습자는 아니지만, 인간도 마찬가지다. 그러므로 우리는 LLM이 적어도 영어에서 상당한 형식적 언어 능력을 갖추고 있다고 결론 내린다.

LLM은 이미 언어 입력의 통계만으로 특정 언어 지식 - 위계 구조와 추상 범주 같은 - 을 습득하는 것이 근본적으로 불가능하다는 주장을 뒤집었다. 언어 모델링이 계속 향상된다면(더 사실적인 종류와 양의 데이터에서 학습하는 것 포함, Box 3), 이는 "자극의 빈곤" 논변의 더 일반적 버전을 검증할 수 있게 해줄 것이다. 여기에는 인간 언어의 규칙과 통계적 규칙성을 성공적으로 학습하는 데 어떤 귀납적 편향이 필요할지에 대한 구체적 검증이 포함된다. 이런 식으로 LLM은 언어 학습 및 처리의 과학적 연구에서 상당한 가치를 지닌다.

LLM은 기능적 언어 능력에서 부족하다

현실 언어 사용은 비언어적 인지 기술 없이는 불가능하다. 문장을 이해하고, 그 의미를 추론하고, 어떻게 반응할지 결정하는 것은 모두 형식적 능력을 넘어서는 인지 능력에 의존한다. 이 섹션에서는 현대 LLM이 기능적 언어 능력을 얼마나 잘 수행하는지 질문한다.

우리는 언어 특정적이지는 않지만 실제 상황에서 언어 사용에 필수적인 네 가지 주요 능력에 초점을 맞춘다: i) 형식적 추론 - 논리적, 수학적 추론, 계산적 사고, 새로운 문제 해결을 포함하는 다양한 능력; ii) 세계 지식 - 행위자, 사물, 속성, 행동, 사건, 아이디어에 대한 사실적, 상식적 지식; iii) 상황 모델링 - 서술/대화가 시간에 따라 전개되는 가운데 대상, 행위자, 사건을 동적으로 추적하는 것; iv) 사회적 추론 - 언어적 교류의 사회적 맥락을 이해하는 것. 평균적인 대화는 이 모든 능력의 사용을 필요로 하지만, 이들 중 어떤 것도 언어에 특정적이지는 않다.

각 영역에 대해, 우리는 먼저 인간에서의 신경 메커니즘을 설명한 다음, 현대 LLM이 해당 영역을 얼마나 잘 습득했는지 논의한다. 우리는 형식적 능력과 달리 LLM의 기능적 능력은 불균등하며, 종종 특수한 미세 조정 및/또는 인간과 같은 견고성과 일반성이 부족하다는 결론을 내린다. Box 4에서는 LLM을 적절히 평가하는 것의 중요성을 강조한다; 평가 문제는 형식적 능력 또는 기능적 능력 연구 모두에서 발생할 수 있지만, 우리는 그것이 모델의 기능적 능력에 대한 특히 많은 과대 주장으로 이어졌다고 생각한다.

형식적 추론

언어는 사람들이 매우 추상적인 아이디어를 논의하고, 아이디어를 과학적, 철학적 이론으로 전환하고, 논리적 삼단논법을 구성하고, 형식적 토론에 참여할 수 있게 해준다. 당연하게도 언어는 종종 복잡한 추론의 초석으로 간주된다[136, 137]. 그러나 신경과학은 언어와 형식적 추론이 인지 체계에서 분리된다는 증거를 제공하므로, 형식적 언어 능력을 습득한 모델이 반드시 논리적 추론 능력을 보여주는 것은 아니다.

인간. 밀접하게 상호 작용함에도 불구하고 언어와 추론은 별개의 인지적, 신경적 시스템에 의존한다. 언어와 달리 형식적 추론은 다중 요구 네트워크로 알려진 뇌 영역을 사용한다[138]. 이 영역들은 많은 인지적으로 요구되는 작업에 관여하기 때문에 이렇게 명명되었다: 논리[47], 수학적 추론[41], 물리적 추론[139], 컴퓨터 코드 이해[46, 140]. 인간 환자 연구는 이러한 영역의 손상 정도가 유동 지능의 표준 검사 수행과 부정적으로 상관관계가 있음을 보여줌으로써 다중 요구 네트워크의 논리적 추론에서의 인과적 역할에 대한 증거를 제공했다[141, 142]. 중요한 것은, 다중 요구 네트워크가 LLM이 프롬프트를 받는 것과 유사하게 작업이 언어적으로 제시될 때에도 추론을 지원한다는 점이다[41, 47, 140].

LLM. 여러 연구는 수학 문제와 같이 형식적 추론을 필요로 하는 작업에서 LLM의 한계를 지적했다. GPT-3는 두 자리 수 덧셈과 뺄셈에서는 잘 수행하지만 세 자리 수 덧셈이나 두 자리 수 곱셈과 같은 더 복잡한 작업에서는 그렇지 못하다[69]. GPT-4도 마찬가지로 작은 자릿수에서는 좋은 성능을 보이지만 큰 자릿수 수학 연산에서는 그렇지 않다[143]. 입력에서 공통 동시 발생 패턴을 깨거나 다단계 연산을 요구하는 추론 테스트에서도 모델은 실패한다[144, 145].

이러한 실패의 가장 흔한 원인은 훈련 분포 외부의 패턴으로 일반화하는 데 있어 인공 신경망의 실패이다[145, 146]. 이 일반화 격차는 모델이 답에 도달하기 전에 중간 계산 단계를 생성하도록 프롬프트하는 "생각의 사슬" 접근법에 의해 부분적으로 극복될 수 있다[147]. 그러나 이러한 접근법조차도 오류 없는 결과를 가져오지는 않는다[143]. 따라서 점점 더 많은 연구자들이 Mathematica 플러그인[148]이나 확률적 추론 엔진[149]과 같은 구조적 논리 및 수학적 계산을 수행할 수 있는 외부 모듈로 LLM을 보완하고 있다. LLM을 추론에 특화된 모듈로 보완하는 방향으로의 전환은 신경과학의 증거와 일치한다: 언어와 형식적 추론은 별개의 인지 능력으로, 별도의 처리 메커니즘에 의해 지원될 때 가장 잘 작동한다.

세계 모델 1: 사실적 및 상식적 지식

LLM에서 흔히 논의되는 능력은 내부 세계 모델을 활용하는 능력이다[149, 150]. 우리는 세계 모델 개념을 두 가지 구성 요소로 나눈다: 세계 지식(이번 섹션에서 다룰 사실적, 상식적 지식)과 상황 추적(다음 섹션에서 다룰 대상, 행위자 등에 대한 정보를 유지하고 업데이트하는 능력).

인간. 신경과학의 증거는 언어적 지식과 의미론적(세계) 지식 사이의 분리를 보여준다. 언어 결함이 있는 사람은 문법적인 발화를 생성하고 맥락에 적절한 단어를 인출하는 데 어려움을 겪을 수 있지만, 비언어적으로 제시된 사물과 사건에 대해 추론하는 능력은 종종 손상되지 않는다[42, 151]. 반면에 의미 치매(신경퇴행성 장애)를 앓고 있는 사람은 말하는 능력은 유지하지만 세계 지식에 의존하는 작업(예: 호박이 일반적으로 주황색이라는 것을 아는 것)에 어려움을 겪는데, 자극이 그림으로 비언어적으로 제시될 때에도 마찬가지이다[152]. 따라서 언어적 지식과 의미론적 지식은 분리될 수 있다.

LLM. LLM은 세계에 대한 방대한 지식에 접근할 수 있다: 웹상의 텍스트에서의 단어 동시 발생 패턴은 사실적 정보(예: 달에 첫 발을 디딘 사람이 누구인지)와 상식적 정보(예: 레몬의 맛) 모두를 포함한다[153]. 이 정보를 효과적으로 추출할 수 있다면, LLM은 즉시 사용 가능한 지식 베이스 역할을 할 수 있을 것이다[154]. 그러나 LLM 표현에 포함된 세계 지식에는 몇 가지 주요 단점이 있다.

첫째, LLM은 일상적으로 거짓 진술을 생성한다. 이는 비공식적으로 "환각"으로 알려져 있다. 이 발견은 놀랍지 않다: 그들의 훈련 목표는 그럴듯한 문장 연속을 생성하는 것이지, 주장의 근본적인 사실적 정확성을 참조하는 것이 아니다. 일부 개발자는 LLM이 주장을 뒷받침하는 출처에 대한 링크를 제공하도록 미세 조정했지만, 그러한 인용도 부정확할 수 있다[155].

둘째, LLM 출력은 종종 일관되지 않다: 서로 다른 방식으로 표현된 동일한 프롬프트가 서로 다른 응답을 이끌어낼 수 있다[156]. 또한 그들은 개입 정보(예: 전제와 결론 사이에 삽입된 무관한 주장)에 의해 "산만해질" 수 있다[92].

셋째, 상식적 지식은 언어 코퍼스에서 종종 과소 표현된다: 사람들은 일반적으로 알려진 사실보다는 새롭거나 특이한 정보를 전달할 가능성이 훨씬 더 높다[157]. 결과적으로 LLM은 상식 지식 벤치마크에서 어려움을 겪을 수 있는데[158], 특히 저수준 통계적 단서가 통제될 때 더욱 그렇다[9].

넷째, 명시적으로 언급된 사실적 지식은 접근하기는 쉽지만 유지하기는 어려워서 지속적인 업데이트가 필요하다. 예를 들어, "현재 미국 대통령은 누구인가?"라는 질문에 대한 답은 4년 또는 8년마다 바뀔 것이다. 인간은 단 한 문장으로 지식 표현을 업데이트할 수 있지만, LLM에서 세계 지식을 업데이트하는 것은 내부 매개변수에서 이 특정 지식 조각을 찾아 편집해야 하므로 사소하지 않은 작업이다[159]. 특히 이러한 편집은 이전의 현직 대통령이 이제 전직 대통령이 되었다는 것과 같은 일부 지식 조각에는 영향을 미치면서 다른 많은 사실은 그대로 두어야 하기 때문에 더욱 그렇다[160].

보다 인간과 유사한 세계 지식 표현 방식은 언어 표현/처리와 세계 지식 저장/업데이트를 분리할 필요가 있을 수 있다. 그러한 접근법이 존재하지만[예: 161], 일반적으로 기존 지식 베이스의 낮은 적용 범위로 인해 아직 주류가 되지는 못했다. 비록 정확한 세계 지식 주장을 위해 LLM에만 의존할 수는 없지만, 상세한 지식 베이스[162]와 상식 스키마[163]를 구축하기 위한 출발점으로 사용할 수는 있을 것이다.

세계 모델 2: 상황 추적

사람들은 여러 장이나 심지어 여러 권의 책에 걸친 이야기의 줄거리를 따라갈 수 있다. 우리는 또한 대화 후 몇 주 또는 몇 달이 지나도 많은 세부 사항을 기억할 수 있다. 우리는 언어 입력을 활용하여 실체, 그들 사이의 관계, 그리고 그들이 있었던 상태 또는 사건의 순서에 대한 정신 모델인 "상황 모델"을 만들어냄으로써 이러한 위업을 달성한다[164]. 인간의 언어망은 입력을 기반으로 상황 모델을 구축하는가? 그리고 LLM은 시간에 따라 상황 모델을 구축하고 업데이트하는 데 얼마나 능숙한가?

인간. 인간의 언어망은 절 수준 이상의 구조를 추적하지 않는 것으로 보인다[165, 166]. 대신, 더 긴 기간에 걸친 의미의 통합은 소위 디폴트 네트워크 내에서 이루어질 가능성이 높다[167]. 중요한 것은 디폴트 네트워크가 언어적 서술과 비언어적 서술 모두를 추적한다는 점이다[168]. 이는 상황 모델링이 언어에 한정된 기술이 아님을 나타낸다.

LLM. LLM의 상황 모델링은 두 가지 주요 과제에 직면한다: (1) 많은 문장에서 정보 추출하기; (2) 들어오는 입력을 통합하여 개체와 그 상태에 대한 정보를 적절히 업데이트하기.

첫 번째 문제는 현재 모델이 한 번에 처리할 수 있는 단어 수인 컨텍스트 창을 지속적으로 늘리는 방식으로 해결되고 있다. 이 접근법은 필연적으로 계산상의 어려움에 직면할 것이다: 책을 요약할 때, 책의 각 단어에 동시에 주의를 기울이는 모델은 매우 비효율적이다(하지만 이 문제를 극복하려는 시도에 대해서는 [169] 참조). 책의 각 장, 그리고 전체 책에 대한 요약을 생성하는 등 계층적 처리를 포함하는 것이 이 문제에 대한 인간과 유사한 해결책이 될 수 있다(관련 접근법은 [170, 171] 참조).

LLM이 문맥 창에 쉽게 맞는 더 짧은 텍스트 범위에서 작동할 때에도, 질문은 다음과 같다: 그들은 내부 표현을 업데이트하여 세계의 변화를 추적할 수 있는가? 일부 증거는 그들이 할 수 있다고 제안하지만[172], LLM은 상황 모델링과 관련하여 특징적으로 인간과 다른 실수를 한다. 예를 들어, 그들의 출력은 존재하지 않는 담화 개체를 참조할 수 있다("아서는 개를 소유하고 있지 않다. 그 개는 갈색이다."[173]). 따라서 더 짧은 텍스트 범위에 걸쳐 견고한 상황 모델 구축이 LLM 전용 아키텍처를 사용하여 가능한지 여부는 여전히 논쟁의 여지가 있다.

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=449658&page=1

채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (2) - 특이점이 온다 마이너 갤러리

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=449641&page=1사회적 추론

gall.dcinside.com

번호	말머리	제목	글쓴이	작성일	조회	추천
2853	설문	연인과 헤어지고 뒤끝 작렬할 것 같은 스타는?	운영자	24/04/22	-	-
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2773]	*특갤용*	23.08.06	35859	41
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1]	*부패하는유전자!!!*	24.03.06	1524	2
363220	공지	선형글 삭제 기준 [6]	*특갤용*	23.10.14	6045	24
412470	공지	레이 커즈와일 신간 6월 25일 발매 [15]	모브	24.01.24	4838	28
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [39]	ㅇㅇ(182.230)	23.11.11	11692	120
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [50]	*특갤용*	23.11.07	7848	79
385147	공지	구글의 AGI 분류 체계 [15]	ㅇㅇ	23.11.22	6878	30
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	7969	29
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	20863	33
460158	일반	특이점 이새낀 노안 탈모 이런거 못고침? [1]	ㅇㅇ(223.38)	22:02	10	0
460157	AI창 AI창작	애니 챗봇 만들어봤는데 ㄱㅊ? [2]	oo(203.249)	21:58	36	0
460156	일반	바이든 창설 AI 안보위는 전유물스럽네	ㅇㅇ(112.144)	21:58	31	1
460155	일반	나도 한 명 저격한다	ㅇㅇ(121.151)	21:56	32	1
460153	일반	라마 무검열 모델 이거 사용법 뭐니? [2]	ㅇㅇ(185.225)	21:51	33	0
460151	일반	agi 빨리 안만들면 진짜 지구 망한다고 [4]	ㅇㅇ(118.33)	21:43	79	0
460150	일반	야 한명 저격함) [1]	ㅇㅇ(59.11)	21:43	77	2
460149	일반	소라 과대광고라는데 [13]	ㅇㅇ(117.111)	21:38	158	0
460148	일반	작년 이맘때에는 올해 이맘때면 기술발전 미칠거라 생각했는데 [2]	ㅇㅇ(223.40)	21:35	88	1
460147	일반	화물차는 빨리 대체하는게 맞다 [2]	ㅇㅇ(117.111)	21:35	54	0
460146	일반	진짜로 나중에 남자 여자 구분 없어지겠다 [13]	ㅇㅇ(117.20)	21:28	164	0
460145	일반	저장장치에 대한 논의도 진행되고 있나 [2]	ㅇㅇ	21:19	88	0
460144	일반	설탕이랑 맛 개똒같으면서 제로칼로리인 인공감미료 나옴 좋겟다 [2]	ㅇㅇ(222.103)	21:11	115	0
460142	일반	인간뇌를 병렬연결하면 그게agi아닐까 [4]	ㅇㅇ(133.200)	20:51	111	0
460141	일반	위키퍼거아 ai aftermath scenarios ㅇㅅㅇ	ㅇㅇ(122.36)	20:46	43	0
460140	일반	난 크라운치료하면서 과학에 감사하게됨 [6]	떼껄룩해적단	20:29	245	1
460139	일반	클린 념글 보는 법 [5]	SMN	20:28	231	9
460138	역노화	항노화까지만 나와도 엄청 긍정적일듯	ㅇㅇ(39.121)	20:13	62	1
460137	일반	십년후 안드로이드가 일상화 되면 [1]	ㅇㅇ(112.161)	20:12	116	1
460136	일반	내년까지 외계붕이 발견 가능 [3]	ㅇㅇ(125.191)	20:09	198	0
460135	일반	리드 호프먼 vs ai 호프먼	ㅇㅇ(116.120)	20:00	43	1
460134	일반	AI하고 매일 대화하니까 사람하고 톡할때 이상해짐 [7]	ㅇㅇ(103.50)	19:53	205	0
460133	일반	가장 살아보고 싶은 시대가 언제냐 [23]	ㅇㅇ(114.207)	19:36	334	3
460132	일반	그래서 agi 5년 안에 가능? [3]	ㅇㅇ(118.218)	19:32	202	0
460129	일반	특이점을 부정하는 사람은 저지능자인 것으로 밝혀져...	ㅇㅇ(1.239)	19:26	102	1
460127	일반	제로 아스크림 특이점이노 [5]	ㅇㅇ(119.77)	19:24	172	1
460126	일반	인공지능 블랙박스 문제말인데 [3]	ㅇㅇ(61.80)	19:24	77	0
460125	일반	중국 vidu 영상ai보니까 gpt5+sora동시출시 가능함 [3]	ㅇㅇ(183.105)	19:02	278	2
460121	일반	Ai는 한계 있습니다. [1]	마음(222.103)	18:29	212	2
460119	일반	이거 헌터시험에 나온질문임 [8]	ㅇㅇ(59.11)	18:18	221	1
460118	일반	샘알트만 실제만난사람들이 gpt5 내년에 내놓는다고 함 [4]	ㅇㅇ(210.91)	18:06	446	8
460117	일반	훗날 완몰가 트랜스휴먼 이런거 경험한 세대가 지금 시대 바라보면 [3]	ㅇㅇ(1.229)	18:00	160	0
460115	일반	특갤십새기들아ㅠㅠㅠ [5]	ㅇㅇ(59.11)	17:52	195	2
460114	일반	안구에 파파고 박아버리고 싶네 [5]	ㅇㅇ(112.146)	17:47	250	2
460112	일반	ㅌㅇㅈ ㅈㅂ 190ㅇㅊ [4]	포스트휴먼.	17:37	119	2
460111	일반	렙틸리언 게임 [5]	떼껄룩해적단	17:36	182	1
460110	일반	특이점이 올수밖에 없는 이유...	ㅇㅇ(49.170)	17:33	82	2
460109	일반	왜 자꾸 국내연구진에 그 돌 언급하는거냐 [4]	ㅇㅇ(220.87)	17:32	221	5
460108	일반	갤순이 오름 [1]	ㅇㅇ(59.11)	17:29	95	0
460107	일반	머스크, 저커버그 제치고 다시 '세계 3위 부자' [2]	니지카엘	17:28	251	1
460105	일반	에너지 문제는 이거 좀 기대되더랑. [4]	ㅇㅇ	17:15	159	0

갤러리 검색

최근 방문

즐겨찾기

즐겨찾기 갤러리

특이점이 온다 갤러리
마이너

머리말∙꼬리말

머리말∙꼬리말

색상 설정

스포일러 경고 설정

제목에서 경고

본문에서 경고

마이너 갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

마이너 갤러리 소개

차단하기

[특이점이 온다 갤러리]

갤러리 본문 영역

[정보] 채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (1)

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

실시간 베스트

뉴스

디시미디어

디시이슈

개념글[도시]

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결