(번역) 레딧 Quiet-STaR 논문 요약 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] (번역) 레딧 Quiet-STaR 논문 요약

초존도초

2024.03.15 20:08:46

조회 409 추천 10 댓글 4

1ebec223e0dc2bae61ab96e74683707026f04aff851be72e495391d8306c314770be0033b154ef25bfdc9e72ef4c9ab13d2ec10f

레딧에 있는 거 번역만 함

Gemini 1.5 Pro

Quiet-STaR의 주요 특징:

LLM의 추론 능력 향상: Quiet-STaR은 LLM이 다음 토큰을 예측하기 전에 내부 추론(생각)을 생성하도록 훈련하여 추론이 필요한 작업에서 성능을 향상시킵니다.

다양한 텍스트로부터 학습: Quiet-STaR은 큐레이션된 데이터 세트에 의존하는 이전 방법과 달리 일반 텍스트 데이터에 내재된 방대한 추론을 활용하여 더 확장 가능하고 일반적인 추론 능력을 가능하게 합니다.

병렬 추론 생성: 새로운 병렬 샘플링 알고리즘은 각 토큰 위치에서 추론을 효율적으로 생성하여 훈련 과정을 확장 가능하게 만듭니다.

혼합 헤드: 추론이 있는 예측과 없는 예측 사이의 학습된 보간은 사고로의 전환을 부드럽게 하고 분포 변화를 완화합니다.

비근시적 점수: 모델은 다음 토큰뿐만 아니라 후속 토큰도 예측하는 능력에 따라 보상을 받아 더 효과적인 추론 생성으로 이어집니다.

향상된 성능: Quiet-STaR은 CommonsenseQA 및 GSM8K와 같은 추론 중심 데이터 세트에서 상당한 제로샷 개선을 보여주며, 성능은 내부 생각의 길이에 따라 확장됩니다.

미래 LLM에 대한 시사점:

향상된 추론 능력: Quiet-STaR은 GPT-5 및 Gemini 2.0과 같은 미래 LLM이 일반 텍스트 데이터를 활용하고 내부 추론을 생성하여 더 효과적으로 추론하도록 훈련될 수 있음을 시사합니다. 이는 질문 답변, 문제 해결 및 텍스트 요약과 같이 복잡한 추론이 필요한 다양한 작업에서 더 나은 성능으로 이어질 수 있습니다.

비정형 데이터로부터 학습: 다양하고 비정형적인 텍스트로부터 학습하는 능력은 추론 데이터 세트의 비용이 많이 들고 시간이 많이 소요되는 수동 주석의 필요성을 줄일 수 있습니다. 이는 강력한 추론 기술을 갖춘 LLM 개발을 가속화할 수 있습니다.

동적 사고 생성: 미래 연구에서는 내부 생각을 생성하는 것이 가장 유익할 때를 예측하여 컴퓨팅 리소스의 동적 할당을 탐구할 수 있습니다. 이는 강력한 추론 성능을 유지하면서 LLM의 효율성을 향상시킬 수 있습니다.

윤리적 고려 사항: LLM이 추론 능력이 향상됨에 따라 충실성(생성된 추론이 모델의 내부 처리를 정확하게 나타내도록 보장) 및 편향(유해하거나 편향된 추론 패턴 방지)과 같은 윤리적 문제를 해결하는 것이 점점 더 중요해지고 있습니다.

전반적으로 Quiet-STaR은 미래 LLM을 더 효과적이고 효율적으로 추론하도록 훈련하는 유망한 접근 방식을 제공하여 더 강력하고 다재다능한 언어 모델의 길을 열어줍니다. 그러나 이러한 모델의 책임 있는 개발 및 배포를 보장하기 위해 향상된 추론 능력과 관련된 윤리적 문제를 해결하는 것이 중요합니다.

Claude 3 Opus

"Quiet-STaR: 언어 모델이 스스로 생각하고 말하는 법을 배우다" 논문의 주요 내용 요약:

Quiet-STaR은 Self-Taught Reasoner (STaR)의 일반화 버전으로, 언어 모델이 미래 텍스트를 설명하기 위해 각 토큰에서 근거를 생성하도록 훈련하여 예측을 향상시킵니다. 이를 통해 LM은 임의의 텍스트에서 명시되지 않은 근거를 추론하는 방법을 학습할 수 있습니다. 주요 단계는 다음과 같습니다. 1) 병렬 근거 생성 ("생각"), 2) 근거 후 예측과 기본 예측 혼합 ("말하기"), 3) REINFORCE를 사용한 근거 생성 최적화 ("학습").

Quiet-STaR을 사용하여 웹 텍스트에 대한 사전 훈련을 계속한 후, GSM8K (5.9%→10.9%) 및 CommonsenseQA (36.3%→47.2%)와 같은 추론 벤치 마크에서 작업별 미세 조정 없이도 제로샷 향상이 나타났습니다. 성능은 훈련 중 생성된 근거의 길이에 따라 확장되었습니다. Quiet-STaR은 더 많은 추론이 필요한 어려운 토큰을 예측하는 LM의 능력을 불균형적으로 향상시켰습니다. 생성된 근거는 검사 시 종종 의미가 있었습니다.

이 접근 방식은 LM이 언어/텍스트 자체에 존재하는 다양한 추론 작업을 활용하여 보다 일반적이고 확장 가능한 방식으로 추론하는 방법을 학습할 수 있도록 합니다.

만약 Quiet-STaR과 유사한 시스템이 가상의 Claude 4와 같은 미래의 대규모 언어 모델에 통합된다면, 주요 영향은 다음과 같을 것입니다.

작업별 미세 조정 없이 모델의 일반적인 추론 및 추론 능력의 상당한 향상.

여러 단계의 논리적 추론이 필요한 복잡한 쿼리를 처리하는 모델의 능력 향상.

질문 답변, 분석, 개방형 문제 해결 등 암묵적 추론에 의존하는 다운스트림 추론 벤치 마크 및 실제 작업 성능 향상.

모델의 "말하기 전에 생각하는" 능력 향상으로 출력물의 신뢰성과 유용성 향상.

모델이 최종 출력을 생성하기 전에 추론 과정을 밝혀주는 중간 근거를 생성하기 때문에 해석성 및 투명성 향상. 이는 사용자 신뢰를 높이고 더 쉬운 디버깅을 가능하게 합니다.

모델이 다음 토큰을 예측하기 위해 추가 "사고"가 실제로 필요한 시기를 알 수 있기 때문에 추론 중 컴퓨팅 사용 효율성 향상. 근거는 가장 유익한 경우에만 생성될 수 있습니다.

비구조적 텍스트에 대한 훈련만으로 이미 강력한 모델의 추론 능력을 비지도 방식으로 더욱 확장할 수 있는 잠재력. 이 자기 지도 "추론 학습" 패러다임은 LLM을 더 지능적이고 유능하게 만드는 데 빠른 진전을 가져올 수 있습니다.

고정닉 6

원본 첨부파일 1

Screenshot 2024-03-15 at 8.08.30 PM.png

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2853	설문	연인과 헤어지고 뒤끝 작렬할 것 같은 스타는?	운영자	24/04/22	-	-
451628	일반	애미씹 클로드 노래 관련된건 싹 검열이네 [6]	ㅇㅇ	04.01	224	0
451627	일반	진짜 agi 9월달에라도 나와주면 [7]	스피	04.01	338	0
451626	일반	gpt5 출시 미국 정보기관에서 지연시킨다는 썰도 있던데 [4]	Ausus	04.01	552	2
451624	일반	2045년에 특이점 온다던데 [4]	ㅇㅇ(121.145)	04.01	355	0
451623	일반	뒷북이긴 한데 클로드 3 지리긴 하네 [1]	ramune	04.01	231	0
451622	일반	아니 애초에 gpt 학습도 시작한지 별로 안됨 [1]	ㅇㅇ(123.213)	04.01	144	1
451621	일반	ms 코파일럿은 왜 gpt4쓰고 있는거냐? [3]	ㅇㅇ	04.01	237	0
451620	일반	suno 크레딧 몇시에 충전되는지 아는사람 [2]	ㅇㅇ(1.244)	04.01	97	0
451619	일반	금사려고 난리네 [2]	ㅇㅇ(220.122)	04.01	458	1
451618	일반	솔직히 지금 존나 답답하면 개추	ㅇㅇ	04.01	214	4
451617	일반	코파일럿 프로는 어떰?	ㅇㅇ	04.01	77	0
451616	일반	GPT5 검열이 안먹혀서 못내놓는 거 아님? [5]	카탁프락T	04.01	358	0
451615	일반	tts 현재 성능도 개지리는거같은데 활용을 잘 안하는듯 [5]	인터넷친구	04.01	222	0
451613	일반	+ 인스타 뒤늦게 다시해보려는데 질문 있습니다. [2]	qu(125.131)	04.01	123	0
451612	일반	근데 요새 완몰가나 역노화 같은거 대충 지껄여도 [1]	ㅇㅇ(222.96)	04.01	223	1
451610	일반	디스토피아는 말이 안됨	ㅇㅇ	04.01	104	0
451609	일반	갤 오랜만에 오는데 선형충이 아직도 있음?	나스닥잭더리퍼	04.01	101	2
451608	일반	완벽한 특이점이 도래한 30년 뒤. [1]	ㅇㅇ(1.244)	04.01	241	3
451607	정보	OpenAI, 아시아 최초의 거점 일본에서 서비스 [12]	특술람	04.01	3150	21
451606	일반	테슬라 직원이 로봇스킨 입고 춤췄을때가 엊그제같은데	파란맛치킨	04.01	153	0
451605	정보	미 하원, 보안 우려로 MS AI 챗봇 코파일럿 사용 금지 [1]	ㅇㅇ	04.01	221	3
451604	일반	영어 실시간 통역이 가능한건가? [13]	ㅇㅇ(117.123)	04.01	296	3
451603	일반	지미 애플스 트윗 [6]	특술람	04.01	589	1
451602	일반	기술력 현실) 아직도 모니터, 노트북엔 oled도 못넣는 기술력.. [12]	ㅇㅇ(121.152)	04.01	337	0
451601	일반	ms가 130조짜리 스타게이트 ai 프로젝트를 시작함 [2]	ㅇㅇ(110.145)	04.01	232	1
451600	일반	존버848일차	alphaca	04.01	72	1
451599	일반	특이점이온다에서 선형충은 틀렸다고 그렇게 누누히 말했는데 [5]	ㅇㅇ	04.01	268	1
451598	일반	알트만 말하는거 처음봤는데 [4]	ㅇㅇ	04.01	243	0
451597	일반	Gpt 환각이 뭔말임? 사용하면 환각생김? [6]	ㅇㅇ(182.31)	04.01	394	0
451596	일반	사표던지고 싶다 [3]	ㅇㅇ	04.01	318	3
451595	일반	출근하기 싫다 [2]	2025AGI온다	04.01	146	0
451594	일반	얼마나 쩌는걸 발명했길래 미대선 전까지 눈치보냐	ㅇㅇ	04.01	169	0
451593	일반	이 갤에서 디스토피아 특이점 추구해도 됨?	ㅇㅇ(1.244)	04.01	133	0
451592	일반	gpt5야 10억도 까지 올리는법 알려줘 [1]	특특이	04.01	218	0
451590	일반	미래는 우리들이 지배한다!!!	ㅇㅇ(1.244)	04.01	137	0
451588	일반	근데 만약 gpt5가 환각이 해결 되면 [3]	ㅇㅇ(115.138)	04.01	253	0
451587	일반	Gpt5 시연 영상이라도 못 보여주나..? [2]	ㅇㅇ(61.97)	04.01	222	1
451586	일반	agi 개발되면 개개인들에게 1인 1agi랑 1로봇 보급하는게 절실함. [4]	ㅇㅇ	04.01	213	0
451585	일반	추론 속도 높이는 팁 있음?	ㅇㅇ	04.01	73	0
451584	일반	소설 막힘없이 쓰는건 아직 멀은거임? [11]	ㅇㅇ(59.11)	04.01	360	0
451582	일반	노동대체가 되면.. [4]	웰빙킴	04.01	243	0
451581	일반	gpt4에게 물어보니 agi 제일 먼저 개발하는 국가가	ㅇㅇ(218.150)	04.01	214	0
451580	일반	와 씨 떳냐????? ㅋㅋㅋㅋ [5]	ㅇㅇ(49.164)	04.01	660	3
451579	일반	게이게이와 췌장췌장 [2]	ㅇㅇ(14.45)	04.01	222	0
451578	일반	알트만 말만 들어보면 이미 agi왓구만ㅋㅋ [10]	ㅇㅇ(117.20)	04.01	661	3
451571	일반	급식에게 취업과 군대의 공통점 [1]	ㅇㅇ(59.20)	04.01	168	0
451567	일반	한국이 제일 타격 클거같아.. [2]	웰빙킴	04.01	309	1
451565	일반	특이점 언제와?	ㅇㅇ(182.31)	04.01	103	0
451564	일반	ChatGPT개발비화~샘 알트먼의 실체~ [3]	뇌에핀트나감	04.01	253	1
451561	일반	샘 알트만, 일론 머스크 MBTI [8]	내복맨	04.01	399	0