디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] (번역) 레딧 Quiet-STaR 논문 요약

초존도초갤로그로 이동합니다. 2024.03.15 20:08:46
조회 430 추천 10 댓글 4
														


1ebec223e0dc2bae61ab96e74683707026f04aff851be72e495391d8306c314770be0033b154ef25bfdc9e72ef4c9ab13d2ec10f



레딧에 있는 거 번역만 함






Gemini 1.5 Pro


Quiet-STaR의 주요 특징:


LLM의 추론 능력 향상: Quiet-STaR은 LLM이 다음 토큰을 예측하기 전에 내부 추론(생각)을 생성하도록 훈련하여 추론이 필요한 작업에서 성능을 향상시킵니다.

다양한 텍스트로부터 학습: Quiet-STaR은 큐레이션된 데이터 세트에 의존하는 이전 방법과 달리 일반 텍스트 데이터에 내재된 방대한 추론을 활용하여 더 확장 가능하고 일반적인 추론 능력을 가능하게 합니다.

병렬 추론 생성: 새로운 병렬 샘플링 알고리즘은 각 토큰 위치에서 추론을 효율적으로 생성하여 훈련 과정을 확장 가능하게 만듭니다.

혼합 헤드: 추론이 있는 예측과 없는 예측 사이의 학습된 보간은 사고로의 전환을 부드럽게 하고 분포 변화를 완화합니다.

비근시적 점수: 모델은 다음 토큰뿐만 아니라 후속 토큰도 예측하는 능력에 따라 보상을 받아 더 효과적인 추론 생성으로 이어집니다.

향상된 성능: Quiet-STaR은 CommonsenseQA 및 GSM8K와 같은 추론 중심 데이터 세트에서 상당한 제로샷 개선을 보여주며, 성능은 내부 생각의 길이에 따라 확장됩니다.


미래 LLM에 대한 시사점:


향상된 추론 능력: Quiet-STaR은 GPT-5 및 Gemini 2.0과 같은 미래 LLM이 일반 텍스트 데이터를 활용하고 내부 추론을 생성하여 더 효과적으로 추론하도록 훈련될 수 있음을 시사합니다. 이는 질문 답변, 문제 해결 및 텍스트 요약과 같이 복잡한 추론이 필요한 다양한 작업에서 더 나은 성능으로 이어질 수 있습니다.

비정형 데이터로부터 학습: 다양하고 비정형적인 텍스트로부터 학습하는 능력은 추론 데이터 세트의 비용이 많이 들고 시간이 많이 소요되는 수동 주석의 필요성을 줄일 수 있습니다. 이는 강력한 추론 기술을 갖춘 LLM 개발을 가속화할 수 있습니다.

동적 사고 생성: 미래 연구에서는 내부 생각을 생성하는 것이 가장 유익할 때를 예측하여 컴퓨팅 리소스의 동적 할당을 탐구할 수 있습니다. 이는 강력한 추론 성능을 유지하면서 LLM의 효율성을 향상시킬 수 있습니다.

윤리적 고려 사항: LLM이 추론 능력이 향상됨에 따라 충실성(생성된 추론이 모델의 내부 처리를 정확하게 나타내도록 보장) 및 편향(유해하거나 편향된 추론 패턴 방지)과 같은 윤리적 문제를 해결하는 것이 점점 더 중요해지고 있습니다.

전반적으로 Quiet-STaR은 미래 LLM을 더 효과적이고 효율적으로 추론하도록 훈련하는 유망한 접근 방식을 제공하여 더 강력하고 다재다능한 언어 모델의 길을 열어줍니다. 그러나 이러한 모델의 책임 있는 개발 및 배포를 보장하기 위해 향상된 추론 능력과 관련된 윤리적 문제를 해결하는 것이 중요합니다.



Claude 3 Opus


"Quiet-STaR: 언어 모델이 스스로 생각하고 말하는 법을 배우다" 논문의 주요 내용 요약:


Quiet-STaR은 Self-Taught Reasoner (STaR)의 일반화 버전으로, 언어 모델이 미래 텍스트를 설명하기 위해 각 토큰에서 근거를 생성하도록 훈련하여 예측을 향상시킵니다. 이를 통해 LM은 임의의 텍스트에서 명시되지 않은 근거를 추론하는 방법을 학습할 수 있습니다. 주요 단계는 다음과 같습니다. 1) 병렬 근거 생성 ("생각"), 2) 근거 후 예측과 기본 예측 혼합 ("말하기"), 3) REINFORCE를 사용한 근거 생성 최적화 ("학습").


Quiet-STaR을 사용하여 웹 텍스트에 대한 사전 훈련을 계속한 후, GSM8K (5.9%→10.9%) 및 CommonsenseQA (36.3%→47.2%)와 같은 추론 벤치 마크에서 작업별 미세 조정 없이도 제로샷 향상이 나타났습니다. 성능은 훈련 중 생성된 근거의 길이에 따라 확장되었습니다. Quiet-STaR은 더 많은 추론이 필요한 어려운 토큰을 예측하는 LM의 능력을 불균형적으로 향상시켰습니다. 생성된 근거는 검사 시 종종 의미가 있었습니다.


이 접근 방식은 LM이 언어/텍스트 자체에 존재하는 다양한 추론 작업을 활용하여 보다 일반적이고 확장 가능한 방식으로 추론하는 방법을 학습할 수 있도록 합니다.

만약 Quiet-STaR과 유사한 시스템이 가상의 Claude 4와 같은 미래의 대규모 언어 모델에 통합된다면, 주요 영향은 다음과 같을 것입니다.


작업별 미세 조정 없이 모델의 일반적인 추론 및 추론 능력의 상당한 향상.

여러 단계의 논리적 추론이 필요한 복잡한 쿼리를 처리하는 모델의 능력 향상.

질문 답변, 분석, 개방형 문제 해결 등 암묵적 추론에 의존하는 다운스트림 추론 벤치 마크 및 실제 작업 성능 향상.

모델의 "말하기 전에 생각하는" 능력 향상으로 출력물의 신뢰성과 유용성 향상.


모델이 최종 출력을 생성하기 전에 추론 과정을 밝혀주는 중간 근거를 생성하기 때문에 해석성 및 투명성 향상. 이는 사용자 신뢰를 높이고 더 쉬운 디버깅을 가능하게 합니다.

모델이 다음 토큰을 예측하기 위해 추가 "사고"가 실제로 필요한 시기를 알 수 있기 때문에 추론 중 컴퓨팅 사용 효율성 향상. 근거는 가장 유익한 경우에만 생성될 수 있습니다.

비구조적 텍스트에 대한 훈련만으로 이미 강력한 모델의 추론 능력을 비지도 방식으로 더욱 확장할 수 있는 잠재력. 이 자기 지도 "추론 학습" 패러다임은 LLM을 더 지능적이고 유능하게 만드는 데 빠른 진전을 가져올 수 있습니다.




자동등록방지

추천 비추천

10

고정닉 6

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2858 설문 SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는? 운영자 24/05/06 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [26] 모브갤로그로 이동합니다. 24.01.24 5459 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2831] 특갤용갤로그로 이동합니다. 23.08.06 36875 41
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 1802 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6379 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12100 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8132 79
385147 공지 구글의 AGI 분류 체계 [16] ㅇㅇ갤로그로 이동합니다. 23.11.22 7280 30
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8293 29
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 21555 33
465007 일반 also는 너무 간결하게 답변하는게 별로야 [1] 은바다갤로그로 이동합니다. 03:18 11 0
465006 일반 Gpt2 이새끼 시를 걍 잘 쓰네 ㅇㅇ(110.70) 03:12 22 1
465005 일반 also 나와서 기분 좋은 특붕이면 개추 ㅋㅋㅋ [1] ㅇㅇ(1.239) 03:11 47 5
465004 일반 선형충 비웃는글이 념글갔네 이제 [2] ㅇㅇ(123.214) 03:02 79 0
465003 일반 also 쓰려면 a모델이랑 b모델 싸움붙이라는건 알겠는데 [3] ㅇㅇ갤로그로 이동합니다. 02:41 77 0
465002 일반 also 이거는 며칠동안 오픈해줄까? [7] ㅇㅇ­갤로그로 이동합니다. 02:33 114 0
465001 일반 항공기 파일럿도 대체될거라고 봄? [10] ㅇㅇ(101.235) 02:24 200 1
465000 일반 자율 에이전트란 물건이 움직이는 게 대중에게 공개된 적 있음? [2] ㅇㅇ(112.158) 02:11 99 0
464999 일반 알파폴드로 알 수 있는것 ㅇㅇ(61.75) 02:10 116 1
464998 일반 제미니 개발자가 데빈 썼는데 성능 괜찮나봄 [2] ㅇㅇ(211.59) 02:06 136 1
464997 AI창 also 한국어 맞춤법 규범 띄어쓰기 테스트 [1] ㅇㅇ­갤로그로 이동합니다. 02:04 74 0
464996 일반 코딩의 진입장벽이 낮아지면서 아이디어가 더 중요해짐 [22] ㅇㅇ(221.113) 01:59 259 1
464995 일반 also한테 누구냐고 물으면 gpt4라고 답하네 ㅇㅇ갤로그로 이동합니다. 01:57 43 0
464994 일반 요새 여러 커뮤니티 보면 기술의 발전이 없는걸 전제로만 미래를 말하더라 [4] ㅇㅇ갤로그로 이동합니다. 01:57 109 0
464992 일반 자동 창문 [1] 자애갤로그로 이동합니다. 01:51 82 0
464991 일반 OAI COO잘생겼노 [2] ㅇㅇ(114.202) 01:49 158 3
464990 일반 마이너한 역사 환각 문제라니깐 이거 생각나 [2] ㅇㅇ갤로그로 이동합니다. 01:41 73 0
464989 일반 알파폴드가 시장성은 더 좋겠네 ㅇㅇ(175.192) 01:40 47 0
464988 일반 어떤놈이 also로 레퍼런스 찾았다는데 개구라네 ㅇㅇ(112.161) 01:37 69 0
464987 일반 also한테 진짜 마이너한 역사 같은 거 물으면 어떻게 답해줌? [6] ㅇㅇ(112.158) 01:36 95 0
464986 일반 눈팅만 해보다가 also 써보니까 좋긴하네 indie갤로그로 이동합니다. 01:36 61 0
464985 일반 근데 GPT 쓴다고 코딩이 만능이 아님 [8] ㅇㅇ(221.113) 01:32 208 1
464983 역노화 노인에 ‘젊은 피’ 수혈, 정말 회춘 효과 있을까...실험 결과 보니 [4] ㅇㅇ갤로그로 이동합니다. 01:29 137 0
464982 일반 also 아스키아트 변환 프로그램 [6] ㅇㅇ갤로그로 이동합니다. 01:28 132 0
464981 일반 also수학도 더잘하네 맞추네 [4] ㅇㅇ(149.88) 01:26 136 0
464979 일반 모델 한두개는 더줄지도 모르겠다 ㅇㅇ갤로그로 이동합니다. 01:17 54 0
464977 일반 챗지피티로 여러가지 공부해볼려고 하는데 [3] ㅇㅇ(1.251) 01:07 59 0
464976 일반 Also 4.5정도는 되는 거임? [3] ㅇㅇ(110.46) 01:04 150 0
464975 일반 gpt5는 모든 프로그램을 즉석으로 짜줄수있을까 [6] ㅇㅇ(39.124) 01:02 167 0
464974 일반 기술 발전 속도가 진짜 ㅈ되긴 하네 [2] ㅇㅇ(124.63) 01:01 199 0
464972 정보 미국, 향후 출시 될 AI 제품에 대한 중국 접근 제한검토 ㅇㅇ(59.17) 00:58 71 2
464971 일반 념글 ai 신약 개발 연구 ㅇㅇ(175.215) 00:56 66 2
464970 일반 also로 핑퐁게임 만들었는데 좀 놀라운점 [5] ㅇㅇ갤로그로 이동합니다. 00:55 226 2
464969 일반 also가 그렇게 코딩을 잘하면 이것좀 만들어주셈 [5] ㅇㅇ(59.17) 00:51 139 0
464968 일반 빌라사는데 인터넷 질문좀 [18] 비타민사이다갤로그로 이동합니다. 00:50 128 0
464967 일반 Also는 리더보드에 없음? ㅇㅇ(58.29) 00:47 28 0
464966 일반 5나오면 내 머릿속에있는게임 다 만들거야 [2] ㅇㅇ(39.124) 00:46 114 0
464965 일반 also gpt2 체감상 환각도 없고 데이터도 최신기반 인듯????? [1] 특스타갤로그로 이동합니다. 00:44 97 0
464964 일반 also 언제쯤 편하게 쓸수있어? [14] 비타민사이다갤로그로 이동합니다. 00:44 176 0
464963 일반 also로 반응이 이정도인데 [2] 람냥갤로그로 이동합니다. 00:38 147 0
464962 일반 also 쓰니까 내 시간이 존나 부정당하는 기분이다 [9] lightvector갤로그로 이동합니다. 00:36 328 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2