디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 특붕이가 물어본거 내가 물어봄앱에서 작성

ㅇㅇ­갤로그로 이동합니다. 2024.03.16 00:45:18
조회 238 추천 6 댓글 7
														

Q : 논문에서, 정확한 예측인지 아닌지는 어떻게 아는거지 보상을 주는 기준이 뭐야?

A : 좋은 질문이에요. 논문에서 제안한 Quiet-STaR 방법은 생각(thought)이 이후 텍스트를 얼마나 잘 예측하는지에 따라 보상을 줍니다. 

구체적으로, 모델이 생각을 생성한 후 실제 텍스트와 비교하여 그 생각이 얼마나 텍스트 예측에 도움이 되었는지를 평가합니다. 이를 위해 모델은 생각을 했을 때와 하지 않았을 때의 텍스트 예측 정확도를 비교하는데, 이때 정확도는 실제 텍스트의 토큰(단어 또는 subword)에 대한 log likelihood로 측정됩니다.

만약 어떤 생각이 텍스트 예측 정확도를 높인다면, 즉 실제 텍스트의 log likelihood를 증가시킨다면, 그 생각은 "좋은" 생각으로 여겨지고 양의 보상을 받게 됩니다. 반면에 생각이 오히려 정확도를 낮추면 음의 보상을 받습니다. 

이러한 보상을 바탕으로 REINFORCE 알고리즘을 사용하여 모델의 파라미터를 업데이트함으로써, 모델은 점점 더 나은 생각을 생성하도록 학습하게 됩니다. 즉, 실제 이후 텍스트를 잘 예측하는 데 도움이 되는 생각들의 등장 확률이 높아지게 되는 거죠.

이 과정을 반복하면서 모델은 텍스트의 숨겨진 의미나 중요한 맥락을 파악하고 이를 바탕으로 이후 내용을 예측하는 능력을 기를 수 있게 됩니다. 결과적으로는 추론이나 질의응답 등의 태스크에서 사전 학습 없이도 제법 좋은 성능을 보일 수 있다고 합니다.


log likelihood
자동등록방지

추천 비추천

6

고정닉 3

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2860 설문 경제관념 부족해서 돈 막 쓸 것 같은 스타는? 운영자 24/05/13 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [28] 모브갤로그로 이동합니다. 24.01.24 6759 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2907] 특갤용갤로그로 이동합니다. 23.08.06 37895 41
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2154 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6804 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12740 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8506 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 7850 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8728 29
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22199 33
476760 일반 오픈 ai에서는 알파폴드같은거 안내나? ㅇㅇ(111.91) 04:55 3 0
476759 정보 Jan Leike의 마지막 트윗... [1] ㅇㅇ(119.77) 04:54 13 0
476758 일반 오픈ai가 한국에도 기술 공유 안하는 이상 ㅇㅇ(113.61) 04:54 4 0
476757 일반 이거 소름 돋네 ㅋㅋ 연맛갤로그로 이동합니다. 04:51 26 0
476756 일반 한국형 캐릭AI챗봇도 있네 ㅇㅇ(106.101) 04:50 6 0
476755 일반 알트만 "긁" 당한거 아님?ㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(220.123) 04:49 25 1
476754 일반 난 특갤러들이 원하는 꿈은 약AI로도 다 가능하다고 봄 [4] ㅇㅇ(218.39) 04:39 52 0
476753 일반 기밀유지서약 있다고만 말해도 위반 [3] ㅇㅇ(119.77) 04:38 78 1
476752 일반 뭐임 결국 내 승리임?? [1] agi2024갤로그로 이동합니다. 04:36 55 0
476751 일반 Meta 연구원, 일론 머스크 등 일제히 OpenAI 비판 [8] 모브갤로그로 이동합니다. 04:33 117 0
476750 정보 ChatGPT는 말할 수 있지만, OAI 직원은 말을 못합니다. [3] ㅇㅇ(119.77) 04:27 116 8
476749 일반 agi가 우리에게 줄 수 있는 것 [4] ㅇㅇ갤로그로 이동합니다. 04:25 57 2
476748 일반 ㄹㅇ 알트만 인터뷰랑 정렬팀 해고 너무 다르지않냐? ㅇㅇ갤로그로 이동합니다. 04:25 62 1
476747 일반 4o 조오오온나 빠르긴하다 안녕하쇼갤로그로 이동합니다. 04:25 31 0
476746 일반 좀 무섭긴 하네 ㅇㅇ갤로그로 이동합니다. 04:24 39 0
476745 일반 걍 정렬팀은 영화를 너무 많이 봤음 ㅋㅋ [4] ㅇㅇ(211.179) 04:22 99 1
476744 일반 요즘 ai로 검색하는게 더 편한느낌 [3] 섹보갤로그로 이동합니다. 04:20 51 0
476743 일반 라마3 8b가 경량화 대단하긴하네 [1] ㅇㅇ(1.247) 04:18 51 0
476742 일반 그 아이피 ㅇㅇ(110.46) 04:17 46 0
476741 일반 달려야지 ㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 04:15 47 0
476740 일반 저 트윗 전혀 심각하지 않다 ㅇㅇ(211.46) 04:13 56 0
476739 일반 초지능이 지배하는 사회가 뭐가 문제고 ㅋㅋ [1] ㅇㅇ갤로그로 이동합니다. 04:13 49 0
476738 일반 10년 뒤에 영화 하나 뚝딱이네 ㅋㅋ [5] ㅇㅇ갤로그로 이동합니다. 04:12 108 0
476737 일반 지속적으로 쫓겨나는 OpenAI 정렬팀 [4] ㅇㅇ갤로그로 이동합니다. 04:12 160 8
476736 일반 샘 알트만 새 트윗: 그의 말이 맞아요 [6] 모브갤로그로 이동합니다. 04:07 168 1
476735 일반 이거 지금 심각한 상황인데 [16] ㅇㅇ(117.20) 04:02 194 0
476734 일반 문돌이가 살면서 exe 프로그램 첨 만들어봤다… [2] ㅇ8(218.55) 03:59 77 4
476733 일반 난 지금도 gpt음성채팅 하루에3,4시간 하는데 ㅇㅇ(110.46) 03:59 57 0
476732 일반 ㅋㅋㅋ 저거 Jan 인터뷰 머냐?? ㅇㅇ갤로그로 이동합니다. 03:58 40 0
476731 일반 요즘 GPT 음성채팅 맛들렸는데 [2] ㅇㅇ(211.235) 03:49 76 0
476729 일반 Gpt 다음 버전 neo로 가자 [5] ㅇㅇ(110.46) 03:35 92 0
476728 일반 얀르쿤은 박힌적이 없어서 몰랐던거야 [2] ㅇㅇ갤로그로 이동합니다. 03:31 95 0
476727 일반 그래서 클로드에서 다시 갈아타, 말아? [4] 안녕하쇼갤로그로 이동합니다. 03:31 79 0
476726 일반 gpt넘버링이 아닐 수 있다 했던게 새롭게 와닿네 [3] ㅇㅇ갤로그로 이동합니다. 03:27 103 0
476725 일반 재귀개선이 구현되면 [4] ㅇㅇ(211.46) 03:26 93 0
476724 일반 알트만이 말한 돌이켜보면AGI였구나 알게된다는게 해저드(61.47) 03:24 75 0
476723 일반 agi까진 네비게이션 아님? ㅇㅇ갤로그로 이동합니다. 03:22 31 0
476722 일반 인간은 적응의 동물이라 [2] ㅇㅇ(121.131) 03:22 48 0
476721 일반 외계인 없다는 게 정설이면 uap가 인류 기술력임? ㅇㅇ(110.46) 03:21 44 0
476720 일반 난 낙관적인 사람이라 모든게 잘될거라 생각함 [5] ㅇㅇ(121.131) 03:20 97 0
476719 일반 레딧에 특갤문학을 수출하자 ㅇㅇ(110.46) 03:19 52 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2