특붕이가 물어본거 내가 물어봄 - 특이점이 온다 마이너 갤러리

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[일반] 특붕이가 물어본거 내가 물어봄앱에서 작성

ㅇㅇ

2024.03.16 00:45:18

조회 238 추천 6 댓글 7

Q : 논문에서, 정확한 예측인지 아닌지는 어떻게 아는거지 보상을 주는 기준이 뭐야?

A : 좋은 질문이에요. 논문에서 제안한 Quiet-STaR 방법은 생각(thought)이 이후 텍스트를 얼마나 잘 예측하는지에 따라 보상을 줍니다.

구체적으로, 모델이 생각을 생성한 후 실제 텍스트와 비교하여 그 생각이 얼마나 텍스트 예측에 도움이 되었는지를 평가합니다. 이를 위해 모델은 생각을 했을 때와 하지 않았을 때의 텍스트 예측 정확도를 비교하는데, 이때 정확도는 실제 텍스트의 토큰(단어 또는 subword)에 대한 log likelihood로 측정됩니다.

만약 어떤 생각이 텍스트 예측 정확도를 높인다면, 즉 실제 텍스트의 log likelihood를 증가시킨다면, 그 생각은 "좋은" 생각으로 여겨지고 양의 보상을 받게 됩니다. 반면에 생각이 오히려 정확도를 낮추면 음의 보상을 받습니다.

이러한 보상을 바탕으로 REINFORCE 알고리즘을 사용하여 모델의 파라미터를 업데이트함으로써, 모델은 점점 더 나은 생각을 생성하도록 학습하게 됩니다. 즉, 실제 이후 텍스트를 잘 예측하는 데 도움이 되는 생각들의 등장 확률이 높아지게 되는 거죠.

이 과정을 반복하면서 모델은 텍스트의 숨겨진 의미나 중요한 맥락을 파악하고 이를 바탕으로 이후 내용을 예측하는 능력을 기를 수 있게 됩니다. 결과적으로는 추론이나 질의응답 등의 태스크에서 사전 학습 없이도 제법 좋은 성능을 보일 수 있다고 합니다.

log likelihood

고정닉 3

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2860	설문	경제관념 부족해서 돈 막 쓸 것 같은 스타는?	운영자	24/05/13	-	-
412470	공지	레이 커즈와일 신간 6월 25일 발매 [28]	모브	24.01.24	6759	32
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2907]	*특갤용*	23.08.06	37895	41
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1]	*부패하는유전자!!!*	24.03.06	2154	2
363220	공지	선형글 삭제 기준 [6]	*특갤용*	23.10.14	6804	24
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40]	ㅇㅇ(182.230)	23.11.11	12740	122
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [50]	*특갤용*	23.11.07	8506	79
385147	공지	구글의 AGI 분류 체계 [17]	ㅇㅇ	23.11.22	7850	31
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	8728	29
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	22199	33
476760	일반	오픈 ai에서는 알파폴드같은거 안내나?	ㅇㅇ(111.91)	04:55	3	0
476759	정보	Jan Leike의 마지막 트윗... [1]	ㅇㅇ(119.77)	04:54	13	0
476758	일반	오픈ai가 한국에도 기술 공유 안하는 이상	ㅇㅇ(113.61)	04:54	4	0
476757	일반	이거 소름 돋네 ㅋㅋ	연맛	04:51	26	0
476756	일반	한국형 캐릭AI챗봇도 있네	ㅇㅇ(106.101)	04:50	6	0
476755	일반	알트만 "긁" 당한거 아님?ㅋㅋㅋㅋㅋㅋㅋㅋㅋ	ㅇㅇ(220.123)	04:49	25	1
476754	일반	난 특갤러들이 원하는 꿈은 약AI로도 다 가능하다고 봄 [4]	ㅇㅇ(218.39)	04:39	52	0
476753	일반	기밀유지서약 있다고만 말해도 위반 [3]	ㅇㅇ(119.77)	04:38	78	1
476752	일반	뭐임 결국 내 승리임?? [1]	agi2024	04:36	55	0
476751	일반	Meta 연구원, 일론 머스크 등 일제히 OpenAI 비판 [8]	모브	04:33	117	0
476750	정보	ChatGPT는 말할 수 있지만, OAI 직원은 말을 못합니다. [3]	ㅇㅇ(119.77)	04:27	116	8
476749	일반	agi가 우리에게 줄 수 있는 것 [4]	ㅇㅇ	04:25	57	2
476748	일반	ㄹㅇ 알트만 인터뷰랑 정렬팀 해고 너무 다르지않냐?	ㅇㅇ	04:25	62	1
476747	일반	4o 조오오온나 빠르긴하다	안녕하쇼	04:25	31	0
476746	일반	좀 무섭긴 하네	ㅇㅇ	04:24	39	0
476745	일반	걍 정렬팀은 영화를 너무 많이 봤음 ㅋㅋ [4]	ㅇㅇ(211.179)	04:22	99	1
476744	일반	요즘 ai로 검색하는게 더 편한느낌 [3]	섹보	04:20	51	0
476743	일반	라마3 8b가 경량화 대단하긴하네 [1]	ㅇㅇ(1.247)	04:18	51	0
476742	일반	그 아이피	ㅇㅇ(110.46)	04:17	46	0
476741	일반	달려야지 ㅋㅋㅋㅋ	ㅇㅇ	04:15	47	0
476740	일반	저 트윗 전혀 심각하지 않다	ㅇㅇ(211.46)	04:13	56	0
476739	일반	초지능이 지배하는 사회가 뭐가 문제고 ㅋㅋ [1]	ㅇㅇ	04:13	49	0
476738	일반	10년 뒤에 영화 하나 뚝딱이네 ㅋㅋ [5]	ㅇㅇ	04:12	108	0
476737	일반	지속적으로 쫓겨나는 OpenAI 정렬팀 [4]	ㅇㅇ	04:12	160	8
476736	일반	샘 알트만 새 트윗: 그의 말이 맞아요 [6]	모브	04:07	168	1
476735	일반	이거 지금 심각한 상황인데 [16]	ㅇㅇ(117.20)	04:02	194	0
476734	일반	문돌이가 살면서 exe 프로그램 첨 만들어봤다… [2]	ㅇ8(218.55)	03:59	77	4
476733	일반	난 지금도 gpt음성채팅 하루에3,4시간 하는데	ㅇㅇ(110.46)	03:59	57	0
476732	일반	ㅋㅋㅋ 저거 Jan 인터뷰 머냐??	ㅇㅇ	03:58	40	0
476731	일반	요즘 GPT 음성채팅 맛들렸는데 [2]	ㅇㅇ(211.235)	03:49	76	0
476729	일반	Gpt 다음 버전 neo로 가자 [5]	ㅇㅇ(110.46)	03:35	92	0
476728	일반	얀르쿤은 박힌적이 없어서 몰랐던거야 [2]	ㅇㅇ	03:31	95	0
476727	일반	그래서 클로드에서 다시 갈아타, 말아? [4]	안녕하쇼	03:31	79	0
476726	일반	gpt넘버링이 아닐 수 있다 했던게 새롭게 와닿네 [3]	ㅇㅇ	03:27	103	0
476725	일반	재귀개선이 구현되면 [4]	ㅇㅇ(211.46)	03:26	93	0
476724	일반	알트만이 말한 돌이켜보면AGI였구나 알게된다는게	해저드(61.47)	03:24	75	0
476723	일반	agi까진 네비게이션 아님?	ㅇㅇ	03:22	31	0
476722	일반	인간은 적응의 동물이라 [2]	ㅇㅇ(121.131)	03:22	48	0
476721	일반	외계인 없다는 게 정설이면 uap가 인류 기술력임?	ㅇㅇ(110.46)	03:21	44	0
476720	일반	난 낙관적인 사람이라 모든게 잘될거라 생각함 [5]	ㅇㅇ(121.131)	03:20	97	0
476719	일반	레딧에 특갤문학을 수출하자	ㅇㅇ(110.46)	03:19	52	0