대표성 없음, 신뢰 없음: PPO의 대표성, 붕괴 및 신뢰 문제 연결

흥한갤 128위

기술적 특이점을 주제로 특이점주의자 선형주의자 모두 손에 손잡고 자유롭게 이야기 나누는곳.

매니저

IIlI(sunhc)

부매니저

부재중입니다.(091n0fu9y77a)

개설일

2021-06-22

[정보글] 대표성 없음, 신뢰 없음: PPO의 대표성, 붕괴 및 신뢰 문제 연결

ㅇㅇ(125.191) 2024.05.02 10:06:29

조회 45 추천 0 댓글 0

https://arxiv.org/abs/2405.00662

강화 학습(RL)은 훈련 중에 에이전트가 관찰하는 상태와 보상이 변화하는 정책에 따라 달라지기 때문에 본질적으로 비정상성이 많습니다. 따라서 심층 RL의 네트워크는 새로운 관찰에 적응하고 새로운 목표를 맞출 수 있어야 합니다. 그러나 이전 연구에서는 정책을 벗어난 심층 가치 기반 방법의 네트워크가 표현 순위의 감소를 나타내며 종종 학습을 계속할 수 없거나 성능이 붕괴되는 것과 관련이 있음을 관찰했습니다. 이 현상은 일반적으로 비정상성 하의 신경망 학습에 기인하지만, 종종 무기한 훈련이 가능하다고 생각되는 정책 기반 최적화 방법에서는 간과되어 왔습니다. 이 작업에서 우리는 Atari 및 MuJoCo 환경에서 PPO(Proximal Policy Optimization)의 표현 역학을 경험적으로 연구하여 PPO 에이전트도 기능 순위 저하 및 가소성 손실의 영향을 받는다는 것을 밝혔습니다. 우리는 이것이 더 강한 비정상성(non-stationarity)으로 악화되어 궁극적으로 비평가의 연기와 관계없이 배우의 연기가 무너지는 것을 보여줍니다. 우리는 PPO의 표현 붕괴, 성능 붕괴, 신뢰 영역 문제 사이의 연관성을 도출하고 표현 역학을 정규화하면 PPO 에이전트의 성능이 향상된다는 것을 보여주는 새로운 보조 손실인 PFO(Proximal Feature Optimization)를 제시합니다.

1d8dff68f5dc3f8650bbd58b36887d6d4b55

2bb4d733f7d775f720afd8b236ef203e3f79525f2c3ce0ff5d

고정닉 0

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2861	설문	어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는?	운영자	24/05/20	-	-
16965	정보글	로봇공학의 확장법칙	특술람	05.18	56	1
16964	일반	교육 뚝배기 초토화 시켜버리자!!! [5]	ㅇㅇ(125.191)	05.18	100	1
16963	일반	이거맞음? [2]	ㅇㅇ	05.18	82	0
16962	일반	[손실함수=적합도함수] 난 개천재야 씨발 ㅋㅋㅋㅋㅋㅋㅋㅋ [2]	Moriae	05.18	98	0
16961	일반	역전파의 손실함수를 진화의 적합도함수로 써야함	Moriae	05.18	43	0
16960	일반	다른 방법 평가좀	Moriae	05.18	36	0
16959	일반	아시발... 결국 원래대로 돌아와버렸네 [1]	Moriae	05.18	86	0
16958	일반	빨리 완몰가나와서 NPC들 다 가스실로 보내고싶다	ㅇㅇ(211.57)	05.18	45	0
16957	일반	좀더 일반화해봄	Moriae	05.18	40	0
16956	일반	진짜 혁신적인 인공지능 개발법 알아냈다 [4]	Moriae	05.18	136	0
16955	일반	얼굴 바꾸는 프로그램	인안나	05.18	68	0
16954	일반	비난기사들 쏟아지네 [1]	선갤러(182.209)	05.18	143	2
16953	일반	여성 전용 기본소득은 음모론 아님	shuwa	05.18	101	1
16952	일반	특갤 보니깐 나중에 규제 얼마나 심해질지 두려움 [1]	shuwa	05.18	123	0
16951	정보글	크리스티안 세게디 "진정하셈" [4]	특술람	05.18	133	2
16950	정보글	선다피차이 "우리는 모델을 80배 더 효율적으로 만들었다" [1]	특술람	05.18	102	0
16949	일반	스스로도 구하지 못한 정렬팀 [1]	특술람	05.18	75	0
16948	일반	우한 연구소에 코로나 연구 자금을 지원한 미국 정부	shuwa	05.18	55	0
16947	일반	얘들은 아직도 이러고 있네. 날씨 좋은 주말인데. [3]	병신®	05.18	122	8
16946	일반	알 유 레디 포 제 뉴 월드 오더 ㅇㅅㅇ	선갤러(122.36)	05.18	49	0
16945	일반	윤석열 15분도시 시동 거네	shuwa	05.18	81	0
16944	일반	룬붕이 "논스톱 딜레마"	특술람	05.18	58	0
16943	일반	세상이 특갤말대로 안 흘러가는 이유 ㅇㅅㅇ [1]	선갤러(122.36)	05.18	114	1
16942	일반	결국 전유물 시나리오가 확정이네? [5]	선갤러(223.38)	05.18	119	3
16941	정보글	맥스 테그마크 "AI는 훈련받지 않은 질문 일반화 답변 가능"	특술람	05.18	80	5
16940	일반	마틴 식칼쭝쭝이 ㅈㄴ 웃기네여 ㅇㅅㅇ [1]	선갤러(122.36)	05.18	69	1
16939	일반	룬붕이 삭제 된 트윗 [1]	특술람	05.18	89	2
16938	일반	특붕이들은 기억나셈??	특술람	05.18	67	1
16937	정보글	제프리힌튼 "일리야 셔츠케버가 옳았다"	특술람	05.18	88	4
16936	정보글	Gemini 0521	특술람	05.18	55	0
16935	일반	특갤 부패 또 완장짓하네 [4]	선갤러(218.153)	05.18	150	5
16934	정보글	Gemini 1.5 pro 성능개선	특술람	05.18	90	7
16933	일반	많은생각이드는짤	락(61.105)	05.18	89	0
16932	일반	어차피 기후위기로 망함 ㅅㄱ<<<ㅂㅅ같은 점 [1]	ㅇㅇ(211.234)	05.18	89	4
16930	정보글	삼성XR 헤드셋에 구글 AI 비서 장착 삼성 VR AR XR 생태계 구축	ㅇㅇ(222.234)	05.18	182	6
16929	일반	LLM 제일 빡치는 점 [2]	e/linear	05.17	104	1
16928	일반	AI 안전은 선동에 불과함 [1]	선갤러(112.167)	05.17	113	0
16927	일반	GPT-4o는 에이전트 따까리 모델임	e/linear	05.17	65	0
16926	일반	병신들 gpt3 때 한소리 치매걸린것처럼 또 하네	ㅇㅇ(202.182)	05.17	90	4
16925	일반	모든학자들이 2040년 안에 초인공지능 온다함	나디	05.17	102	1
16924	일반	요즘 네이버 언플하지만 국내는 답이없음 [1]	선갤러(143.244)	05.17	115	4
16923	일반	GPT-4o가 AGI다 [3]	ㅇㅇ(118.235)	05.17	161	2
16922	일반	어서 코딩 뚝배기 폭파해야함 [3]	특술람	05.17	132	3
16921	정보글	냉동 인간 뇌 조직, 획기적인 발전으로 다시 살아나다 [1]	특술람	05.17	74	2
16920	일반	Gpt4o는 작년에 출시 됐었어야 함 [4]	특술람	05.17	146	1
16919	일반	여기 보고 느낀점 [2]	ㅇㅇ(106.101)	05.17	117	3
16918	정보글	OpenAI가 이미 AGI를 달성했다는 증거 [4]	특술람	05.17	216	0
16917	일반	엘리저 유드코프스키의 AGI 도래 징후 [1]	특술람	05.17	125	0
16916	일반	네덜란드 근황 ㄷㄷ [1]	선갤러(221.153)	05.17	120	2
16915	일반	[공통점 기반의 정보연결]은 지능의 본질이다 [3]	Moriae	05.17	76	1