디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 대표성 없음, 신뢰 없음: PPO의 대표성, 붕괴 및 신뢰 문제 연결

ㅇㅇ(125.191) 2024.05.02 10:06:29
조회 52 추천 0 댓글 0
														

https://arxiv.org/abs/2405.00662


강화 학습(RL)은 훈련 중에 에이전트가 관찰하는 상태와 보상이 변화하는 정책에 따라 달라지기 때문에 본질적으로 비정상성이 많습니다. 따라서 심층 RL의 네트워크는 새로운 관찰에 적응하고 새로운 목표를 맞출 수 있어야 합니다. 그러나 이전 연구에서는 정책을 벗어난 심층 가치 기반 방법의 네트워크가 표현 순위의 감소를 나타내며 종종 학습을 계속할 수 없거나 성능이 붕괴되는 것과 관련이 있음을 관찰했습니다. 이 현상은 일반적으로 비정상성 하의 신경망 학습에 기인하지만, 종종 무기한 훈련이 가능하다고 생각되는 정책 기반 최적화 방법에서는 간과되어 왔습니다. 이 작업에서 우리는 Atari 및 MuJoCo 환경에서 PPO(Proximal Policy Optimization)의 표현 역학을 경험적으로 연구하여 PPO 에이전트도 기능 순위 저하 및 가소성 손실의 영향을 받는다는 것을 밝혔습니다. 우리는 이것이 더 강한 비정상성(non-stationarity)으로 악화되어 궁극적으로 비평가의 연기와 관계없이 배우의 연기가 무너지는 것을 보여줍니다. 우리는 PPO의 표현 붕괴, 성능 붕괴, 신뢰 영역 문제 사이의 연관성을 도출하고 표현 역학을 정규화하면 PPO 에이전트의 성능이 향상된다는 것을 보여주는 새로운 보조 손실인 PFO(Proximal Feature Optimization)를 제시합니다.


1d8dff68f5dc3f8650bbd58b36887d6d4b55


2bb4d733f7d775f720afd8b236ef203e3f79525f2c3ce0ff5d





추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2872 설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
17222 일반 일본 GPT-4o 오디오 데모 [3] 특술람갤로그로 이동합니다. 05.24 121 0
17221 정보글 앤드류응 기조강연 [1] 선갤러(125.191) 05.24 84 0
17220 정보글 앤드류 응 "AGI 수십 년 걸릴 것…위험성 과장돼" [2] 선갤러(125.191) 05.24 125 2
17219 정보글 Lisa Su “AMD 2027년까지 100배의 전력 효율성 향상 목표” [2] 선갤러(125.191) 05.24 85 3
17218 일반 ai가 결국 승자독식의 형태로 흘러갈까 [1] ㅇㅇ(49.142) 05.24 79 0
17217 일반 사람아니야....ㅜ [1] (61.105) 05.24 110 0
17216 정보글 '원조' AI 에이전트 스타트업 어뎁트, 경쟁에 밀려 매각 검토 특술람갤로그로 이동합니다. 05.24 51 0
17215 일반 절대 가속하면안됨 [3] ㅇㅇ(211.234) 05.24 143 13
17214 일반 특갤에 모자란 애들 왜 이리 많냐 [1] ㅇㅇ(211.181) 05.24 130 14
17213 일반 OpenAI 신모델 나오면 ㅇㅇ(125.191) 05.24 111 1
17212 정보글 LLM은 반복적인 자기 성찰을 통해 자제력을 배울 수 있습니다. 특술람갤로그로 이동합니다. 05.24 62 0
17211 정보글 구현된 AI에 대한 신경 확장 법칙 ㅇㅇ(125.191) 05.24 59 0
17210 정보글 선호하는 인간 피드백을 통한 다중 회전 강화 학습 ㅇㅇ(125.191) 05.24 50 0
17209 정보글 AndroidWorld: 자율 에이전트를 위한 동적 벤치마킹 환경 ㅇㅇ(125.191) 05.24 63 0
17208 정보글 자연어 액션 및 비디오 상태를 사용한 일반 월드 모델을 향해 ㅇㅇ(125.191) 05.24 53 0
17207 일반 감속충들이 극혐인 이유가 ㅇㅇ(125.191) 05.24 78 1
17206 정보글 얀 르쿤 “초지능 AI 프로젝트 추진”…오픈AI LLM 방식에 한계 ㅇㅇ(125.191) 05.24 85 0
17205 정보글 베프 제조스 인터뷰 요약 ㅇㅇ(125.191) 05.24 76 0
17204 정보글 바이두 CEO "인간만큼 똑똑한 AI, 10년도 더 걸릴 것" [4] ㅇㅇ(125.191) 05.24 151 2
17203 일반 헐랭 훌라우스 슈밥 세게 정복 포럼 사임한다네여 ㅇㅅㅇ [1] 선갤러(122.36) 05.24 96 1
17202 일반 억시 alt-맨은 다 게획이 잇구나 ㅇㅅㅇ [2] 선갤러(122.36) 05.24 123 0
17201 일반 기득권들이 지구온난화 타령하는 이유 [2] shuwa갤로그로 이동합니다. 05.24 106 2
17200 일반 특붕의유혹 ㅇㅇ(125.191) 05.24 83 2
17199 정보글 일론머스크 “ai가 우리의 모든 직업을 대신할 것“ ㅇㅇ(125.191) 05.24 110 1
17198 일반 이거 신기하네 ㅋ [1] 선갤러(121.190) 05.24 97 0
17197 일반 유럽이 하니까 일본도 합니다 ㄷㄷ [1] 선갤러(121.190) 05.24 110 1
17196 정보글 일론머스크 "7~8년 안에 화성으로 사람 보낼 것" [1] 선갤러(125.191) 05.24 92 0
17195 정보글 베프 제조스 "세상은 파멸자들에 의해 망해" 선갤러(125.191) 05.24 75 0
17194 정보글 룬붕이 "LLM은 할 수 없을 것이라 주장하는 선형충" 선갤러(125.191) 05.24 78 6
17192 정보글 OpenAI "차세대 모델은 1~2년 안 비교할 수 없을 정도로 발전" ㅇㅇ(125.191) 05.23 183 11
17191 정보글 레아 미야라와 함께하는 OpenAI, AGI, LLM 평가 및 응용 [1] ㅇㅇ(125.191) 05.23 109 0
17190 일반 특갤 완장은 분탕들 여론전에 완전히 넘어갔음 [2] shuwa갤로그로 이동합니다. 05.23 145 0
17189 정보글 ‘중국판 뉴럴링크’ 공개…“美 앞서 산업화 가능” ㅇㅇ(125.191) 05.23 73 0
17188 정보글 인간 뇌 점점 작아진다…지구 온도 상승 여파 [2] ㅇㅇ(125.191) 05.23 101 1
17187 정보글 냉동인간 실현되나…"냉동 뇌 부활 성공" ㅇㅇ(125.191) 05.23 71 0
17186 정보글 뉴럴링크 첫 임상시험 좌절...뇌가 움직여 칩 밀어내 ㅇㅇ(125.191) 05.23 64 0
17185 일반 Great Filter의 진정한 이유 ㅇㅇ(125.191) 05.23 100 3
17184 정보글 구글 개인교사 LearnLM 발표 선갤러(125.191) 05.23 86 0
17183 일반 교토대 교수가 말하는 코로나와 백신 shuwa갤로그로 이동합니다. 05.23 76 1
17182 일반 올해 여름에 GPT-4보다 100배 강력한 모델 출시돼야 함 [2] 선갤러(125.191) 05.23 141 0
17181 일반 여기에 어떤 지능이 있다는 거야? [5] 인안나갤로그로 이동합니다. 05.23 170 9
17180 일반 스칼렛 요한슨 관련 건은 규제론자들이 함정에 걸린 느낌인데 [2] ㅇㅇ(118.235) 05.23 117 3
17179 일반 가속되는건 해고자숫자 ㅇㅇ(172.226) 05.23 70 0
17177 일반 가자지구 아이 ㅇㅅㅇ [3] 선갤러(122.36) 05.23 82 0
17176 일반 이 고대 특슬림이 저랑 의견이 독같네여 ㅇㅅㅇ [4] 선갤러(122.36) 05.23 117 0
17175 일반 gta5 언제 나오나여 ㅇㅅㅇ [3] 선갤러(122.36) 05.23 100 0
17174 정보글 1100억 들인 정부 AI 데이터 사업…관리 부실에 사업비 횡령까지 [2] ㅇㅇ(125.191) 05.23 87 1
17173 정보글 OpenAI 제품군 [2] 선갤러(125.191) 05.23 113 0
17172 일반 GPU는 가속하셈!! [1] ㅇㅇ(125.191) 05.23 71 0
17171 정보글 OpenAI는 스칼렛 요한슨을 복제하지 않았다 [1] ㅇㅇ(125.191) 05.23 125 10
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2