디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 대표성 없음, 신뢰 없음: PPO의 대표성, 붕괴 및 신뢰 문제 연결

ㅇㅇ(125.191) 2024.05.02 10:06:29
조회 45 추천 0 댓글 0
														

https://arxiv.org/abs/2405.00662


강화 학습(RL)은 훈련 중에 에이전트가 관찰하는 상태와 보상이 변화하는 정책에 따라 달라지기 때문에 본질적으로 비정상성이 많습니다. 따라서 심층 RL의 네트워크는 새로운 관찰에 적응하고 새로운 목표를 맞출 수 있어야 합니다. 그러나 이전 연구에서는 정책을 벗어난 심층 가치 기반 방법의 네트워크가 표현 순위의 감소를 나타내며 종종 학습을 계속할 수 없거나 성능이 붕괴되는 것과 관련이 있음을 관찰했습니다. 이 현상은 일반적으로 비정상성 하의 신경망 학습에 기인하지만, 종종 무기한 훈련이 가능하다고 생각되는 정책 기반 최적화 방법에서는 간과되어 왔습니다. 이 작업에서 우리는 Atari 및 MuJoCo 환경에서 PPO(Proximal Policy Optimization)의 표현 역학을 경험적으로 연구하여 PPO 에이전트도 기능 순위 저하 및 가소성 손실의 영향을 받는다는 것을 밝혔습니다. 우리는 이것이 더 강한 비정상성(non-stationarity)으로 악화되어 궁극적으로 비평가의 연기와 관계없이 배우의 연기가 무너지는 것을 보여줍니다. 우리는 PPO의 표현 붕괴, 성능 붕괴, 신뢰 영역 문제 사이의 연관성을 도출하고 표현 역학을 정규화하면 PPO 에이전트의 성능이 향상된다는 것을 보여주는 새로운 보조 손실인 PFO(Proximal Feature Optimization)를 제시합니다.


1d8dff68f5dc3f8650bbd58b36887d6d4b55


2bb4d733f7d775f720afd8b236ef203e3f79525f2c3ce0ff5d





추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
16965 정보글 로봇공학의 확장법칙 특술람갤로그로 이동합니다. 05.18 56 1
16964 일반 교육 뚝배기 초토화 시켜버리자!!! [5] ㅇㅇ(125.191) 05.18 100 1
16963 일반 이거맞음? [2] ㅇㅇ갤로그로 이동합니다. 05.18 82 0
16962 일반 [손실함수=적합도함수] 난 개천재야 씨발 ㅋㅋㅋㅋㅋㅋㅋㅋ [2] Moriae갤로그로 이동합니다. 05.18 98 0
16961 일반 역전파의 손실함수를 진화의 적합도함수로 써야함 Moriae갤로그로 이동합니다. 05.18 43 0
16960 일반 다른 방법 평가좀 Moriae갤로그로 이동합니다. 05.18 36 0
16959 일반 아시발... 결국 원래대로 돌아와버렸네 [1] Moriae갤로그로 이동합니다. 05.18 86 0
16958 일반 빨리 완몰가나와서 NPC들 다 가스실로 보내고싶다 ㅇㅇ(211.57) 05.18 45 0
16957 일반 좀더 일반화해봄 Moriae갤로그로 이동합니다. 05.18 40 0
16956 일반 진짜 혁신적인 인공지능 개발법 알아냈다 [4] Moriae갤로그로 이동합니다. 05.18 136 0
16955 일반 얼굴 바꾸는 프로그램 인안나갤로그로 이동합니다. 05.18 68 0
16954 일반 비난기사들 쏟아지네 [1] 선갤러(182.209) 05.18 143 2
16953 일반 여성 전용 기본소득은 음모론 아님 shuwa갤로그로 이동합니다. 05.18 101 1
16952 일반 특갤 보니깐 나중에 규제 얼마나 심해질지 두려움 [1] shuwa갤로그로 이동합니다. 05.18 123 0
16951 정보글 크리스티안 세게디 "진정하셈" [4] 특술람갤로그로 이동합니다. 05.18 133 2
16950 정보글 선다피차이 "우리는 모델을 80배 더 효율적으로 만들었다" [1] 특술람갤로그로 이동합니다. 05.18 102 0
16949 일반 스스로도 구하지 못한 정렬팀 [1] 특술람갤로그로 이동합니다. 05.18 75 0
16948 일반 우한 연구소에 코로나 연구 자금을 지원한 미국 정부 shuwa갤로그로 이동합니다. 05.18 55 0
16947 일반 얘들은 아직도 이러고 있네. 날씨 좋은 주말인데. [3] 병신®갤로그로 이동합니다. 05.18 122 8
16946 일반 알 유 레디 포 제 뉴 월드 오더 ㅇㅅㅇ 선갤러(122.36) 05.18 49 0
16945 일반 윤석열 15분도시 시동 거네 shuwa갤로그로 이동합니다. 05.18 81 0
16944 일반 룬붕이 "논스톱 딜레마" 특술람갤로그로 이동합니다. 05.18 58 0
16943 일반 세상이 특갤말대로 안 흘러가는 이유 ㅇㅅㅇ [1] 선갤러(122.36) 05.18 114 1
16942 일반 결국 전유물 시나리오가 확정이네? [5] 선갤러(223.38) 05.18 119 3
16941 정보글 맥스 테그마크 "AI는 훈련받지 않은 질문 일반화 답변 가능" 특술람갤로그로 이동합니다. 05.18 80 5
16940 일반 마틴 식칼쭝쭝이 ㅈㄴ 웃기네여 ㅇㅅㅇ [1] 선갤러(122.36) 05.18 69 1
16939 일반 룬붕이 삭제 된 트윗 [1] 특술람갤로그로 이동합니다. 05.18 89 2
16938 일반 특붕이들은 기억나셈?? 특술람갤로그로 이동합니다. 05.18 67 1
16937 정보글 제프리힌튼 "일리야 셔츠케버가 옳았다" 특술람갤로그로 이동합니다. 05.18 88 4
16936 정보글 Gemini 0521 특술람갤로그로 이동합니다. 05.18 55 0
16935 일반 특갤 부패 또 완장짓하네 [4] 선갤러(218.153) 05.18 150 5
16934 정보글 Gemini 1.5 pro 성능개선 특술람갤로그로 이동합니다. 05.18 90 7
16933 일반 많은생각이드는짤 (61.105) 05.18 89 0
16932 일반 어차피 기후위기로 망함 ㅅㄱ<<<ㅂㅅ같은 점 [1] ㅇㅇ(211.234) 05.18 89 4
16930 정보글 삼성XR 헤드셋에 구글 AI 비서 장착 삼성 VR AR XR 생태계 구축 ㅇㅇ(222.234) 05.18 182 6
16929 일반 LLM 제일 빡치는 점 [2] e/linear갤로그로 이동합니다. 05.17 104 1
16928 일반 AI 안전은 선동에 불과함 [1] 선갤러(112.167) 05.17 113 0
16927 일반 GPT-4o는 에이전트 따까리 모델임 e/linear갤로그로 이동합니다. 05.17 65 0
16926 일반 병신들 gpt3 때 한소리 치매걸린것처럼 또 하네 ㅇㅇ(202.182) 05.17 90 4
16925 일반 모든학자들이 2040년 안에 초인공지능 온다함 나디갤로그로 이동합니다. 05.17 102 1
16924 일반 요즘 네이버 언플하지만 국내는 답이없음 [1] 선갤러(143.244) 05.17 115 4
16923 일반 GPT-4o가 AGI다 [3] ㅇㅇ(118.235) 05.17 161 2
16922 일반 어서 코딩 뚝배기 폭파해야함 [3] 특술람갤로그로 이동합니다. 05.17 132 3
16921 정보글 냉동 인간 뇌 조직, 획기적인 발전으로 다시 살아나다 [1] 특술람갤로그로 이동합니다. 05.17 74 2
16920 일반 Gpt4o는 작년에 출시 됐었어야 함 [4] 특술람갤로그로 이동합니다. 05.17 146 1
16919 일반 여기 보고 느낀점 [2] ㅇㅇ(106.101) 05.17 117 3
16918 정보글 OpenAI가 이미 AGI를 달성했다는 증거 [4] 특술람갤로그로 이동합니다. 05.17 216 0
16917 일반 엘리저 유드코프스키의 AGI 도래 징후 [1] 특술람갤로그로 이동합니다. 05.17 125 0
16916 일반 네덜란드 근황 ㄷㄷ [1] 선갤러(221.153) 05.17 120 2
16915 일반 [공통점 기반의 정보연결]은 지능의 본질이다 [3] Moriae갤로그로 이동합니다. 05.17 76 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2