역전파에 대해서 알아보자

ㅇㅇ · 2024.03.06 23:15:20

특갤에서는 역전파에 대한 이해로 오차를 뒤로 보내서 학습하는 알고리즘이라는 생각을 가지고 있는것 같다.

물론 그게 틀린말이라는 것은 아닌데 너무 막연하므로 있어서 왜 이 알고리즘이 초기에 욕을 먹었는지 간단히 소개하면서 설명해보겠다.

먼저 머신러닝이 무슨 목표로 어떻게 돌아가는지 알아보겠다.

통계학습이론에서 학습은 일반적으로 경험적 위험 최소화 (empirical risk minimization)를 통해 '위험'을 최소화 하는 방향으로 학습한다.

여기에서 위험이라는게 도대체 뭘까?

만약 당신이 개와 고양이를 분류하고 싶다고 하자.

좀 더 추상적으로, 개라는 데이터를 보면 0, 고양이라는 데이터를 보면 1이라고 대답하는 함수 (기계)를 만든다면 이걸 수행할 수 있다.

즉,

a76a08ad230e69e864afd19528d527033ddde7fd4c88

이렇게 생겨먹은 함수를 만들면 당신은 개와 고양이 이미지를 분류할 수 있는게 되겠다.

그렇다면 f를 어떻게 만들까?

이게 사실 기계학습이다. 즉, 원하는 목표에 적합한 함수 f를 어떻게 찾을거냐 <- 이게 목적이란 소리다.

LLM도 이미지AI도 모두 x집어넣어서 y가 나오는 함수를 찾는거임.

물론 이상적인 함수 f*가 있어서...

a76a08ad230e6ae864afd19528d5270372504016e69e

모든 개와 고양이 사진에 대해서 저렇게 분류할 수 있는 함수 f*를 찾을 수 있으면 좋겠지만,

그렇게 하기 위해서는 이 세상에 존재하는 모든 개사진 X_dog와 고양이사진 X_cat이 필요하기 때문에 현실적으로 불가능하겠다 (그리고 쓸모도 별로 없을거임).

따라서 우리는 우리가 가지고 있는 데이터를 통해 f*를 근사하고 싶은거다

그래서 우리는 우리가 가지고 있는 데이터에서 계산할 수 있는 경험적 위험*을 정의해서 이러한 위험을 최대한 빗겨나가게하는 함수를 찾을거다.

우리는 따라서 다음을 손실이라고 정의하고 이로부터 위험을 정의해보자.

a76a08ad230e6be864afd19528d527036acf06ddea91

틀리면 1이고 맞으면 0이 되도록 하는 함수 L을 가지고 가지고 있는 데이터 분포에 대해 모두 손실을 계산하고, 그에 따른 평균을 내보자.

직관적으로, 이렇게하면 평균 성능을 정량화할 수 있을것이고, 이것을 최소화하면 좋은 분류기 f를 배울 수 있을 것이다.

a76a08ad230e6ce864afd19528d527035d27f63ab642

이것을 우리는 경험적 위험이라고 한다.

이렇게 하면 위험을 최소화 하는 f를 찾으면 우리가 가지고 있는 데이터 상에서 잘 동작하는 분류기를 만들 수 있다.

물론 손실함수 l을 0-1 loss를 사용하지 않고 더 좋은 성질을 가진 손실함수로 변경해서 사용하긴 하는데 일단 차치하고...

자 이제 f를 이루는 여러 파라미터들 (행렬연산이므로 행렬값들)을 잘 조절해서 경험적위험을 최소화 하는것이 우리의 목적이 되겠다.

이걸 어떻게 하는가? 무작위로 대입해서? 복잡한 모델일수록 파라미터들이 엄청나게 많아지기 때문에 이런 방법은 쓰기 어렵다..

간단하게 말해서 가장 낮은 곳으로 공을 굴려보내는 게임을 생각하면 된다.

이런 파라미터를 찾는 휴리스틱은 일단 근처의 기울기를 보고 '낮은 곳'으로 공을 굴려보내는 것이다. 손실이 미분가능해야 하는 이유가 여기에 있다.

(물론 기울기를 사용하지 않는 다른 방법도 있다! 유전알고리즘이 대표적 예시)

이게 '경사하강법'이다.

이러한 경사하강법을 딥러닝 파라미터를 수정하기 위해 체인룰*을 사용해 모든 연결된 파라미터에 대해 기울기를 반대방향으로 계산하는 것을 역전파라고 한다.

a65614aa1f06b3679234254958c12a3ae31061529cdd2805eb2820ca

기울기가 음인 쪽으로 다가가다 보면 자꾸 낮은 곳으로 가지 않겠느냐는 휴리스틱이다.

물론 맞다! 볼록(convex)일때만!

저렇게 깔끔한 손실 그래프는 잘 나오지 않는다.. 실제로 손실 landscape를 보면...

a04424ad2c06782ab47e5a67ee91766dc28ff1ecd0acc5cebf13d1c059d4df210e0de329f7c2b53153ffac2b020b

이렇게 개좆같이 생겼기 때문에, 경사하강법으로 저 깊은 전역최소값에 도달한다는 보장이 없다.

** 따라서 경사하강법을 깊어진 신경망에 적용하려는 역전파는 본질적으로 국소최소값에 멈춰서버릴 가능성이 항상 있다. **

물론 이걸 극복하려고 여러 방법들이 개발되었다.

최근(?) 등장한 방법으로는 기울기에 관성을 줘서 국소최소값에 멈추지 말고 전체적인 기울기 방향으로 튀어나가게끔 하는 알고리즘이 개발되었다 (ADAM).

두 번째 문제점으로는 ** 역전파가 기울기소실 (gradient vanishing) 및 기울기폭발 (gradient exploding) 을 유도할 수 있다는 점이다. **

역전파는 적당히 얕은 네트워크에서 기울기를 계산할 수 있는 아주 효율적인 방법이었지만
그것보다 깊어지면 수치적으로 계산할 수 있는 기울기가 죽어버리던지
아주 극단값을 가지는 파라미터들에 대해서 국소 기울기가 거의 0이라 가중치 업데이트가 아예 안된다던지,

또는 동일 파라미터를 자꾸 곱하게 되는 바닐라 RNN의 경우 1 이상인 기울기들이 폭발하게된다던지 이런 문제가 생긴다.

a65614aa1f06b36792342549569975740c0df0952a29b745b249465a3957cd92

즉, 초기 레이어들이 뒷쪽 레이어에 비해 학습이 현저히 느려진다는 문제가 발생한다.

gradient clipping, batch normalization 등 해결책들이 많이 제시되었는데 일단 여기서는 활성화 함수의 교체를 좀 집중해서 보겠다.

딥러닝은 nonlinear 함수를 맵핑하기 위해 활성화 함수라는 비선형 함수를 통과시킨다.

이러한 비선형 변환이 원래 데이터공간을 이리저리 휘게하기 때문에 매우 중요한데, 초기 딥러닝은 얘를 sigmoid라는 함수를 사용했다.

24b0d768f5dc3f8650bbd58b3684746a8e0afd

부드럽게 휘는게 딱봐도 비선형이다. 문제는 얘를 미분하면 나오는 기울기 최대값이 1/4이라는 점인데,
앞서 말했듯 뒤로 전파하면서 기울기가 1/4씩 잘려나가는 상황이 발생하게 된다.

그래서 비슷하게 생겼는데 좀 더 큰 값을 가지는 함수 tanh를 사용하는데..

24b0d766ad8371e87eb1d19528d52703d49154eeb5cdeb

이번에는 가중치가 너무 큰 값을 가졌을 때 기울기가 거의 0으로 수렴하는 문제가 생겨버렸다 (물론 sigmoid에도 같은 문제는 있다).

그래서 이번에는 아예 ReLU라는 정류함수를 가져와서 사용하게 된다.

24b0d766ad8071e87eb1d19528d527031993484ad70e98

깔끔하다! 그러나 ReLU의 경우에도 문제가 있는데, 가중치가 음수면 기울기가 0이 되어버려서 더 이상 업데이트 되지 않는 죽어버린 가중치가 되어버린다는 점이다.

이 문제를 dying ReLU라고 한다. 얘를 해결하기 위해 leakyReLU, GeLU와 같은 가중치가 음수여도 0이 아닌 기울기를 가지게 되는 함수들이 개발되었다.

번호	말머리	제목	글쓴이	작성일	조회	추천
2863	설문	시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는?	운영자	24/05/27	-	-
456599	정보/ 정보/뉴스	보스턴 다이내믹스 - 유압식 아틀라스와의 작별 [26]	SGG	04.16	2288	19
456584	정보/ 정보/뉴스	MetaAI 퇴사자, 새로운 회사 설립 [2]	ㅇㅇ(118.235)	04.16	1817	19
456567	일반	LLM 훈련비용 7년 새 20만배 이상 증가 [14]	ㅇㅇ(125.142)	04.16	1966	14
456565	정보/ 정보/뉴스	어도비, 동영상 편집기 '프리미어'에 '소라' 등 결합 예정 [17]	ㅇㅇ(182.230)	04.16	1728	23
456561	정보/ 정보/뉴스	레카, 새로운 LMM '코어' 출시..."일부 성능서 GPT-4 능가" [8]	ㅇㅇ(182.230)	04.16	1313	16
456559	정보/ 정보/뉴스	오픈AI, 1년 만에 직원수 2배 증가..."올말에는 1500명 넘을 것 [7]	ㅇㅇ(182.230)	04.16	1557	17
456558	정보/ 정보/뉴스	지난해 전 세계 파운데이션 모델 149개 출시 [7]	ㅇㅇ(182.230)	04.16	941	13
456557	일반	네옴시티 완전 망한거 알고있냐? [40]	빅모드	04.16	3261	31
456554	정보/ 정보/뉴스	"지금까지 리뷰한 최악의 제품"...Ai 핀 리뷰로 떠들썩 [10]	ㅇㅇ(182.230)	04.16	1733	11
456553	정보/ 정보/뉴스	"챗GPT로 게임 '레드 데드 리뎀션 2' 클리어 [14]	ㅇㅇ(182.230)	04.16	2338	15
456476	일반	할아버지가 특이점 와봤자 다른게 없다고한다. [21]	ㅇㅇ(218.233)	04.16	1121	21
456470	일반	"박사 과정에서 수십억 년이 걸렸을 일을 우리는 1년 만에 해냈습니다" [13]	ㅇㅇ(221.157)	04.16	1320	13
456463	정보/ 정보/뉴스	인터넷속도 176만배 빠르게 하는 기술 개발됨 [47]	ㅇㅇ(210.178)	04.16	2501	17
456461	일반	인디게임 개발자로써, GPT는 충분히 가치가 있다. [19]	ㅇㅇ(116.34)	04.16	2566	24
456443	일반	머스크 스페샬 [8]	ㅇㅇ(222.101)	04.16	635	11
456425	일반	3대 십새끼 어록 모음 [12/1]	ㅇㅇ	04.16	2310	34
456424	정보/ 정보/뉴스	압축은 지능을 선형적으로 나타냅니다. [4]	특술람	04.16	709	23
456421	일반	너넨 살아보니 노력 할만 하더냐? [24]	ㅇㅇ(59.9)	04.16	801	13
456412	일반	인류를 위해 안 까고있다 하면 돌천지랑 뭐가다르냐 [3]	ㅇㅇ(106.101)	04.16	369	10
456401	일반	아가리 털드만이 마케팅하러 다닌다 (X) [3]	ㅇㅇ	04.16	337	12
456394	정보/ 정보/뉴스	마이크로소프트 오픈소스 모델 Wizard LM2 공개 [10]	lightvector	04.16	1513	25
456384	정보/ 정보/뉴스	(오늘의 입털기)샘알트만- 당신들을 찍어누를 것 [31]	ㅇㅇ(118.235)	04.16	2535	24
456370	정보/ 정보/뉴스	일본에 자리 잡은 사카나 AI "기업 관심 집중...아직 경쟁자 없어" [2]	ㅇㅇ(182.230)	04.16	512	12
456363	일반	생각해보면 모든 행복의 근원은.. [6]	ㅇㅇ	04.16	1703	23
456347	역노화	내 몸에 새로운 간을 키운다...간이식 대체할 림프절 간세포 이식술 [25]	ㅇㅇ	04.16	1930	25
456321	일반	ㄹㅇ 나도 현.직자인데 [8]	ㅇㅇ	04.15	981	14
456319	일반	오늘자 얀르쿤 트윗: 25년도까지 AGI 불가능 [12]	ㅇㅇ(112.144)	04.15	883	11
456310	일반	산수문제 하나 풀고 가실게요 (gpt4 재평가) [9]	mahogany	04.15	2118	21
456297	일반	라마3 곧 발표예정이라함 [9]	ㅇㅇ(125.191)	04.15	2181	26
456204	정보/ 정보/뉴스	스테이블 디퓨전 만든 CEO 근황 [11]	ㅇㅇ(121.132)	04.15	3353	26
456178	정보/ 정보/뉴스	오픈AI, 아시아 최초 사무소인 OpenAI Japan 설립 [28]	월코존버	04.15	2410	22
455877	정보/ 정보/뉴스	엔트로픽 CEO, ASL-4는 2025~2028 사이에 일어날 수 있다 [14]	ㅇㅇ(218.52)	04.14	983	12
455701	정보/ 정보/뉴스	다트머스 연구진은 현대 AI와 치료 앱을 융합하려고 합니다. [12]	ㅇㅇ	04.14	1416	15
455985	정보/ 정보/뉴스	미스트랄 8x22b성능은 오픈소스중최고 mmlu 77.3 [11]	ㅇㅇ(149.88)	04.14	1490	15
456113	정보/ 정보/뉴스	2024년 가장 많이 사용되는 AI 플랫폼 20개는 [9]	ㅇㅇ(182.230)	04.15	2553	21
455398	일반	페이팔ceo 시발년아 [16]	ㅇㅇ(14.53)	04.13	2725	20
456112	일반	알트만 스캠이라면 영악한게 , 5~10년안에 올지도 모른다 [2]	ㅇㅇ(118.129)	04.15	545	10
456111	정보/ 정보/뉴스	"기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장 [4]	ㅇㅇ(182.230)	04.15	1746	13
456069	일반	와 자율주행 신기하네 [1]	ㅇㅇ	04.15	996	11
455998	일반	알트만 새 트윗 개인적인 해석 [4]	ㅇㅇ(112.144)	04.14	780	10
455964	정보/ 정보/뉴스	특이점이 온 미국의 노동시장 [11]	테이리	04.14	1022	10
455902	정보/ 정보/뉴스	채신논문) 어리석음을 찬양하며: 유연한 목표와 인간의 인지 능력 [6]	ㅇㅇ	04.14	2709	24
455884	정보/ 정보/뉴스	구글 삼성결별 2025년부터 TSMC에서 생산 [6]	ㅇㅇ(125.143)	04.14	756	10
455850	일반	데빈 저격영상 떳네 ㅋㅋ [15]	상한포도	04.14	3210	27
455846	일반	devin 걍 사기꾼이였네 [8]	ㅇㅇ(211.36)	04.14	2811	20
455800	일반	샘 알트만 ”agi 개발완료“는 날조임 [10]	ㅇㅇ(116.120)	04.14	3501	44
455774	일반	“韓 연구진이 개발한 뇌 영상 기술 …연이은 검증 실패 [9]	ㅇㅇ(211.234)	04.14	2534	22
455743	일반	이런일 다들 경험해봣을건데 [22]	ㅇㅇ(117.20)	04.14	2869	31
455680	일반	2025년이 7개월남았다는게 어이가없네 [7]	ㅇㅇ(211.197)	04.13	3589	33
455679	정보/ 정보/뉴스	AI가 월스트리트에 온다, 은행 분석가 채용 2/3로 줄이는 것을 고려중 [4]	ㅇㅇ(125.191)	04.13	797	10

최근 방문

즐겨찾기

즐겨찾기 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

마이너 갤러리 소개

차단하기

[특이점이 온다 갤러리]

갤러리 본문 영역

게시물을 간편하게 NFT로 만들어 보세요!

NFT 발행 방법

NFT 발행

비회원 글삭제,수정

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

파워링크 광고

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결