디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 역전파에 대해서 알아보자

ㅇㅇ(114.71) 2024.03.06 23:15:20
조회 2248 추천 44 댓글 19
														

특갤에서는 역전파에 대한 이해로 오차를 뒤로 보내서 학습하는 알고리즘이라는 생각을 가지고 있는것 같다.


물론 그게 틀린말이라는 것은 아닌데 너무 막연하므로 있어서 왜 이 알고리즘이 초기에 욕을 먹었는지 간단히 소개하면서 설명해보겠다.


먼저 머신러닝이 무슨 목표로 어떻게 돌아가는지 알아보겠다.


통계학습이론에서 학습은 일반적으로 경험적 위험 최소화 (empirical risk minimization)를 통해 '위험'을 최소화 하는 방향으로 학습한다. 


여기에서 위험이라는게 도대체 뭘까?


만약 당신이 개와 고양이를 분류하고 싶다고 하자. 


좀 더 추상적으로, 개라는 데이터를 보면 0, 고양이라는 데이터를 보면 1이라고 대답하는 함수 (기계)를 만든다면 이걸 수행할 수 있다.


즉, 

a76a08ad230e69e864afd19528d527033ddde7fd4c88


이렇게 생겨먹은 함수를 만들면 당신은 개와 고양이 이미지를 분류할 수 있는게 되겠다.


그렇다면 f를 어떻게 만들까? 


이게 사실 기계학습이다. 즉, 원하는 목표에 적합한 함수 f를 어떻게 찾을거냐 <- 이게 목적이란 소리다.


LLM도 이미지AI도 모두 x집어넣어서 y가 나오는 함수를 찾는거임.


물론 이상적인 함수 f*가 있어서...


a76a08ad230e6ae864afd19528d5270372504016e69e


모든 개와 고양이 사진에 대해서 저렇게 분류할 수 있는 함수 f*를 찾을 수 있으면 좋겠지만, 


그렇게 하기 위해서는 이 세상에 존재하는 모든 개사진 X_dog와 고양이사진 X_cat이 필요하기 때문에 현실적으로 불가능하겠다 (그리고 쓸모도 별로 없을거임).


따라서 우리는 우리가 가지고 있는 데이터를 통해 f*를 근사하고 싶은거다


그래서 우리는 우리가 가지고 있는 데이터에서 계산할 수 있는 경험적 위험*을 정의해서 이러한 위험을 최대한 빗겨나가게하는 함수를 찾을거다.


우리는 따라서 다음을 손실이라고 정의하고 이로부터 위험을 정의해보자.


a76a08ad230e6be864afd19528d527036acf06ddea91


틀리면 1이고 맞으면 0이 되도록 하는 함수 L을 가지고 가지고 있는 데이터 분포에 대해 모두 손실을 계산하고, 그에 따른 평균을 내보자.


직관적으로, 이렇게하면 평균 성능을 정량화할 수 있을것이고, 이것을 최소화하면 좋은 분류기 f를 배울 수 있을 것이다.



a76a08ad230e6ce864afd19528d527035d27f63ab642


이것을 우리는 경험적 위험이라고 한다.


이렇게 하면 위험을 최소화 하는 f를 찾으면 우리가 가지고 있는 데이터 상에서 잘 동작하는 분류기를 만들 수 있다.


물론 손실함수 l을 0-1 loss를 사용하지 않고 더 좋은 성질을 가진 손실함수로 변경해서 사용하긴 하는데 일단 차치하고...


자 이제 f를 이루는 여러 파라미터들 (행렬연산이므로 행렬값들)을 잘 조절해서 경험적위험을 최소화 하는것이 우리의 목적이 되겠다.


이걸 어떻게 하는가? 무작위로 대입해서? 복잡한 모델일수록 파라미터들이 엄청나게 많아지기 때문에 이런 방법은 쓰기 어렵다.. 


간단하게 말해서 가장 낮은 곳으로 공을 굴려보내는 게임을 생각하면 된다. 


이런 파라미터를 찾는 휴리스틱은 일단 근처의 기울기를 보고 '낮은 곳'으로 공을 굴려보내는 것이다. 손실이 미분가능해야 하는 이유가 여기에 있다.

(물론 기울기를 사용하지 않는 다른 방법도 있다! 유전알고리즘이 대표적 예시)


이게 '경사하강법'이다.


이러한 경사하강법을 딥러닝 파라미터를 수정하기 위해 체인룰*을 사용해 모든 연결된 파라미터에 대해 기울기를 반대방향으로 계산하는 것을 역전파라고 한다.


a65614aa1f06b3679234254958c12a3ae31061529cdd2805eb2820ca


기울기가 음인 쪽으로 다가가다 보면 자꾸 낮은 곳으로 가지 않겠느냐는 휴리스틱이다.


물론 맞다! 볼록(convex)일때만!


저렇게 깔끔한 손실 그래프는 잘 나오지 않는다.. 실제로 손실 landscape를 보면...


a04424ad2c06782ab47e5a67ee91766dc28ff1ecd0acc5cebf13d1c059d4df210e0de329f7c2b53153ffac2b020b


이렇게 개좆같이 생겼기 때문에, 경사하강법으로 저 깊은 전역최소값에 도달한다는 보장이 없다.


 ** 따라서 경사하강법을 깊어진 신경망에 적용하려는 역전파는 본질적으로 국소최소값에 멈춰서버릴 가능성이 항상 있다. **


물론 이걸 극복하려고 여러 방법들이 개발되었다. 


최근(?) 등장한 방법으로는 기울기에 관성을 줘서 국소최소값에 멈추지 말고 전체적인 기울기 방향으로 튀어나가게끔 하는 알고리즘이 개발되었다 (ADAM).


두 번째 문제점으로는 ** 역전파가 기울기소실 (gradient vanishing) 및 기울기폭발 (gradient exploding) 을 유도할 수 있다는 점이다. **


역전파는 적당히 얕은 네트워크에서 기울기를 계산할 수 있는 아주 효율적인 방법이었지만
그것보다 깊어지면 수치적으로 계산할 수 있는 기울기가 죽어버리던지
아주 극단값을 가지는 파라미터들에 대해서 국소 기울기가 거의 0이라 가중치 업데이트가 아예 안된다던지,

또는 동일 파라미터를 자꾸 곱하게 되는 바닐라 RNN의 경우 1 이상인 기울기들이 폭발하게된다던지 이런 문제가 생긴다.


a65614aa1f06b36792342549569975740c0df0952a29b745b249465a3957cd92


즉, 초기 레이어들이 뒷쪽 레이어에 비해 학습이 현저히 느려진다는 문제가 발생한다. 


gradient clipping, batch normalization 등 해결책들이 많이 제시되었는데 일단 여기서는 활성화 함수의 교체를 좀 집중해서 보겠다.


딥러닝은 nonlinear 함수를 맵핑하기 위해 활성화 함수라는 비선형 함수를 통과시킨다.

이러한 비선형 변환이 원래 데이터공간을 이리저리 휘게하기 때문에 매우 중요한데, 초기 딥러닝은 얘를 sigmoid라는 함수를 사용했다.



24b0d768f5dc3f8650bbd58b3684746a8e0afd


부드럽게 휘는게 딱봐도 비선형이다. 문제는 얘를 미분하면 나오는 기울기 최대값이 1/4이라는 점인데,
앞서 말했듯 뒤로 전파하면서 기울기가 1/4씩 잘려나가는 상황이 발생하게 된다.


그래서 비슷하게 생겼는데 좀 더 큰 값을 가지는 함수 tanh를 사용하는데..


24b0d766ad8371e87eb1d19528d52703d49154eeb5cdeb


이번에는 가중치가 너무 큰 값을 가졌을 때 기울기가 거의 0으로 수렴하는 문제가 생겨버렸다 (물론 sigmoid에도 같은 문제는 있다).


그래서 이번에는 아예 ReLU라는 정류함수를 가져와서 사용하게 된다.



24b0d766ad8071e87eb1d19528d527031993484ad70e98


깔끔하다! 그러나 ReLU의 경우에도 문제가 있는데, 가중치가 음수면 기울기가 0이 되어버려서 더 이상 업데이트 되지 않는 죽어버린 가중치가 되어버린다는 점이다.


이 문제를 dying ReLU라고 한다. 얘를 해결하기 위해 leakyReLU, GeLU와 같은 가중치가 음수여도 0이 아닌 기울기를 가지게 되는 함수들이 개발되었다.




자동등록방지

추천 비추천

44

고정닉 16

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2860 설문 경제관념 부족해서 돈 막 쓸 것 같은 스타는? 운영자 24/05/13 - -
454171 정보 구글 딥마인드 CEO "오픈AI 소라 따라잡기 어려울 것 [30] 특술람갤로그로 이동합니다. 04.09 2815 28
454156 정보 스팀사장 게이브뉴웰이 새로운 뉴럴링크 경쟁자로? [10] ㅇㅇ갤로그로 이동합니다. 04.09 1354 24
454142 일반 돌고 돌아서 이새끼면 개추 ㅋㅋ [1] ㅇㅇ(210.106) 04.09 1810 22
454135 일반 fsd 근황.. [15] ㅇㅇ(210.106) 04.09 1917 21
454085 정보 클로드를 탈옥해 '하이브 마인드'를 구축한 트위터 유저 [34] ㅇㅇ(218.52) 04.09 3305 38
454031 일반 카이스트 항암 신약 개발 소식.. ㄷㄷ [16] ㅇㅇ(175.125) 04.09 2070 20
454019 일반 클로드<<<gpt4인데??? [10] ㅇㅇ(61.79) 04.09 2099 13
453943 정보 20년 췌장암만 판 美 교수도 놀랐다 “전례 없는 치료 효과” [22] ㅇㅇ(211.59) 04.09 3521 30
453934 정보 핀란드 사일로, 북유럽 언어 위한 오픈 소스 LLM '바이킹' 출시 [2] ㅇㅇ(182.230) 04.08 197 10
453933 정보 엔비디아, 포춘 '일하기 좋은 기업' 3위 기록 [4] ㅇㅇ(182.230) 04.08 1340 14
453932 정보 오픈AI·메타·구글 "협상 대신 소송"...인터넷 데이터 마구잡이로 퍼가 [8] ㅇㅇ(182.230) 04.08 1632 18
453919 정보 데미스 허사비스는 팀의 사기를 회복하려고 노력함 [19] ㅇㅇ(123.100) 04.08 1951 18
453820 일반 특이점이 온다 인스타계정 만들었다 [40] 잇잇잇훈갤로그로 이동합니다. 04.08 2762 23
453779 정보 과학자 없는 AI 실험실 … 나노소재 직접 개발 [35] 니지카엘갤로그로 이동합니다. 04.08 3420 30
453776 정보 oai 소라팀 연구원"소라는 비디오의 gpt1" [20] ㅇㅇ(211.59) 04.08 2999 26
453773 일반 Ai 발전정체가 계속될 가능성이 높은이유 (삭제업) [48] ㅇㅇ(118.129) 04.08 3873 45
453735 정보 GPT한계 지적하던 트위터인 1만달러 현상금 결과.. [21] ㅇㅇ(123.100) 04.08 3231 31
453679 정보 컴퓨터비전의 GPT 모먼트가 왔다 (VAR) [39] ㅇㅇ(123.100) 04.08 3151 32
453678 정보 생각의 시각화는 대규모 언어 모델에서 공간 추론을 이끌어냅니다. [10] ㅇㅇ(125.191) 04.08 353 10
453653 일반 형님들 suno ai랑 ai휴먼 합성해봤습니다 [21] 레커(125.176) 04.07 3173 19
453643 정보 MoD: 트랜스포머 기반 언어 모델 최적화를 위한 접근법 [8] ㅇㅇ(182.230) 04.07 1220 20
453629 정보 AI 학습 데이터 시장 급속 확대..."단어에 1000개 당 1달러" [5] ㅇㅇ(182.230) 04.07 2106 17
453625 정보 MS·퀀티넘 "큐비트 안정화 성공..."양자 컴퓨팅 상용화 진입" [17] ㅇㅇ(182.230) 04.07 2245 31
453403 정보 인류의 독특한 지능 수준을 설명하는 데 규모가 필요한 전부 [42] 특술람갤로그로 이동합니다. 04.06 3861 21
453528 일반 알트만 피셜 과도기 기간 2주라네 [41] ㅇㅇ갤로그로 이동합니다. 04.07 4387 41
453492 일반 역노화 실험 내년부터 시작한다는듯 [27] ㅇㅇ(112.168) 04.07 4490 39
453485 일반 전 테슬라 연구원"fsd 차기 버전은 인간과 소통할 수 있는 agi 버전 [14] ㅇㅇ(211.59) 04.07 1774 16
453484 일반 oai 연구원"영상 생성은 모든 것을 시뮬레이션 하여 agi로 이어질것" [28] ㅇㅇ(211.59) 04.07 3302 32
453475 정보 "화산지대 암석 균열 속 열 흐름이 생명 기원 물질 생성 촉진" [3] ㅇㅇ(182.230) 04.07 1618 20
453458 일반 샘알트먼 & 사티나 나텔라 인터뷰 영상 [6] ㅇㅇ(211.107) 04.07 2154 29
453448 일반 싹다구속시켜.씨발.feel the agi.씹새끼들.꽉잡아라.노동시켜.노동 [34] 약중독고앵이갤로그로 이동합니다. 04.07 4260 93
453434 역노화 알츠하이머 치료제, 집에서 맞으며 관리하는 시대 열린다 [12] ㅇㅇ갤로그로 이동합니다. 04.07 1418 15
453431 일반 게임오바네 [13] ㅇㅇ갤로그로 이동합니다. 04.07 3803 60
453409 정보 알트먼, '챗GPT 전용 기기' 제조 위해 1.4조 모금 중 [15] ㅇㅇ(182.230) 04.06 2832 36
453377 일반 특이점으로 본 조1선붕당의 이해 [20] et갤로그로 이동합니다. 04.06 2368 63
453184 정보 "빅뱅 10억년 후, 우주의 시간은 '5배' 느렸다" [13] ㅇㅇ(182.230) 04.06 3075 25
453180 정보 람다, 'H100' GPU 담보로 6500억 대출 받아 [12] ㅇㅇ(182.230) 04.06 1880 23
453110 일반 아니 시발 이왜진? 작곡가들 쵸--비상!!!!!! [36] ㅇㅇ(222.118) 04.05 5557 44
452887 정보 염색체 말단 '텔로미어' 메커니즘 규명…"항암 치료 전략에 도움" [24] ㅇㅇ(182.230) 04.05 3501 23
452990 일반 인간 중위 데이터과학자를 능가하는 ai [17] 특술람갤로그로 이동합니다. 04.05 3521 28
452935 일반 "어이 샘! 오늘 트위터 근들갑 차례는 너라고!" [27] ㅇㅇ갤로그로 이동합니다. 04.05 3654 40
452927 일반 AI 일상화에 7100억원 투입···AI 혁명으로 한국 구조적 위기 극복 [33] Varian■Wrynn갤로그로 이동합니다. 04.05 3081 25
452894 정보 SKT, OAI 미세조정 서비스 이용해 큰 효과 [10] ㅇㅇ(123.100) 04.05 1960 17
452889 정보 인간 뇌 모방한 '뉴로모픽 신경망', 컴퓨팅 난제 해결했다 [9] ㅇㅇ(182.230) 04.05 2126 22
452884 정보 욱한 마음 누르는 뇌 원리 찾았다…'감정 조절' 치료 가능할까 [10] ㅇㅇ(182.230) 04.05 2430 25
452876 정보 Cohere, 강력한 오픈소스 LLM 공개(한국어 떡상) [8] ㅇㅇ(118.235) 04.05 2357 24
452868 정보 KAIST, 소비 전력 15배 줄이는 뉴로모픽 반도체 메모리 소자 개발 [3] ㅇㅇ(182.230) 04.05 302 10
452855 일반 중력 너머 우주서…인류 구할 ‘신약 개발 상용화’ 첫발 [31] ㅇㅇ갤로그로 이동합니다. 04.05 2230 25
452754 일반 나 이상한게 보여.. [28] ㅇㅇ(1.244) 04.04 4762 31
452727 정보 오픈ai가 투자한 자율주행 개발 회사가 운영을 중단함 [22] ㅇㅇ(211.59) 04.04 3643 22
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2