디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 트랜스포머 재밌는 특성(딥러닝갤 펌)

솔.이☆갤로그로 이동합니다. 2024.03.25 01:30:37
조회 3610 추천 35 댓글 25
														

a14b30ad2006b479aaf1c6bb11f11a39b526ab73cc4c1e53



캐리(carry)는 수학적인 덧셈이나 뺄셈 과정에서 한 자릿수의 계산 결과가 해당 자리의 최대값(대개 10)을 초과할 때 다음 자릿수로 넘겨주는 값을 의미합니다. 예를 들어, '8 + 7'의 계산에서 15가 되며, 이 경우 일의 자리인 5는 남기고, 10이 넘었으므로 1을 십의 자리로 넘겨주는데, 이를 '캐리'라고 합니다.

그러나 트랜스포머 알고리즘에서 말하는 '캐리'는 이와는 다소 다른 개념입니다. 트랜스포머 모델은 순차적인 데이터 처리를 위한 RNN이나 LSTM과 달리 '어텐션 메커니즘'을 사용하여 전체 시퀀스를 한 번에 처리합니다. 이 때문에 수학적 덧셈의 '캐리'와 같은 개념이 직접적으로 트랜스포머 모델에 적용되지는 않습니다.

트랜스포머 모델 내에서 시퀀스의 각 요소에 다른 요소들이 얼마나 중요한지를 결정하는 데 어텐션 메커니즘이 중심 역할을 하며, 이는 정보의 '가중치'를 분배하는 과정으로 볼 수 있습니다. 즉, 모델이 숫자를 거꾸로 처리하면서 높은 정확도를 보이는 것은 '캐리'가 아니라, 모델이 특정 정보(덧셈에서는 높은 자릿수의 숫자)에 더 높은 어텐션 가중치를 할당하여 이 정보를 더 잘 학습하기 때문일 수 있습니다.

따라서 이미지에서 보여지는 현상은 트랜스포머 모델이 숫자를 거꾸로 처리할 때, 어텐션 메커니즘을 통해 초기 단계에서 더 중요한 정보(예: 높은 자릿수의 숫자와 캐리)에 집중할 수 있기 때문에 더 나은 성능을 보이는 것으로 해석할 수 있습니다. 이는 트랜스포머의 어텐션 메커니즘이 전체 시퀀스에 대한 문맥을 학습하는 동안 중요한 정보를 강조하는 방식에 기인합니다.



얀르쿤이 왜 scale is all you need 에 부정적인지 이해가 될거 같기도 함...

자동등록방지

추천 비추천

35

고정닉 18

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
451051 정보 KBS 짐 켈러 3/29일자 최신 인터뷰 [16] ㅇㅇ­갤로그로 이동합니다. 03.30 1871 20
451126 역노화 노화된 면역체계 젋게 만드는 법 찾았다 [23] ㅇㅇ갤로그로 이동합니다. 03.31 1901 25
451030 일반 로이터 Open AI 다음모델 내년초 출시 기사 수정되었음. [14] ㅇㅇ(121.128) 03.30 2960 21
451027 정보 MS 코파일럿 AI를 위해서는 40TOPS 이상의 NPU가 필요 [1] ㅇㅇ(182.230) 03.30 1359 14
451026 일반 Gpt5 내년이라고?ㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 03.30 2241 23
451004 일반 오픈AI, Dall-E 3 업데이트 [17] ㅇㅇ(121.128) 03.30 3441 34
450989 정보 코드명 스타게이트와 헬리온 관련 추가 정보 [10] 모브갤로그로 이동합니다. 03.30 2012 29
450969 일반 언어 모델에 수학 능력 기대하지 마라 [25] ㅇㅇ(59.8) 03.30 3910 50
450930 정보 GPT5벌써 베타테스트하네 대기자받고있네 [7] ㅇㅇ(112.165) 03.30 660 10
450928 일반 비트넷 추가적인 재현 시도 [30] ㅇㅇ(141.223) 03.30 2600 48
450909 일반 전유물 사회는 절대 성공할수 없음. 역사가 그렇게 말함. [19] ㅇㅇ갤로그로 이동합니다. 03.30 1449 26
450793 일반 한때 수백억대 연봉 AI 연구원, "이제는 치킨집 사장이에요" [10] ㅇㅇ(211.200) 03.30 4142 72
450784 정보 아마존, 클로드 잡는 올림푸스 출격예정 [6] ㅇㅇ(61.108) 03.30 301 10
450759 일반 테슬라 옵티머스 라이브데모 연기됐네 ㅅㅂ ㅋㅋ ㅇㅇ(121.149) 03.30 932 20
450756 일반 딥마인드에서 기상예보 ai 만들었나보네 [3] ㅇㅇ갤로그로 이동합니다. 03.30 1126 22
450755 일반 니들은 놀라 자빠질것 언플하고 돈땡기는게 사기수법 아니냐 [17] ㅇㅇ(118.129) 03.30 2834 70
450714 정보 딥마인드 연구원 "다음 단어 예측으로도 충분" [9] ㅇㅇ갤로그로 이동합니다. 03.30 2182 37
450752 일반 진짜 지좆대로 AI 검열하는 기업 [15] ㅇㅇ갤로그로 이동합니다. 03.30 3307 75
450749 일반 알트만 생각은 이거 맞음? [4] ㅇㅇ(115.20) 03.30 1104 23
450746 일반 130조 프로젝트면 미친 결과물이 나오겠지? [1] ㅇㅇ(218.52) 03.30 890 22
450745 일반 과도기가 헬게이트겠네 [7] ㅇㅇ(121.131) 03.30 1439 21
450742 일반 마소는 agi를 확신 한다고 봐야지 [1] ㅇㅇ(211.59) 03.30 943 22
450736 일반 Agi까지 가는데 130조나 들여야함? [15] ㅇㅇ(219.254) 03.30 1307 18
450735 일반 개인적으로 무인 편의점은 [2] ㅇㅇ(125.191) 03.30 758 20
450721 정보 짐 켈러 최근 KBS다큐멘터리 출현해 한 말만 모아봄.mp4 [5] ㅇㅇ­갤로그로 이동합니다. 03.30 964 26
450719 일반 미니 하우스는 대체 언제나옴? [2] ㅇㅇ(121.152) 03.30 1104 22
450718 정보 OAI 보이스엔진 실제 음성 vs 생성 음성 [22] ㅇㅇ­갤로그로 이동합니다. 03.30 2050 38
450712 정보 닉 보스트롬 최신 인터뷰 [3] ㅇㅇ갤로그로 이동합니다. 03.30 1134 21
450709 일반 사진작가인데 요즘 두렵다 [12] ㅇㅇ갤로그로 이동합니다. 03.30 1343 18
450698 정보 'OAI- 마소' 스타게이트'는 5단계, 현재 3단계 [11] ㅇㅇ(123.100) 03.30 1811 23
450697 일반 솔직히 알트만은 좀 의심스러움 [4] ㅇㅇ(175.199) 03.30 1454 18
450668 정보 또 한명의 연구원이 OAI를 떠났다. [15] ㅇㅇ(123.100) 03.30 3250 32
450661 일반 브록만아 추하다. [2] ㅇㅇ(123.100) 03.30 1801 22
450658 일반 경영학과로서 전유물론 자체를 이해못했었다 [30] ㅇㅇ갤로그로 이동합니다. 03.30 1632 41
450627 정보 MS와 OpenAI, 1000억 달러 규모의 AI 슈퍼컴퓨터 계획 [17] ㅇㅇ(182.230) 03.30 2876 34
450626 일반 보이스엔진 요약 [6] ㅇㅇ(1.230) 03.30 2483 50
450608 정보 OpenAI, 보이스 엔진 선공개 [13] 모브갤로그로 이동합니다. 03.30 2964 47
450590 일반 진짜 이런말 하기 싫긴한데 [19] ㅇㅇ갤로그로 이동합니다. 03.30 3522 52
450587 일반 통신 3사 저새끼들 ai만들면 전유물한다 [8] ㅇㅇ갤로그로 이동합니다. 03.30 295 10
450584 일반 OpenAI 새 트윗: ChatGPT 기능 추가 [21] 모브갤로그로 이동합니다. 03.30 2719 39
450578 정보 백악관 “공항서 AI 안면 인식 거부권 보장” [29] ㅇㅇ갤로그로 이동합니다. 03.30 1632 20
450577 일반 이걸로 선형주작하네 ㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ갤로그로 이동합니다. 03.30 1686 32
450555 정보 앤트로픽, 아마존서 3.7조 투자 유치... MS-오픈AI 투자 넘어 [16] ㅇㅇ(182.230) 03.29 1532 32
450549 정보 엔비디아, 6개월 새 GPU 추론 속도 3배 증가 [5] ㅇㅇ(182.230) 03.29 1754 23
450545 정보 미 저작권청 "연내 저작권 보상 가이드 라인 제시할 것" [1] ㅇㅇ(182.230) 03.29 1110 21
450544 일반 비트넷 결과 부분 재현 성공 [32] oo(141.223) 03.29 2038 39
450537 정보 MS, '코파일럿이 챗GPT보다 성능 떨어진다' 불만 시달려 [5] ㅇㅇ(182.230) 03.29 1156 20
450533 정보 "GPT-4 다시 게을러져...클로드 3로 갈아타자" 여론 확산 [3] ㅇㅇ(182.230) 03.29 1798 27
450529 정보 MS, AI 챗봇의 탈옥 방지·환각 감지 위한 도구 공개 [3] ㅇㅇ(182.230) 03.29 1107 20
450521 정보 오픈AI "GPT 스토어 수익공유 시스템 테스트 중" [5] ㅇㅇ(182.230) 03.29 1286 22
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2