디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 트랜스포머 재밌는 특성(딥러닝갤 펌)

솔.이☆갤로그로 이동합니다. 2024.03.25 01:30:37
조회 3608 추천 35 댓글 25
														

a14b30ad2006b479aaf1c6bb11f11a39b526ab73cc4c1e53



캐리(carry)는 수학적인 덧셈이나 뺄셈 과정에서 한 자릿수의 계산 결과가 해당 자리의 최대값(대개 10)을 초과할 때 다음 자릿수로 넘겨주는 값을 의미합니다. 예를 들어, '8 + 7'의 계산에서 15가 되며, 이 경우 일의 자리인 5는 남기고, 10이 넘었으므로 1을 십의 자리로 넘겨주는데, 이를 '캐리'라고 합니다.

그러나 트랜스포머 알고리즘에서 말하는 '캐리'는 이와는 다소 다른 개념입니다. 트랜스포머 모델은 순차적인 데이터 처리를 위한 RNN이나 LSTM과 달리 '어텐션 메커니즘'을 사용하여 전체 시퀀스를 한 번에 처리합니다. 이 때문에 수학적 덧셈의 '캐리'와 같은 개념이 직접적으로 트랜스포머 모델에 적용되지는 않습니다.

트랜스포머 모델 내에서 시퀀스의 각 요소에 다른 요소들이 얼마나 중요한지를 결정하는 데 어텐션 메커니즘이 중심 역할을 하며, 이는 정보의 '가중치'를 분배하는 과정으로 볼 수 있습니다. 즉, 모델이 숫자를 거꾸로 처리하면서 높은 정확도를 보이는 것은 '캐리'가 아니라, 모델이 특정 정보(덧셈에서는 높은 자릿수의 숫자)에 더 높은 어텐션 가중치를 할당하여 이 정보를 더 잘 학습하기 때문일 수 있습니다.

따라서 이미지에서 보여지는 현상은 트랜스포머 모델이 숫자를 거꾸로 처리할 때, 어텐션 메커니즘을 통해 초기 단계에서 더 중요한 정보(예: 높은 자릿수의 숫자와 캐리)에 집중할 수 있기 때문에 더 나은 성능을 보이는 것으로 해석할 수 있습니다. 이는 트랜스포머의 어텐션 메커니즘이 전체 시퀀스에 대한 문맥을 학습하는 동안 중요한 정보를 강조하는 방식에 기인합니다.



얀르쿤이 왜 scale is all you need 에 부정적인지 이해가 될거 같기도 함...

자동등록방지

추천 비추천

35

고정닉 18

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
455076 AI창 그냥 존나 아름답네 [21] ㅇㅇ갤로그로 이동합니다. 04.12 4681 33
455063 정보 구글, '생성 AI 사진 편집' 기능 무료로 확대 [10] ㅇㅇ(182.230) 04.11 1990 16
455061 정보 GPU 배송 2~3개월로 단축..."연말쯤 지연 없어질 것" [5] ㅇㅇ(182.230) 04.11 1654 18
454901 정보 구글 무한 컨텍스트 트랜스포머 발표 [11] 특술람갤로그로 이동합니다. 04.11 2424 22
454792 정보 현재까지 인류가 만든 가장 정확하고 큰 뇌지도 [11] ㅇㅇ(220.118) 04.11 3900 31
454778 정보 전례없는 해상도로 뇌를 스캔하는 초강력 MRI [4] ㅇㅇ(182.230) 04.11 882 17
454739 일반 작년에 내년 4월초까지도 GPT5 안나왔을줄 상상도 못했으면 개추ㅋㅋ [9] ㅇㅇ(121.130) 04.11 2783 46
454712 정보 메타, '라마 3' 대형 버전 매개변수는 1400억개 [7] ㅇㅇ(182.230) 04.10 1838 21
454698 정보 달 표면 티타늄, 맨틀까지 가라앉았다가 분출됐다 [3] ㅇㅇ(182.230) 04.10 1694 18
454689 AI창 Suno 킬러 AI 출시기념 [20] ㅇㅇ갤로그로 이동합니다. 04.10 2850 35
454679 일반 udio 미쳤는데? [23] 디시콘발사대갤로그로 이동합니다. 04.10 2465 20
454676 정보 Suno 킬러, Udio 공식 출사표! (무료 제공 ㅎㄷㄷ) [10] ㅇㅇ(123.100) 04.10 2252 23
454664 일반 gpt터보 0409 성능테스트 결과가 죄다 제각각이네 [3] ㅇㅇ(175.213) 04.10 1194 17
454645 정보 미스트랄 새 모델 오픈소스ㄷㄷㄷ [9] ㅇㅇ(123.100) 04.10 1552 18
454548 일반 코딩은 더 성능 떨어진다 ㄷㄷㄷ [3] ㅇㅇ(121.190) 04.10 3305 20
454498 정보 Gpt4 turbo 0409 코딩점수도 올랐음 [7] 특술람갤로그로 이동합니다. 04.10 1947 22
454437 정보 메타 "AGI 도약 방법 발견...'트랜스포머'와 다른 아키텍처 개발 중 [34] ㅇㅇ(211.59) 04.10 2913 31
454397 일반 GPT4 터보 레전드 [14] et갤로그로 이동합니다. 04.10 2678 20
454356 일반 Gpt-4 터보0409 AlpacaEval2.0 벤치결과 [12] 특술람갤로그로 이동합니다. 04.10 2222 19
454328 일반 gpt4 터보 수학 후기.. [5] ㅇㅇ(123.100) 04.10 1904 15
454310 정보 새로운 GPT-4 turbo, 엄청나게 개선(특히 수학) [10] ㅇㅇ(123.100) 04.10 2292 19
454302 정보 OpenAI, GPT-4 Turbo 크게 개선된 모델 배포 [8] ㅇㅇ(123.100) 04.10 2375 18
454269 정보 인텔 새로운 칩 Gaudi3 공개 [10] ㅇㅇ(211.59) 04.10 1785 24
454227 정보 스태빌리티 AI, 120억 매개변수 ‘LM 2’ 출시…"sLM 최강" [4] ㅇㅇ(182.230) 04.09 1294 19
454222 정보 "메타·MS도 인종 편향"...빅테크 생성 AI 잇단 구설수 [7] ㅇㅇ(182.230) 04.09 1281 16
454213 정보 머스크 "그록-2.0 다음달까지 훈련...GPU가 부족해" [5] ㅇㅇ(182.230) 04.09 1620 19
454205 정보 구글도 'AI 에이전트' 개발 중...딥마인드에 전담 조직 구성 [2] ㅇㅇ(182.230) 04.09 1018 16
454196 정보 핵융합 근황 [17] 007빵(175.194) 04.09 2927 35
454171 정보 구글 딥마인드 CEO "오픈AI 소라 따라잡기 어려울 것 [30] 특술람갤로그로 이동합니다. 04.09 2807 28
454156 정보 스팀사장 게이브뉴웰이 새로운 뉴럴링크 경쟁자로? [10] ㅇㅇ갤로그로 이동합니다. 04.09 1319 24
454142 일반 돌고 돌아서 이새끼면 개추 ㅋㅋ [1] ㅇㅇ(210.106) 04.09 1801 22
454135 일반 fsd 근황.. [15] ㅇㅇ(210.106) 04.09 1903 21
454085 정보 클로드를 탈옥해 '하이브 마인드'를 구축한 트위터 유저 [34] ㅇㅇ(218.52) 04.09 3201 38
454031 일반 카이스트 항암 신약 개발 소식.. ㄷㄷ [16] ㅇㅇ(175.125) 04.09 2049 20
454019 일반 클로드<<<gpt4인데??? [10] ㅇㅇ(61.79) 04.09 2055 13
453943 정보 20년 췌장암만 판 美 교수도 놀랐다 “전례 없는 치료 효과” [22] ㅇㅇ(211.59) 04.09 3499 30
453934 정보 핀란드 사일로, 북유럽 언어 위한 오픈 소스 LLM '바이킹' 출시 [2] ㅇㅇ(182.230) 04.08 187 10
453933 정보 엔비디아, 포춘 '일하기 좋은 기업' 3위 기록 [4] ㅇㅇ(182.230) 04.08 1333 14
453932 정보 오픈AI·메타·구글 "협상 대신 소송"...인터넷 데이터 마구잡이로 퍼가 [8] ㅇㅇ(182.230) 04.08 1613 18
453919 정보 데미스 허사비스는 팀의 사기를 회복하려고 노력함 [19] ㅇㅇ(123.100) 04.08 1943 18
453820 일반 특이점이 온다 인스타계정 만들었다 [40] 잇잇잇훈갤로그로 이동합니다. 04.08 2748 23
453779 정보 과학자 없는 AI 실험실 … 나노소재 직접 개발 [35] 니지카엘갤로그로 이동합니다. 04.08 3416 30
453776 정보 oai 소라팀 연구원"소라는 비디오의 gpt1" [20] ㅇㅇ(211.59) 04.08 2987 26
453773 일반 Ai 발전정체가 계속될 가능성이 높은이유 (삭제업) [48] ㅇㅇ(118.129) 04.08 3832 45
453735 정보 GPT한계 지적하던 트위터인 1만달러 현상금 결과.. [21] ㅇㅇ(123.100) 04.08 3218 31
453679 정보 컴퓨터비전의 GPT 모먼트가 왔다 (VAR) [39] ㅇㅇ(123.100) 04.08 3139 32
453678 정보 생각의 시각화는 대규모 언어 모델에서 공간 추론을 이끌어냅니다. [10] ㅇㅇ(125.191) 04.08 346 10
453653 일반 형님들 suno ai랑 ai휴먼 합성해봤습니다 [21] 레커(125.176) 04.07 3087 19
453643 정보 MoD: 트랜스포머 기반 언어 모델 최적화를 위한 접근법 [8] ㅇㅇ(182.230) 04.07 1213 20
453629 정보 AI 학습 데이터 시장 급속 확대..."단어에 1000개 당 1달러" [5] ㅇㅇ(182.230) 04.07 2078 17
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2