디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 트랜스포머 재밌는 특성(딥러닝갤 펌)

솔.이☆갤로그로 이동합니다. 2024.03.25 01:30:37
조회 3606 추천 35 댓글 25
														

a14b30ad2006b479aaf1c6bb11f11a39b526ab73cc4c1e53



캐리(carry)는 수학적인 덧셈이나 뺄셈 과정에서 한 자릿수의 계산 결과가 해당 자리의 최대값(대개 10)을 초과할 때 다음 자릿수로 넘겨주는 값을 의미합니다. 예를 들어, '8 + 7'의 계산에서 15가 되며, 이 경우 일의 자리인 5는 남기고, 10이 넘었으므로 1을 십의 자리로 넘겨주는데, 이를 '캐리'라고 합니다.

그러나 트랜스포머 알고리즘에서 말하는 '캐리'는 이와는 다소 다른 개념입니다. 트랜스포머 모델은 순차적인 데이터 처리를 위한 RNN이나 LSTM과 달리 '어텐션 메커니즘'을 사용하여 전체 시퀀스를 한 번에 처리합니다. 이 때문에 수학적 덧셈의 '캐리'와 같은 개념이 직접적으로 트랜스포머 모델에 적용되지는 않습니다.

트랜스포머 모델 내에서 시퀀스의 각 요소에 다른 요소들이 얼마나 중요한지를 결정하는 데 어텐션 메커니즘이 중심 역할을 하며, 이는 정보의 '가중치'를 분배하는 과정으로 볼 수 있습니다. 즉, 모델이 숫자를 거꾸로 처리하면서 높은 정확도를 보이는 것은 '캐리'가 아니라, 모델이 특정 정보(덧셈에서는 높은 자릿수의 숫자)에 더 높은 어텐션 가중치를 할당하여 이 정보를 더 잘 학습하기 때문일 수 있습니다.

따라서 이미지에서 보여지는 현상은 트랜스포머 모델이 숫자를 거꾸로 처리할 때, 어텐션 메커니즘을 통해 초기 단계에서 더 중요한 정보(예: 높은 자릿수의 숫자와 캐리)에 집중할 수 있기 때문에 더 나은 성능을 보이는 것으로 해석할 수 있습니다. 이는 트랜스포머의 어텐션 메커니즘이 전체 시퀀스에 대한 문맥을 학습하는 동안 중요한 정보를 강조하는 방식에 기인합니다.



얀르쿤이 왜 scale is all you need 에 부정적인지 이해가 될거 같기도 함...

자동등록방지

추천 비추천

35

고정닉 18

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
459664 정보 2시간만에 다이아몬드 생산 해냄.news [10] 007빵(175.194) 04.25 643 20
459649 일반 알트만 또 하나의 업보 적립... [9] ㅇㅇ(119.77) 04.25 1541 15
459625 일반 gpt5에 대한 기대감이 크게 떨어진 사건 [1] ㅇㅇ(221.168) 04.25 1221 17
459603 정보 "애플, 수요 부족으로 비전 프로 생산 조기 중단" [28] ㅇㅇ(182.230) 04.25 2300 23
459575 정보 미드저니 ceo "향후 12개월은 실시간 3d 비디오" [9] 특술람갤로그로 이동합니다. 04.25 2113 28
459556 일반 OpenAI 4월 29일 GPT4 업그레이드 가능성 [19] 모브갤로그로 이동합니다. 04.25 2654 19
459547 일반 특갤사이클 존나 웃기다니까 [6] ㅇㅇ(106.102) 04.25 1900 49
459519 일반 스탠포드 병신이 비밀이라 했던거 [19] ㅇㅇ(119.77) 04.25 2411 21
459493 일반 알트만 씨발놈 소식은 gpt5 공개될때까지 임시 언급금지 때리면 안됨? [10] ㅇㅇ(118.33) 04.25 2312 54
459489 정보 AI 모델에서 "그것"은 데이터셋이다. [7] ㅇㅇ(61.73) 04.25 1669 24
459484 일반 이거 ㅈㄴ웃기네 [19] 헬스토끼갤로그로 이동합니다. 04.25 2372 23
459478 일반 클로드 오늘 어마어마한 업뎃함 [10] ㅇㅇ(115.138) 04.25 663 10
459429 정보 플라톤 무덤 위치 미스터리, AI로 밝혀냈다 [29] ㅇㅇ갤로그로 이동합니다. 04.25 2728 34
459224 정보 상상할 수 있는 최악의 질문을 생성한 대가로 보상을 받는 '독성 AI' [16] ㅇㅇ갤로그로 이동합니다. 04.24 1441 20
459428 정보 모더나와 OpenAI가 협력하여 생명을 구하는 치료법 개발중 [10] ㅇㅇ(211.59) 04.25 1594 24
459454 정보 데이터셋이 전부라는 OAI 증언 [12] ㅇㅇ(119.77) 04.25 2131 26
459345 정보 일론 머스크 "옵티머스 로봇, 내년에 판매 시작" [28] 니지카엘갤로그로 이동합니다. 04.24 2439 28
459453 일반 open ai에 첫 h200 도착 [27] ㅇㅇ(175.124) 04.25 1880 30
459391 정보 다리오 아모데이 "무한 데이터 생성 가능" [9] ㅇㅇ(125.191) 04.24 856 12
459370 일반 지금 OpenAI가 출시 전 준비하는 건 맞는 듯 [14] 모브갤로그로 이동합니다. 04.24 2230 24
459245 일반 챗봇아레나 라마3 소식: 계속 순위가 오름; [22] ㅇㅇ(110.145) 04.24 2375 24
459203 정보 기억에 남을 순간, 시간이 '느리게' 느껴진다 [14] ㅇㅇ(182.230) 04.24 2941 29
459195 정보 OpenAI 블로그 새 글: 아동 안전 [4] 모브갤로그로 이동합니다. 04.24 889 19
459187 정보 아마존, 75만 대 이상의 로봇을 배치해 10만 명의 인력 대체 [10] 니지카엘갤로그로 이동합니다. 04.23 2776 27
459176 일반 GPT 토큰 5억 개 학습 후 얻은 교훈들 [21] ㅇㅇ(221.157) 04.23 3466 31
459059 정보 엔비디아, 10시간 만에 '알파폴드' 훈련 완료하는 '스케일폴드' 공개 [14] ㅇㅇ(182.230) 04.23 3105 33
459058 정보 세계 최초 AI 생성 유전자 편집기 ‘오픈크리스퍼-1’ 등장 [11] ㅇㅇ(182.230) 04.23 2510 27
459057 정보 중국 손절한 UAE, 미국과 잇달아 협업...MS 이어 퀄컴과 파트너십 [5] ㅇㅇ(182.230) 04.23 939 24
459053 일반 하사비스, 소라는 넘사벽이다 인정 [3] ㅇㅇ(218.147) 04.23 1414 26
459050 정보 MS, 삼성·LG·SK·하이닉스 대표 등과 5월 회동...파트너십 구축 [4] ㅇㅇ(182.230) 04.23 1391 28
459049 일반 갤에 올라왔던 유아의 언어 습득과 LLM 관련... [12] ㅇㅇ(1.245) 04.23 976 25
459028 정보 '한줌 흙으로'...친환경 '인간 퇴비장' 미국서 확산 [13] ㅇㅇ(182.230) 04.23 1157 18
458964 정보 Microsoft, Phi-3 발표 [18] ㅇㅇ(175.124) 04.23 2892 31
458899 정보 Meta, 퀘스트os 오픈소스 [15] ㅇㅇ(123.100) 04.23 1616 25
458401 정보 개인별 커스터마이징 가능한 "암백신" 개발중 [16] noosphere갤로그로 이동합니다. 04.21 2680 27
458785 일반 왜 '특이점이 온다'를 서점에서 팔죠..? [13] 떼껄룩해적단갤로그로 이동합니다. 04.22 3650 37
458759 일반 “K팝 이끌려 선택한 한국行, 하고 싶던 연구 맘껏” 뇌의 심장 제어 메 [8] 천재까마귀갤로그로 이동합니다. 04.22 1725 22
458758 정보 저커버그 "AI 학습 데이터보다 중요한 것은 피드백 루프" [4] ㅇㅇ(182.230) 04.22 1199 18
458703 일반 골빈해커 피셜 LLM의 미친 발전속도.jpg [10] lightvector갤로그로 이동합니다. 04.22 578 10
458659 정보 무스타파 술레이만, 인류를 위한 AI 발전 억제 주장 [9] 모브갤로그로 이동합니다. 04.22 594 19
458630 일반 선갤, 앰생몰이 거르고 인생 ㅈㄴ 고달픈 이유 [50] ㅇㅇ(125.133) 04.22 3045 32
458628 정보 ollama 포스트 : 라마3은 그렇게 검열 심하지 않은 편 [9] ㅇㅇ­갤로그로 이동합니다. 04.22 1363 17
458627 일반 FFF 저 시발련은 전략 바꿈 [9] ㅇㅇ(123.100) 04.22 422 11
458583 일반 (루머) GPT5는 5~10배 강하며, 기존 벤치마크 무의미 [30] ㅇㅇ(123.100) 04.22 3951 31
458384 정보 힌튼 "뇌를 여전히 이해하지 못할 가능성" [24] ㅇㅇ(121.132) 04.21 3625 25
458424 정보 요슈아 벤지오 인터뷰 요약 [3] ㅇㅇ(220.83) 04.21 1498 22
458428 정보 주커버그 인터뷰 - Llama 3, 100억달러 모델을 오픈소싱한 이유 [13] 니지카엘갤로그로 이동합니다. 04.21 2383 27
458521 정보 中 AGI 도약 위한 하이브리드 광자 AI 칩 개발 [27] ㅇㅇ갤로그로 이동합니다. 04.22 1549 20
458518 정보 구글, 아마존 등, 조용히 AI 기대치를 낮추는 중 [7] ㅇㅇ(123.100) 04.22 2723 18
458383 일반 인공지능 찬양하는 노래 하나 만들어봤음 [6] ㅇㅇ(220.118) 04.21 1394 26
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2