디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상

aimatters갤로그로 이동합니다. 2025.12.01 18:43:16
조회 82 추천 0 댓글 0
														


중국 알리바바의 Qwen 팀이 AI 언어모델의 오래된 문제를 해결하는 간단한 방법을 찾아냈다. 마치 문지기처럼 작동하는 '게이트'라는 장치를 AI 내부에 추가했더니, 성능이 크게 좋아지고 학습도 안정적으로 이뤄졌다. 특히 AI가 대화나 글의 첫 부분만 과도하게 집중하는 '어텐션 싱크'라는 고질적 문제가 완전히 사라졌다. 해당 논문에 따르면, 연구팀은 150억 개 파라미터 규모의 모델과 17억 개 규모의 모델에서 30가지 이상의 실험을 진행했고, 3조 5,000억 개의 단어 데이터로 검증했다.



문지기 역할 하는 '게이트' 추가했더니 AI 성능 껑충 뛰었다

연구팀은 AI가 정보를 처리하는 핵심 부분인 '어텐션 레이어' 5곳에 게이트를 설치하는 실험을 했다. 게이트는 일종의 필터나 문지기 역할을 한다. 중요한 정보는 통과시키고 불필요한 정보는 걸러내는 식이다. 실험 결과, '스케일드 닷 프로덕트 어텐션' 출력 직후에 게이트를 달았을 때 효과가 가장 좋았다.

150억 개 파라미터 모델에 게이트를 추가하자 AI가 다음에 올 단어를 더 정확하게 예측하게 됐고, 대학 수준의 지식을 묻는 시험에서도 더 많은 문제를 맞혔다. 예를 들어 100문제 중 59문제를 맞히던 AI가 게이트를 단 후에는 61문제를 맞히는 수준으로 개선된 것이다. 수학 문제 풀이나 일반 상식 질문 등 다양한 영역에서 일관되게 성능이 좋아졌다.

게이트를 어떻게 다느냐도 중요했다. AI는 하나의 정보를 여러 개의 '주의 헤드'로 동시에 처리하는데, 이는 마치 여러 사람이 같은 글을 각자 다른 관점에서 읽는 것과 비슷하다. 각 헤드마다 독립적인 게이트를 달아줬더니 효과가 좋았다. 추가된 부품의 양은 전체 모델 크기에 비하면 아주 적었지만, 성능 향상은 확실했다.

반대로 여러 헤드가 하나의 게이트를 함께 쓰게 하면 효과가 떨어졌다. 이는 각 헤드가 서로 다른 역할을 하기 때문에 각자의 문지기가 필요하다는 뜻이다. 또한 게이트가 정보를 곱하는 방식으로 조절할 때가 더하는 방식보다 나았고, 시그모이드라는 특정 계산 방법을 썼을 때 가장 좋은 결과가 나왔다.



AI 학습 중 발생하는 '멘붕' 현상 거의 사라져

게이트를 추가하자 AI의 성능만 좋아진 게 아니라 학습 과정 자체도 훨씬 안정적으로 바뀌었다. 17억 개 파라미터 모델을 3조 개의 단어로 학습시키는 실험에서 이 차이가 확연히 드러났다. 게이트가 있는 모델은 학습 중에 '손실 스파이크'라는 문제가 거의 발생하지 않았다. 손실 스파이크는 AI가 순조롭게 학습하다가 갑자기 성능이 확 떨어지는 현상이다. 마치 학생이 공부를 잘하다가 갑자기 멘붕에 빠져서 이전에 알던 것까지 까먹는 것과 비슷하다. 이런 돌발 상황이 줄어들자 연구자들은 AI를 더 빠르게 학습시킬 수 있는 공격적인 설정을 사용할 수 있게 됐다.

48개 층을 쌓은 17억 파라미터 모델에서 실험했을 때 그 차이는 더욱 분명했다. 기존 모델은 학습 속도를 높이면 중간에 완전히 망가져 버렸다. 반면 게이트를 단 모델은 똑같이 빠른 속도로 학습시켜도 끝까지 안정적으로 학습을 마쳤다.

연구팀은 비교를 위해 '샌드위치 정규화'라는 다른 안정화 방법도 시험해 봤다. 이 방법을 쓰면 기존 모델도 간신히 학습을 마칠 수는 있었다. 하지만 최종 성능 개선은 거의 없었다. 게이트를 쓴 모델만이 빠른 학습 속도와 좋은 성능을 동시에 달성했다.

게이트의 이런 효과는 한두 가지 조건에서만 나타난 게 아니었다. 층을 28개 쌓았을 때와 48개 쌓았을 때, 4,000억 개 단어로 학습시켰을 때와 3조 5,000억 개 단어로 학습시켰을 때, 다양한 학습 설정값을 사용했을 때 등 여러 상황에서 게이트는 일관되게 도움이 됐다. 이는 게이트가 특정 조건에서만 잘 작동하는 게 아니라 범용적으로 효과가 있다는 의미다.



게이트가 효과적인 두 가지 이유

연구팀은 왜 간단한 게이트 하나를 추가하는 것만으로 이렇게 큰 효과가 나타나는지 분석했다. 그 결과 두 가지 핵심 원리를 찾아냈다.

첫 번째는 정보 변환 과정에 '단계'를 추가했기 때문이다. AI 내부를 보면 밸류 변환과 출력 변환이라는 두 단계가 연속으로 일어난다. 문제는 이 두 단계가 모두 선형 변환이라서 수학적으로 하나로 합쳐질 수 있다는 점이다. 합쳐지면 AI의 표현 능력이 제한된다. 게이트를 두 단계 사이에 끼워 넣으면 비선형 요소가 추가되면서 두 단계가 완전히 분리된다. 이렇게 되면 AI가 더 복잡한 패턴을 학습할 수 있게 된다. 실제로 게이트 대신 '정규화'라는 다른 비선형 기법을 써봤을 때도 비슷한 효과가 나타났다. 이는 두 변환 단계 사이에 비선형 요소를 넣는 것 자체가 중요하다는 사실을 확인해준다.

두 번째는 '선택적 차단'을 했기 때문이다. 효과가 좋은 게이트들을 분석해 보니 대부분의 정보를 차단하고 정말 중요한 것만 통과시키는 특징이 있었다. 가장 성능이 좋았던 게이트는 평균적으로 11.6%의 정보만 통과시키고 나머지 88.4%는 차단했다. 반대로 여러 헤드가 하나의 게이트를 공유하게 만들었더니 개방도가 27.1%로 올라갔고, 성능도 떨어졌다. 즉, 더 많이 차단할수록 오히려 성능이 좋아진 것이다. 이는 불필요한 정보를 과감하게 걸러내는 게 중요하다는 뜻이다.

더 흥미로운 점은 이 차단이 고정된 게 아니라 '상황에 따라 달라진다'는 것이다. AI가 지금 처리하고 있는 질문에 따라 어떤 과거 정보를 통과시킬지 막을지를 매번 다르게 결정한다. 같은 정보라도 질문에 따라 필요할 수도, 불필요할 수도 있기 때문이다.



'첫 단어 집착증' 거의 사라지고 긴 컨텍스트 성능 크게 향상

게이트의 가장 주목할 만한 효과는 '어텐션 싱크'를 대폭 줄인 것이다. 어텐션 싱크는 AI가 글이나 대화의 첫 부분, 특히 맨 첫 단어에 과도하게 집중하는 현상이다. 기존 모델은 주의력의 절반 가까이를 첫 단어에 쏟았고, 심한 경우 주의력 대부분이 첫 단어에만 쏠렸다. 이는 학생이 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같다. 하지만 게이트를 단 모델은 첫 단어에 쏟는 주의력이 극소량으로 줄어들었다.

게이트는 또한 'AI 내부 값 폭증'이라는 문제도 해결했다. 이는 AI 내부에서 처리하는 숫자들이 비정상적으로 커지는 현상이다. 기존 모델은 초반 층에서 이런 큰 값들이 발생했고, 이 값들이 이후 과정 전체에 계속 영향을 미쳤다. 게이트를 단 모델은 이런 값 폭증 현상이 대폭 줄어들었다. 흥미롭게도 밸류 레이어에만 게이트를 달면 값 폭증은 줄지만 첫 단어 집착증은 여전했다. 이는 값 폭증이 반드시 첫 단어 집중을 일으키는 건 아님을 보여준다.

첫 단어 집착증이 줄어들자 긴 글 이해 능력도 크게 좋아졌다. 연구팀은 AI가 한 번에 처리할 수 있는 글 길이를 기존보다 네 배 늘리는 실험을 했다. 기존 학습 길이 범위에서는 게이트 모델이 기존 모델보다 약간 나은 수준이었다. 하지만 그 범위를 넘어 두 배, 네 배로 늘어나자 차이가 극명해졌다. 가장 긴 글 길이에서 게이트 모델은 기존 모델보다 거의 두 배 좋은 성능을 보였다.



FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 게이트 어텐션이 뭔가요?

A. AI가 정보를 처리할 때 중간에 문지기 역할을 하는 장치를 추가한 기술입니다. 중요한 정보는 통과시키고 불필요한 정보는 차단해서 AI가 더 똑똑해지고 안정적으로 학습할 수 있게 만듭니다.

Q. 어텐션 싱크가 뭐길래 문제인가요?

A. AI가 글이나 대화의 첫 부분만 과도하게 집중하는 현상입니다. 마치 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같아서, 긴 글을 이해하는 능력이 떨어집니다. 게이트를 추가하면 이 문제가 사라집니다.

Q. 이 기술을 실제로 어떻게 쓰나요?

A. AI 내부의 정보 처리 단계 중간에 간단한 게이트만 추가하면 됩니다. 알리바바 팀이 코드를 공개할 예정이고, 추가 비용도 거의 들지 않아서 누구나 쉽게 적용할 수 있습니다.



해당 기사에 인용된 논문 원문은 오픈리뷰에서 확인 가능하다.

논문명: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 주류 모델하면 매출 폭등시킬 것 같은 아이돌 스타는? 운영자 26/01/05 - -
1764 오픈AI, 'GPT-5.2' 공개... “제미나이3 보다 성능 좋아” aimatters갤로그로 이동합니다. 25.12.12 48 0
1763 디즈니, 오픈AI에 1조 투자… 소라로 캐릭터 AI 영상 제작 허용 aimatters갤로그로 이동합니다. 25.12.12 126 1
1762 생성형 AI 사용자 1년 만에 2배 급증… 뉴스 제작엔 여전히 ‘회의적’ aimatters갤로그로 이동합니다. 25.12.12 35 0
1761 "하루 1시간씩 AI와 산다"... Z세대 70% 챗GPT 세대 입증, 신뢰도는 72%→58% 급락 [1] aimatters갤로그로 이동합니다. 25.12.12 71 0
1760 AI 성공 비결은 기술 아닌 '사람'... 맥킨지가 밝힌 기업의 진짜 ‘AI 경쟁력’ aimatters갤로그로 이동합니다. 25.12.12 50 0
1759 [12월 12일 AI 뉴스 브리핑] 애피어, ‘AI 에이전트 로드쇼’ 성료… ROI 향상을 위한 최신 AI 마케팅 솔루션 공개 외 aimatters갤로그로 이동합니다. 25.12.12 74 0
1758 '올해 최악 광고' 비난 받은 맥도날드 AI 크리스마스 광고, 결국 삭제 aimatters갤로그로 이동합니다. 25.12.11 96 0
1757 "AI로 만들었습니다" 표시 의무화… 한국 정부, AI 생성물 의무 표시제 도입 aimatters갤로그로 이동합니다. 25.12.11 259 0
1756 미국 국방부, 직원들에 구글 제미나이 전면도입… "전쟁의 미래는 AI" aimatters갤로그로 이동합니다. 25.12.11 55 0
1755 어도비, 챗GPT에 포토샵 통합… "말만 하면 전문가급 편집" aimatters갤로그로 이동합니다. 25.12.11 171 0
1754 AI 작곡 시대 개막... 13만 곡 분석했더니 "사람 노래와 구분 불가" aimatters갤로그로 이동합니다. 25.12.11 274 1
1753 챗GPT로 공부하면 성적 오를까? 대학생들 실제로 챗GPT 어떻게 사용하나 봤더니 [1] aimatters갤로그로 이동합니다. 25.12.11 316 0
1752 AI 페르소나로 진행한 연구들, 믿을 수 있을까?... “10건 중 6건이 부실” aimatters갤로그로 이동합니다. 25.12.11 49 0
1751 [12월 11일 AI 뉴스 브리핑] SKAI인텔리전스·코바코·EBS, AI 광고 제작 협력 체계 구축 외 aimatters갤로그로 이동합니다. 25.12.11 37 0
1750 구글 코리아, 대학생이 뽑은 제미나이 활용법 12선 공개 aimatters갤로그로 이동합니다. 25.12.10 3442 0
1749 오픈AI, 챗GPT 안에서 배우는 AI 인증 과정 출시... "AI 기술자 50% 더 번다" aimatters갤로그로 이동합니다. 25.12.10 57 0
1748 구글, 2026년 첫 AI 안경 출시… 화면 없는 모델·인-렌즈 디스플레이 탑재 [20] aimatters갤로그로 이동합니다. 25.12.10 1652 3
1747 미국 10대 10명 중 6명 'AI 챗봇 쓴다'... 유튜브·틱톡 넘어 새 일상으로 aimatters갤로그로 이동합니다. 25.12.10 72 0
1746 연봉 격차가 AI 격차로... 퍼플렉시티-하버드, AI 에이전트 사용 연구 결과 공개 [2] aimatters갤로그로 이동합니다. 25.12.10 1568 0
1745 AI가 코드 짰다고 솔직히 말하면 손해볼까?... 깃허브 1만 4천 건 분석 결과는 '의외' [1] aimatters갤로그로 이동합니다. 25.12.10 87 0
1744 [12월 10일 AI 뉴스 브리핑] 챗GPT, 2025년 한국에서 가장 많이 성장한 앱 1위 외 aimatters갤로그로 이동합니다. 25.12.10 84 0
1743 한국인 10명 중 7명 "AI 써봤다"… 챗GPT 독주 속 '공짜 AI 시대' 열렸다 aimatters갤로그로 이동합니다. 25.12.09 93 0
1742 "내 사진에 AI로 옷 입혀보고 바로 구매"… 구글 패션 앱 '도플' 업데이트 aimatters갤로그로 이동합니다. 25.12.09 113 0
1741 로봇택시·AI 비서 시대 온다지만... 5년 뒤 AI 세상, 결국 부자만 누린다 aimatters갤로그로 이동합니다. 25.12.09 48 1
1740 68만 유튜버 조코딩, 연봉 4천 받고 수익 나누는 '1인 창업가' 채용 나서 aimatters갤로그로 이동합니다. 25.12.09 99 0
1739 박쥐도 싸울 때 말 많아진다... AI가 밝혀낸 동물 언어의 비밀 [5] aimatters갤로그로 이동합니다. 25.12.09 678 7
1738 오픈AI, 기업 AI 현황 리포트 공개… “AI 사용량 8배 급증, 업무 시간 하루 최대 1시간 절감” aimatters갤로그로 이동합니다. 25.12.09 64 0
1737 2024년엔 '우려', 2025년엔 '동반자'... 1년 만에 시민 AI 인식 대반전 aimatters갤로그로 이동합니다. 25.12.09 34 0
1736 [12월 9일 AI 뉴스 브리핑] 엘리스그룹-현대차, 제조 현장 이미지 AI 솔루션 개발 외 aimatters갤로그로 이동합니다. 25.12.09 31 0
1735 구글, '나노 바나나 2 플래시' 출시 임박… 더 저렴한 비용에 프로급 성능 aimatters갤로그로 이동합니다. 25.12.08 308 0
1734 챗GPT, 경제학자·투자자 예측 대결서 160명 중 80등... 효율성은 인간 압도 aimatters갤로그로 이동합니다. 25.12.08 85 0
1733 일론 머스크·저크버그 얼굴 달린 로봇 개 영상 화제… 1.5억 가격에도 전 작품 완판 [5] aimatters갤로그로 이동합니다. 25.12.08 1486 1
1732 [신간] 건강 관리, 취업 준비, 사업 준비까지… AI 일상 활용법 담은 『시켜보니 다 되는 생활밀착형 AI』 aimatters갤로그로 이동합니다. 25.12.08 53 0
1731 "40년 숙제 풀었다"… AI 만난 로봇 손, 드디어 인간처럼 물건 만진다 aimatters갤로그로 이동합니다. 25.12.08 107 0
1730 GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개 [5] aimatters갤로그로 이동합니다. 25.12.08 2728 5
1729 AI가 경제 활동하면 생기는 일… “배달 시켰더니 돈 다 써서 스쿠터만 사고 안 써” aimatters갤로그로 이동합니다. 25.12.08 68 0
1728 [12월 8일 AI 뉴스 브리핑] 서울AI재단, AI를 '동반자'로 인식하는 시민 37.2% 달해 외 aimatters갤로그로 이동합니다. 25.12.08 44 0
1727 ‘~가 뭐야?’ 구글, 2025년 검색 트렌드 발표... “대화형 질문 사상 최대치” aimatters갤로그로 이동합니다. 25.12.05 57 0
1726 AI 챗봇, 정치 광고보다 4배 효과적... 설득력 높을수록 거짓 정보 증가 aimatters갤로그로 이동합니다. 25.12.05 56 0
1725 앤트로픽 CEO "일부 AI 기업은 욜로 중"… 오픈AI 저격하나 aimatters갤로그로 이동합니다. 25.12.05 57 0
1724 한국, 2026년 AI 기본법으로 '규제 업그레이드'… OECD, 아시아 금융 AI 정책 분석 보고서 공개 aimatters갤로그로 이동합니다. 25.12.05 49 0
1723 “검사 안 해도 돼요” AI 의사 말 믿었다간... 심각한 오류 4건 중 3건이 '진단 누락' aimatters갤로그로 이동합니다. 25.12.05 106 0
1722 [12월 5일 AI 뉴스 브리핑] 홈쇼핑모아, 2025 올해의 브랜드… 로보락·AHC 등 선정 외 aimatters갤로그로 이동합니다. 25.12.05 130 0
1721 한국 AI 인력 5.7만 명 시대... 한국은행 "고학력·고임금에도 해외 유출 심각" aimatters갤로그로 이동합니다. 25.12.05 97 0
1720 AWS, 클릭 몇 번으로 맞춤형 AI 모델 만든다... 신규 기능 대거 발표 aimatters갤로그로 이동합니다. 25.12.04 57 0
1719 아마존, AWS 리인벤트 2025서 차세대 AI 칩 ‘트레이니엄3’ 공개 aimatters갤로그로 이동합니다. 25.12.04 59 0
1718 챗GPT, 한국 사용자 2천만 돌파… 한국인 AI 앱 사용 순위 Top 10 공개 aimatters갤로그로 이동합니다. 25.12.04 294 0
1717 챗GPT가 거짓말하면 스스로 자백하게 만든다... 오픈AI, ‘고백’ 시스템 공개 [15] aimatters갤로그로 이동합니다. 25.12.04 2886 4
1716 AI 에이전트 개발자 96%, 도구 하나로는 부족..."여러 개 섞어 쓰는 게 대세" aimatters갤로그로 이동합니다. 25.12.04 116 0
1715 NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다" aimatters갤로그로 이동합니다. 25.12.04 142 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2