LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상

aimatters · 2025.12.01 18:43:16

중국 알리바바의 Qwen 팀이 AI 언어모델의 오래된 문제를 해결하는 간단한 방법을 찾아냈다. 마치 문지기처럼 작동하는 '게이트'라는 장치를 AI 내부에 추가했더니, 성능이 크게 좋아지고 학습도 안정적으로 이뤄졌다. 특히 AI가 대화나 글의 첫 부분만 과도하게 집중하는 '어텐션 싱크'라는 고질적 문제가 완전히 사라졌다. 해당 논문에 따르면, 연구팀은 150억 개 파라미터 규모의 모델과 17억 개 규모의 모델에서 30가지 이상의 실험을 진행했고, 3조 5,000억 개의 단어 데이터로 검증했다.

문지기 역할 하는 '게이트' 추가했더니 AI 성능 껑충 뛰었다

연구팀은 AI가 정보를 처리하는 핵심 부분인 '어텐션 레이어' 5곳에 게이트를 설치하는 실험을 했다. 게이트는 일종의 필터나 문지기 역할을 한다. 중요한 정보는 통과시키고 불필요한 정보는 걸러내는 식이다. 실험 결과, '스케일드 닷 프로덕트 어텐션' 출력 직후에 게이트를 달았을 때 효과가 가장 좋았다.

150억 개 파라미터 모델에 게이트를 추가하자 AI가 다음에 올 단어를 더 정확하게 예측하게 됐고, 대학 수준의 지식을 묻는 시험에서도 더 많은 문제를 맞혔다. 예를 들어 100문제 중 59문제를 맞히던 AI가 게이트를 단 후에는 61문제를 맞히는 수준으로 개선된 것이다. 수학 문제 풀이나 일반 상식 질문 등 다양한 영역에서 일관되게 성능이 좋아졌다.

게이트를 어떻게 다느냐도 중요했다. AI는 하나의 정보를 여러 개의 '주의 헤드'로 동시에 처리하는데, 이는 마치 여러 사람이 같은 글을 각자 다른 관점에서 읽는 것과 비슷하다. 각 헤드마다 독립적인 게이트를 달아줬더니 효과가 좋았다. 추가된 부품의 양은 전체 모델 크기에 비하면 아주 적었지만, 성능 향상은 확실했다.

반대로 여러 헤드가 하나의 게이트를 함께 쓰게 하면 효과가 떨어졌다. 이는 각 헤드가 서로 다른 역할을 하기 때문에 각자의 문지기가 필요하다는 뜻이다. 또한 게이트가 정보를 곱하는 방식으로 조절할 때가 더하는 방식보다 나았고, 시그모이드라는 특정 계산 방법을 썼을 때 가장 좋은 결과가 나왔다.

AI 학습 중 발생하는 '멘붕' 현상 거의 사라져

게이트를 추가하자 AI의 성능만 좋아진 게 아니라 학습 과정 자체도 훨씬 안정적으로 바뀌었다. 17억 개 파라미터 모델을 3조 개의 단어로 학습시키는 실험에서 이 차이가 확연히 드러났다. 게이트가 있는 모델은 학습 중에 '손실 스파이크'라는 문제가 거의 발생하지 않았다. 손실 스파이크는 AI가 순조롭게 학습하다가 갑자기 성능이 확 떨어지는 현상이다. 마치 학생이 공부를 잘하다가 갑자기 멘붕에 빠져서 이전에 알던 것까지 까먹는 것과 비슷하다. 이런 돌발 상황이 줄어들자 연구자들은 AI를 더 빠르게 학습시킬 수 있는 공격적인 설정을 사용할 수 있게 됐다.

48개 층을 쌓은 17억 파라미터 모델에서 실험했을 때 그 차이는 더욱 분명했다. 기존 모델은 학습 속도를 높이면 중간에 완전히 망가져 버렸다. 반면 게이트를 단 모델은 똑같이 빠른 속도로 학습시켜도 끝까지 안정적으로 학습을 마쳤다.

연구팀은 비교를 위해 '샌드위치 정규화'라는 다른 안정화 방법도 시험해 봤다. 이 방법을 쓰면 기존 모델도 간신히 학습을 마칠 수는 있었다. 하지만 최종 성능 개선은 거의 없었다. 게이트를 쓴 모델만이 빠른 학습 속도와 좋은 성능을 동시에 달성했다.

게이트의 이런 효과는 한두 가지 조건에서만 나타난 게 아니었다. 층을 28개 쌓았을 때와 48개 쌓았을 때, 4,000억 개 단어로 학습시켰을 때와 3조 5,000억 개 단어로 학습시켰을 때, 다양한 학습 설정값을 사용했을 때 등 여러 상황에서 게이트는 일관되게 도움이 됐다. 이는 게이트가 특정 조건에서만 잘 작동하는 게 아니라 범용적으로 효과가 있다는 의미다.

게이트가 효과적인 두 가지 이유

연구팀은 왜 간단한 게이트 하나를 추가하는 것만으로 이렇게 큰 효과가 나타나는지 분석했다. 그 결과 두 가지 핵심 원리를 찾아냈다.

첫 번째는 정보 변환 과정에 '단계'를 추가했기 때문이다. AI 내부를 보면 밸류 변환과 출력 변환이라는 두 단계가 연속으로 일어난다. 문제는 이 두 단계가 모두 선형 변환이라서 수학적으로 하나로 합쳐질 수 있다는 점이다. 합쳐지면 AI의 표현 능력이 제한된다. 게이트를 두 단계 사이에 끼워 넣으면 비선형 요소가 추가되면서 두 단계가 완전히 분리된다. 이렇게 되면 AI가 더 복잡한 패턴을 학습할 수 있게 된다. 실제로 게이트 대신 '정규화'라는 다른 비선형 기법을 써봤을 때도 비슷한 효과가 나타났다. 이는 두 변환 단계 사이에 비선형 요소를 넣는 것 자체가 중요하다는 사실을 확인해준다.

두 번째는 '선택적 차단'을 했기 때문이다. 효과가 좋은 게이트들을 분석해 보니 대부분의 정보를 차단하고 정말 중요한 것만 통과시키는 특징이 있었다. 가장 성능이 좋았던 게이트는 평균적으로 11.6%의 정보만 통과시키고 나머지 88.4%는 차단했다. 반대로 여러 헤드가 하나의 게이트를 공유하게 만들었더니 개방도가 27.1%로 올라갔고, 성능도 떨어졌다. 즉, 더 많이 차단할수록 오히려 성능이 좋아진 것이다. 이는 불필요한 정보를 과감하게 걸러내는 게 중요하다는 뜻이다.

더 흥미로운 점은 이 차단이 고정된 게 아니라 '상황에 따라 달라진다'는 것이다. AI가 지금 처리하고 있는 질문에 따라 어떤 과거 정보를 통과시킬지 막을지를 매번 다르게 결정한다. 같은 정보라도 질문에 따라 필요할 수도, 불필요할 수도 있기 때문이다.

'첫 단어 집착증' 거의 사라지고 긴 컨텍스트 성능 크게 향상

게이트의 가장 주목할 만한 효과는 '어텐션 싱크'를 대폭 줄인 것이다. 어텐션 싱크는 AI가 글이나 대화의 첫 부분, 특히 맨 첫 단어에 과도하게 집중하는 현상이다. 기존 모델은 주의력의 절반 가까이를 첫 단어에 쏟았고, 심한 경우 주의력 대부분이 첫 단어에만 쏠렸다. 이는 학생이 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같다. 하지만 게이트를 단 모델은 첫 단어에 쏟는 주의력이 극소량으로 줄어들었다.

게이트는 또한 'AI 내부 값 폭증'이라는 문제도 해결했다. 이는 AI 내부에서 처리하는 숫자들이 비정상적으로 커지는 현상이다. 기존 모델은 초반 층에서 이런 큰 값들이 발생했고, 이 값들이 이후 과정 전체에 계속 영향을 미쳤다. 게이트를 단 모델은 이런 값 폭증 현상이 대폭 줄어들었다. 흥미롭게도 밸류 레이어에만 게이트를 달면 값 폭증은 줄지만 첫 단어 집착증은 여전했다. 이는 값 폭증이 반드시 첫 단어 집중을 일으키는 건 아님을 보여준다.

첫 단어 집착증이 줄어들자 긴 글 이해 능력도 크게 좋아졌다. 연구팀은 AI가 한 번에 처리할 수 있는 글 길이를 기존보다 네 배 늘리는 실험을 했다. 기존 학습 길이 범위에서는 게이트 모델이 기존 모델보다 약간 나은 수준이었다. 하지만 그 범위를 넘어 두 배, 네 배로 늘어나자 차이가 극명해졌다. 가장 긴 글 길이에서 게이트 모델은 기존 모델보다 거의 두 배 좋은 성능을 보였다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 게이트 어텐션이 뭔가요?

A. AI가 정보를 처리할 때 중간에 문지기 역할을 하는 장치를 추가한 기술입니다. 중요한 정보는 통과시키고 불필요한 정보는 차단해서 AI가 더 똑똑해지고 안정적으로 학습할 수 있게 만듭니다.

Q. 어텐션 싱크가 뭐길래 문제인가요?

A. AI가 글이나 대화의 첫 부분만 과도하게 집중하는 현상입니다. 마치 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같아서, 긴 글을 이해하는 능력이 떨어집니다. 게이트를 추가하면 이 문제가 사라집니다.

Q. 이 기술을 실제로 어떻게 쓰나요?

A. AI 내부의 정보 처리 단계 중간에 간단한 게이트만 추가하면 됩니다. 알리바바 팀이 코드를 공개할 예정이고, 추가 비용도 거의 들지 않아서 누구나 쉽게 적용할 수 있습니다.

해당 기사에 인용된 논문 원문은 오픈리뷰에서 확인 가능하다.

논문명: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

번호	제목	글쓴이	작성일	조회	추천
설문	주류 모델하면 매출 폭등시킬 것 같은 아이돌 스타는?	운영자	26/01/05	-	-
1764	오픈AI, 'GPT-5.2' 공개... “제미나이3 보다 성능 좋아”	aimatters	25.12.12	48	0
1763	디즈니, 오픈AI에 1조 투자… 소라로 캐릭터 AI 영상 제작 허용	aimatters	25.12.12	126	1
1762	생성형 AI 사용자 1년 만에 2배 급증… 뉴스 제작엔 여전히 ‘회의적’	aimatters	25.12.12	35	0
1761	"하루 1시간씩 AI와 산다"... Z세대 70% 챗GPT 세대 입증, 신뢰도는 72%→58% 급락 [1]	aimatters	25.12.12	71	0
1760	AI 성공 비결은 기술 아닌 '사람'... 맥킨지가 밝힌 기업의 진짜 ‘AI 경쟁력’	aimatters	25.12.12	50	0
1759	[12월 12일 AI 뉴스 브리핑] 애피어, ‘AI 에이전트 로드쇼’ 성료… ROI 향상을 위한 최신 AI 마케팅 솔루션 공개 외	aimatters	25.12.12	74	0
1758	'올해 최악 광고' 비난 받은 맥도날드 AI 크리스마스 광고, 결국 삭제	aimatters	25.12.11	96	0
1757	"AI로 만들었습니다" 표시 의무화… 한국 정부, AI 생성물 의무 표시제 도입	aimatters	25.12.11	259	0
1756	미국 국방부, 직원들에 구글 제미나이 전면도입… "전쟁의 미래는 AI"	aimatters	25.12.11	55	0
1755	어도비, 챗GPT에 포토샵 통합… "말만 하면 전문가급 편집"	aimatters	25.12.11	171	0
1754	AI 작곡 시대 개막... 13만 곡 분석했더니 "사람 노래와 구분 불가"	aimatters	25.12.11	274	1
1753	챗GPT로 공부하면 성적 오를까? 대학생들 실제로 챗GPT 어떻게 사용하나 봤더니 [1]	aimatters	25.12.11	316	0
1752	AI 페르소나로 진행한 연구들, 믿을 수 있을까?... “10건 중 6건이 부실”	aimatters	25.12.11	49	0
1751	[12월 11일 AI 뉴스 브리핑] SKAI인텔리전스·코바코·EBS, AI 광고 제작 협력 체계 구축 외	aimatters	25.12.11	37	0
1750	구글 코리아, 대학생이 뽑은 제미나이 활용법 12선 공개	aimatters	25.12.10	3442	0
1749	오픈AI, 챗GPT 안에서 배우는 AI 인증 과정 출시... "AI 기술자 50% 더 번다"	aimatters	25.12.10	57	0
1748	구글, 2026년 첫 AI 안경 출시… 화면 없는 모델·인-렌즈 디스플레이 탑재 [20]	aimatters	25.12.10	1652	3
1747	미국 10대 10명 중 6명 'AI 챗봇 쓴다'... 유튜브·틱톡 넘어 새 일상으로	aimatters	25.12.10	72	0
1746	연봉 격차가 AI 격차로... 퍼플렉시티-하버드, AI 에이전트 사용 연구 결과 공개 [2]	aimatters	25.12.10	1568	0
1745	AI가 코드 짰다고 솔직히 말하면 손해볼까?... 깃허브 1만 4천 건 분석 결과는 '의외' [1]	aimatters	25.12.10	87	0
1744	[12월 10일 AI 뉴스 브리핑] 챗GPT, 2025년 한국에서 가장 많이 성장한 앱 1위 외	aimatters	25.12.10	84	0
1743	한국인 10명 중 7명 "AI 써봤다"… 챗GPT 독주 속 '공짜 AI 시대' 열렸다	aimatters	25.12.09	93	0
1742	"내 사진에 AI로 옷 입혀보고 바로 구매"… 구글 패션 앱 '도플' 업데이트	aimatters	25.12.09	113	0
1741	로봇택시·AI 비서 시대 온다지만... 5년 뒤 AI 세상, 결국 부자만 누린다	aimatters	25.12.09	48	1
1740	68만 유튜버 조코딩, 연봉 4천 받고 수익 나누는 '1인 창업가' 채용 나서	aimatters	25.12.09	99	0
1739	박쥐도 싸울 때 말 많아진다... AI가 밝혀낸 동물 언어의 비밀 [5]	aimatters	25.12.09	678	7
1738	오픈AI, 기업 AI 현황 리포트 공개… “AI 사용량 8배 급증, 업무 시간 하루 최대 1시간 절감”	aimatters	25.12.09	64	0
1737	2024년엔 '우려', 2025년엔 '동반자'... 1년 만에 시민 AI 인식 대반전	aimatters	25.12.09	34	0
1736	[12월 9일 AI 뉴스 브리핑] 엘리스그룹-현대차, 제조 현장 이미지 AI 솔루션 개발 외	aimatters	25.12.09	31	0
1735	구글, '나노 바나나 2 플래시' 출시 임박… 더 저렴한 비용에 프로급 성능	aimatters	25.12.08	308	0
1734	챗GPT, 경제학자·투자자 예측 대결서 160명 중 80등... 효율성은 인간 압도	aimatters	25.12.08	85	0
1733	일론 머스크·저크버그 얼굴 달린 로봇 개 영상 화제… 1.5억 가격에도 전 작품 완판 [5]	aimatters	25.12.08	1486	1
1732	[신간] 건강 관리, 취업 준비, 사업 준비까지… AI 일상 활용법 담은 『시켜보니 다 되는 생활밀착형 AI』	aimatters	25.12.08	53	0
1731	"40년 숙제 풀었다"… AI 만난 로봇 손, 드디어 인간처럼 물건 만진다	aimatters	25.12.08	107	0
1730	GPT-5보다 정확하고 2.5배 싸다... 엔비디아, '지휘자 AI' 전략 공개 [5]	aimatters	25.12.08	2728	5
1729	AI가 경제 활동하면 생기는 일… “배달 시켰더니 돈 다 써서 스쿠터만 사고 안 써”	aimatters	25.12.08	68	0
1728	[12월 8일 AI 뉴스 브리핑] 서울AI재단, AI를 '동반자'로 인식하는 시민 37.2% 달해 외	aimatters	25.12.08	44	0
1727	‘~가 뭐야?’ 구글, 2025년 검색 트렌드 발표... “대화형 질문 사상 최대치”	aimatters	25.12.05	57	0
1726	AI 챗봇, 정치 광고보다 4배 효과적... 설득력 높을수록 거짓 정보 증가	aimatters	25.12.05	56	0
1725	앤트로픽 CEO "일부 AI 기업은 욜로 중"… 오픈AI 저격하나	aimatters	25.12.05	57	0
1724	한국, 2026년 AI 기본법으로 '규제 업그레이드'… OECD, 아시아 금융 AI 정책 분석 보고서 공개	aimatters	25.12.05	49	0
1723	“검사 안 해도 돼요” AI 의사 말 믿었다간... 심각한 오류 4건 중 3건이 '진단 누락'	aimatters	25.12.05	106	0
1722	[12월 5일 AI 뉴스 브리핑] 홈쇼핑모아, 2025 올해의 브랜드… 로보락·AHC 등 선정 외	aimatters	25.12.05	130	0
1721	한국 AI 인력 5.7만 명 시대... 한국은행 "고학력·고임금에도 해외 유출 심각"	aimatters	25.12.05	97	0
1720	AWS, 클릭 몇 번으로 맞춤형 AI 모델 만든다... 신규 기능 대거 발표	aimatters	25.12.04	57	0
1719	아마존, AWS 리인벤트 2025서 차세대 AI 칩 ‘트레이니엄3’ 공개	aimatters	25.12.04	59	0
1718	챗GPT, 한국 사용자 2천만 돌파… 한국인 AI 앱 사용 순위 Top 10 공개	aimatters	25.12.04	294	0
1717	챗GPT가 거짓말하면 스스로 자백하게 만든다... 오픈AI, ‘고백’ 시스템 공개 [15]	aimatters	25.12.04	2886	4
1716	AI 에이전트 개발자 96%, 도구 하나로는 부족..."여러 개 섞어 쓰는 게 대세"	aimatters	25.12.04	116	0
1715	NYU 연구진 "병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"	aimatters	25.12.04	142	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[AI 매터스 갤러리]

갤러리 본문 영역

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘