Layer-Pruning & QLoRA를 활용한 모델 경량화

ㅇㅇ · 2024.04.03 02:42:21

https://arxiv.org/abs/2403.17887

최근 공개된 심층 레이어의 비합리적인 비효율성(The Unreasonable Ineffectiveness of the Deeper Layers)라는 연구에서는 LLM의 심층 레이어를 절반까지 제거하는 실험을 통해 성능 하락을 최소화하면서도 모델 크기를 줄일 수 있음을 보여주고 있습니다. 주로 사용한 방법들은 Pruning과 QLoRA Finetuning이며, 모델 경량화를 통해 연산 비용을 절감하면서도 성능을 비슷하게 유지할 수 있는 모델 개발에 관심있는 분들께 도움이 될 것으로 보입니다.

심층 레이어의 비합리적인 비효율성

소개

이 연구는 대규모 언어 모델(LLM)의 연산 비용, 그 중에서도 추론 시점의 연산 비용을 줄이기 위한 간단하면서도 효과적인 레이어-가지치기(Layer-Pruning) 전략에 대한 실험들과 결과를 공유하고 있습니다. 저자들은 LLM의 더 깊은 레이어를 상당 부분 제거해도 다양한 질의응답 벤치마크에서 성능이 크게 손상되지 않는다는 것을 실증적으로 보여줍니다. 이러한 발견은 LLM의 성능이 그 깊이와 복잡성에 직접 비례한다는 기존의 생각이 사실과 다를 수 있다는 것을 알려주며, QLoRA 파인튜닝과 결합된 레이어 가지치기의 실용적이고 효율적인 접근 방식을 소개하여 모델 최적화에 대한 새로운 방향을 제시하고 있습니다.

LLM의 효율성을 개선하기 위한 현재 방법에는 가중치의 정밀도를 줄이는 양자화(Quantization), 파인튜닝 중 모델 매개변수의 작은 부분 집합만을 업데이트하는 LoRA(Low-Rank Adapters), 불필요한 매개변수나 연결을 직접 제거하는 가지치기(Pruning) 기법 등이 활용되고 있습니다. 이러한 전략은 모델의 크기 또는 학습 및 추론에 필요한 연산 자원을 줄이기 위해 노력하고 있지만, 종종 성능의 하락을 포함하는 트레이드-오프(trade-offs)가 발생하고 있습니다.

기본적인 아이디어는 모델의 모든 레이어가 모델의 성능에 동등하게 기여하지 않는다는 관찰에 기반한 레이어-가지치기(Layer-Pruning) 전략입니다. 이를 위해 먼저 (1) 가장 중요하지 않은 레이어 식별을 위해 레이어 간의 유사도를 측정하여 성능에 미치는 영향을 최소화하면서 제거할 수 있는 레이어를 결정 및 제거하고, (2) 제거된 레이어로 인한 성능 저하를 최소화하기 위해 QLoRA 기법을 사용하는 '치유(healing)' 과정을 거치는 것을 제안하고 있습니다

Layer-Pruning 및 Healing의 동작 방식

이 연구에서 제안하는 레이어-가지치기 방법의 구현은 최적의 레이어를 식별하고 모델을 치유하기 위한 두 단계 과정을 포함합니다. 1) 제거할 레이어를 결정하는 결정은 레이어 표현 간의 각도 거리 분석을 기반으로 하며, 모델의 성능에 미치는 영향을 최소화하기 위해 집중됩니다. 2) QLoRA를 사용한 후속 파인튜닝은 매개변수 효율적인 방식으로, 제거된 레이어의 부재를 보완하고 모델의 효과성을 보존하거나 심지어 향상시키는 데 중요합니다.

아래 그림 1을 통해 전체적인 전략을 먼저 간략히 살펴보겠습니다:

2ebc8876b08b6dfe6cb984b310887c38f3d40e0e74801371638f55646b12ab71d4aa5a8aa2229d6473aac7f69a84b1288b3869b5af60fd76

(a) 알고리즘 흐름도: n개의 레이어 제거 과정은, 각도 거리 d가 최소화되는 레이어 ℓ*를 찾아내어 그 위치부터 n개의 레이어를 제거하는 과정을 포함합니다. 필요한 경우, 파라미터 효율적인 파인튜닝(PEFT)을 통해 모델의 손상을 치유할 수 있습니다.

(b) 레이어 제거 도식화: 레이어 제거 과정은 ℓ부터 시작하여 ℓ+n−1에 이르는 총 n개의 레이어를 모델에서 제거하는 것을 나타냅니다. 이는 모델의 구조적 단순화를 의미합니다.

(c) 각도 거리 분석: 다양한 레이어 수 n에 대해, 레이어 블록의 시작 지점 ℓ에서의 각도 거리 d를 나타냅니다. 가장 낮은 거리(보라색 곡선)에서 가장 높은 거리(노란색 곡선)까지, 각도 거리의 최소값을 추적하는 검은색 선을 보여줍니다.

(d) 가지치기 결과: Llama-2-70B 모델의 레이어 제거 비율에 따른 성능 변화를 보여줍니다. 치유를 통해 성능이 어느 정도 복원되며(진한 파란색), 제거된 레이어 비율이 증가함에 따라 질의응답 작업의 정확도에 급격한 변화가 관찰됩니다(40%-50% 가지치기시), 반면 치유된 손실은 최소 80% 가지치기까지 점진적으로 증가합니다.

각 동작 과정을 다음과 같이 나누어 설명할 수 있습니다.

1. 각도 거리 측정

첫 번째 단계는 모델의 각 레이어 사이의 "각도 거리(angular distance)"를 측정하는 것입니다. 각도 거리는 레이어 간의 유사성을 측정하는 지표로 사용되며, 이는 레이어들이 처리하는 정보의 유사성을 나타냅니다. 레이어 ℓ과 ℓ+n 사이의 각도 거리를 계산함으로써, 모델 내에서 정보 처리가 중복되는 부분을 식별할 수 있습니다. 중복이 많은 레이어는 제거해도 모델 성능에 미치는 영향이 적다고 가정할 수 있습니다.

2. 중요하지 않은 레이어 식별

각도 거리를 기반으로, n개의 연속된 레이어 중에서 제거할 때 성능 손실을 최소화할 수 있는 레이어 블록을 식별합니다. 이를 위해, 레이어 ℓ부터 시작하여 ℓ+n까지의 레이어 블록 중 각도 거리 d가 최소화되는 지점을 찾습니다. 이 최소화된 각도 거리 d는 제거할 레이어 블록을 결정하는 데 사용됩니다. 이 과정은 모델 전체에 걸쳐 반복되어, 제거 가능한 레이어 블록을 찾아냅니다.

3. 레이어 제거 및 모델 치유(healing)

2eed8973b1846afe68bed0b446d7743ecf148a3beaede961bfe6d4bee9f0c1b49a9ab39989c8b40c768e980b985f59df51a7ddb0d4d5528ac97695314ed15e19fd42

식별된 레이어 블록을 모델에서 제거한 후, 제거 과정에서 발생할 수 있는 성능 손실을 "치유"하기 위해 파라미터 효율적인 파인튜닝이 수행됩니다. 이 과정은 주로 QLoRA와 같은 기법을 사용하여 최소한의 파라미터 업데이트로 최대한의 성능 복원을 목표로 합니다. "치유" 과정은 제거된 레이어의 기능을 나머지 레이어가 흡수하도록 하여, 모델의 성능을 원래 상태로 복원하거나 심지어 개선하는 것을 목표로 합니다.

4. 성능 검증

마지막 단계에서는 가지치기와 치유 과정을 거친 모델의 성능을 원래 모델과 비교하여 검증합니다. 이를 통해 가지치기 전략이 모델의 효율성을 향상시키면서도 성능을 유지하거나 개선할 수 있는지를 평가합니다. 다양한 벤치마크와 작업을 통한 성능 평가는 가지치기 전략의 유효성을 실증적으로 증명하는 데 중요합니다.

예를 들어, 100개의 레이어를 가진 가상의 LLM을 고려해 보겠습니다. 제안된 방법은 51번(ℓ*)부터 75(ℓ*+n−1)번째까지 25(n)개의 레이어가 전체 성능에 거의 영향을 미치지 않는다고 식별할 수 있습니다. 이렇게 25(n)개의 레이어들을 제거한 뒤, 모델은 75개의 레이어를 남깁니다. 그런 다음 QLoRA 기법으로 모델을 파인튜닝하며 (제거된 25개의 레이어를 보완할 수 있도록) 남은 75개의 레이어들을 조정합니다. 이러한 과정을 거쳐 가지치기 이전의 원래 모델과 유사하거나 더 나은 성능 수준을 유지하는 더 효율적인 모델을 만들 수 있습니다.

실험 결과

75bfd520e0826cf33bec85e6158820388bd9ba6b8db9305d2eee9b338adc7e2f71b16eb9da713e618500c2e228df6bbd9b81e72a2fb43eb74080b2a9383fc2553cc2

Llama2와 Qwen 모델군들과 Mistral / Phi 모델 등, 2.7B부터 70B에 이르는 다양한 크기의 LLM들을 대상으로 가지치기 및 치유 과정을 실험하였습니다. 실험에 사용한 모델들은 모두 32에서 80개의 원본 레이어를 가지고 있습니다. 치유 단계에서는 QLoRA를 사용하여 모델을 4비트 정밀도로 양자화한 후 Colossal Clean Crawled Corpus(C4)에서 추출한 164M 또는 328M 토큰에 대해 파인튜닝을 진행함으로써 효율적인 학습을 가능하게 했습니다. 이 모든 실험은 단일 A100 GPU에서 수행되었습니다.

성능 평가를 위해 MMLU(Massive Multitask Language Understanding)와 BoolQ라는 두 가지 벤치마크를 사용했습니다. MMLU는 일반적인 세계 지식 및 문제 해결 벤치마크로, BoolQ는 텍스트 자체로부터 답을 추론해야 하는 예/아니오 독해력 평가 벤치마크입니다.

위 그림 2의 실험 결과는 다음과 같은 주요 발견을 보여줍니다:

1. 치유에 의한 성능 개선: 레이어를 제거한 후 QLoRA를 사용한 치유 과정을 거친 모델들은, 치유 과정 없이 레이어만 제거한 경우보다 성능이 개선되었습니다. 이는 치유 과정이 가지치기로 인한 성능 저하를 어느 정도 상쇄할 수 있음을 시사합니다.

2. 가지치기 비율에 따른 성능의 강인성(robust): 실험에 포함된 모델들은 20%-55%의 가지치기 비율까지는 성능이 상당히 강인하게 유지되었습니다. 모델 가족과 크기에 따라 이 비율은 다소 변동이 있지만, 이 범위 내에서는 모델들이 여전히 유용한 성능을 보여줄 수 있음을 의미합니다.

3. 가지치기 비율이 증가함에 따른 성능 하락: 특정한 가지치기 비율을 넘어서면 모델 성능이 급격히 하락하여 임의 추측 수준으로 떨어지는 경향을 보였습니다. 이는 모델에서 제거할 수 있는 레이어의 한계를 나타내며, 과도한 가지치기가 모델의 성능을 크게 저해할 수 있음을 보입니다.

번호	말머리	제목	글쓴이	작성일	조회	추천
2872	설문	연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은?	운영자	24/06/17	-	-
457690	일반	역시 르쿤이형이냐 [12]	ㅇㅇ(59.11)	04.19	1986	56
457641	정보/ 정보/뉴스	(오피셜) 라마3 곧 추가될 기능들 [15]	ㅇㅇ(123.100)	04.19	2631	27
457620	일반	405B 짜리는 GPT-4 터보 걍 좆바르겠노 ㅋㅋ [8]	ㅇㅇ(123.100)	04.19	2137	20
457615	일반	라마3 한국어로 쓰고 실망 ㄴㄴ [4]	ㅇㅇ(123.100)	04.19	2253	19
457613	일반	챗봇아레나 라마3 성능 돌아버렸네 ㅋㅋㅋㅋㅋㅋㅋㅋ [6]	ㅇㅇ(110.145)	04.19	2202	21
457608	정보/ 정보/뉴스	라마3 Chatbot arena 리더보드 순위 미쳤노ㅋㅋㅋ [4]	ㅇㅇ(123.100)	04.19	1253	19
457522	정보/ 정보/뉴스	MS '대화하는 얼굴' VASA-1 작동 영상 [6]	ㅇㅇ	04.19	1207	22
457509	정보/ 정보/뉴스	오늘 있던 Oai 강연 + 앞로 있을 3개 [12]	ㅁㄴㅇㄹ	04.19	1855	23
457496	일반	라마3 400b 성능은 gpt-4보다 훨씬 높을수도 [14]	ㅇㅇ(110.145)	04.19	1674	19
457492	정보/ 정보/뉴스	학계 "딥러닝이 벽에 부딪히고 있습니다" [28]	특술람	04.19	857	13
457481	정보/ 정보/뉴스	chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네 [17]	ㅇㅇ	04.19	2320	24
457455	일반	라마3는 충분히 기뻐할만한 일 아님? [15]	ㅇㅇ(211.44)	04.19	2358	46
457454	일반	라마 매력봐라 ㅅㅂㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [14]	아디라스	04.19	3414	33
457432	일반	라마3 아이폰에서 구동 성공 [15]	rtOS	04.19	2653	23
457416	일반	라마4 떡밥 [3]	특술람	04.19	1048	22
457400	정보/ 정보/뉴스	스탠포드 피셜)) 분야별 ai발전 속도 인덱스 [19]	lightvector	04.19	2597	27
457399	정보/ 정보/뉴스	메타 실시간 이미지 생성 발표 [9]	특술람	04.19	2746	30
457358	일반	라마3 동양인 혐오하네 ㅇㅇ [19]	ㅇㅇ	04.19	3176	33
457357	일반	솔직히 라마 좃도 안기쁘면 개추 ㅋㅋ [20]	ㅇㅇ(210.205)	04.19	2817	30
457344	AI창 AI창작	수노3) 라마가 부른 노래 만들어봄 [8]	ㅇㅇ	04.19	1251	17
457310	일반	라마3 70b 사용해볼수있게 허깅쳇에 떳다 [7]	ㅇㅇ	04.19	2143	24
457304	정보/ 정보/뉴스	찬양하라ㅡMeta. [4]	ㅇㅇ(123.100)	04.19	1850	28
457303	정보/ 정보/뉴스	라마3에 사용된 인간 주석데이터양 ㄷㄷㄷ [8]	ㅇㅇ(123.100)	04.19	2407	20
457301	정보/ 정보/뉴스	라마2vs3 발전속도 보기.. [7]	ㅇㅇ(123.100)	04.19	1973	21
457300	일반	Meta는 오픈소스 AGI를 위한 데이터센터 구축 중 [12]	모브	04.19	1384	23
457272	정보/ 정보/뉴스	오피셜) GPT4 API 사망 [6]	ㅇㅇ(123.100)	04.19	3212	32
457260	일반	라마3 400b와 4터보 벤치 [8]	ㅇㅇ(175.124)	04.19	1607	16
457254	일반	개념글 빨리 올려라 시발 ㅋㅋ [10]	lightvector	04.19	1863	29
457232	일반	GPT4 초 멸망ㅋㅋㅋㅋ [2]	ㅇㅇ(123.100)	04.19	2615	22
457213	정보/ 정보/뉴스	라마3 벤치마크 [16]	ㅇㅇ(211.59)	04.19	2005	22
457172	일반	라마3 70b [5]	특술람	04.18	1768	28
457168	일반	르쿤햄 오늘도 호감 1스택 적립 [5]	ㅇㅇ(218.158)	04.18	1373	27
457165	정보/ 정보/뉴스	라마3 발표 [15]	특술람	04.18	2731	34
457122	일반	국내는 솔직히 병신맞음 [4]	ㅇㅇ(118.235)	04.18	1145	18
457091	정보/ 정보/뉴스	MS-오픈AI, EU의 합병 조사 피할 듯..."단순 투자로 결론" [2]	ㅇㅇ(182.230)	04.18	970	17
457057	일반	[충격]세계 최초 뇌영상 기술 조작 논란 [28]	xdxd333	04.18	2861	24
456979	일반	근데 진짜 빅이슈면 이미 해외에서부터 ㄹ들갑떨긴 함 [4]	ㅇㅇ(115.139)	04.18	1034	22
456973	일반	념글 이거 존나웃기네 씨발 ㅋㅋㅋㅋㅋ [10]	ㅇㅇ	04.18	3474	31
456946	정보/ 정보/뉴스	삼성전자, 업계 최고 속도 LPDDR5X D램 개발 [4]	ㅇㅇ(182.230)	04.18	1907	24
456944	일반	싱글벙글 보스턴 다이나믹스 로봇 근황.gif [28]	ㅇㅇ	04.18	3081	29
456934	정보/ 정보/뉴스	피터 틸 "AI가 작가보다 수학 덕후들에게 '더 나쁠 것'" [18]	특술람	04.18	2892	26
456923	정보/ 정보/뉴스	닉보스트롬 인류미래연구소 문 닫음 [4]	특술람	04.18	1040	20
456922	정보/ 정보/뉴스	인텔, 세계 최대의 뉴로모픽 시스템 '할라 포인트' 구축 [9]	ㅇㅇ(182.230)	04.18	1530	28
456913	정보/ 정보/뉴스	새로운 아틀라스 로봇에 대해 CEO와의 Q&A [11]	ㅇㅇ	04.18	1816	23
456890	일반	얀 르쿤의 AI관련 의견에서 감안해야 하는 점은 [33]	ㅇㅇ(218.48)	04.18	1883	31
456828	일반	뉴아틀라스 떳다(링크) [43]	ㅇㅇ(121.168)	04.17	2698	30
456817	정보/ 정보/뉴스	Daniel Kokotajilo, OpenAI 퇴직 [6]	ㅇㅇ(125.191)	04.17	1158	20
456805	정보/ 정보/뉴스	생성AI가 잡아낸 진단기록 오류, 영상의학과 전문의 못지 않다 [3]	ㅇㅇ(182.230)	04.17	1223	22
456804	정보/ 정보/뉴스	"구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3]	ㅇㅇ(182.230)	04.17	1014	23
456803	정보/ 정보/뉴스	"AI 논문 표절 심각"…수백만명이 논문 작성에 생성 AI 활용 [5]	ㅇㅇ(182.230)	04.17	1810	16

최근 방문

즐겨찾기

즐겨찾기 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

마이너 갤러리 소개

차단하기

[특이점이 온다 갤러리]

갤러리 본문 영역

게시물을 간편하게 NFT로 만들어 보세요!

NFT 발행 방법

NFT 발행

비회원 글삭제,수정

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결