소형 LLM: 가지치기(Pruning) vs. 처음부터 학습하기(Training from Scratch)
요약
소형 언어 모델(SLM) 구축 시 가지치기(Pruning)와 처음부터 학습하기(Training from Scratch)의 성능을 비교 연구했습니다. 학습 토큰 예산이 제한적일 때는 가지치기가 유리하지만, 예산이 충분하다면 처음부터 학습하는 방식이 거친 구조적 가지치기에 대해 경쟁력을 가질 수 있음을 밝혀냈습니다.
핵심 포인트
- 제한된 토큰 예산에서는 가지치기된 초기화가 무작위 초기화보다 우수함
- 학습 토큰 예산이 늘어날수록 가지치기의 이점은 점차 감소함
- 충분한 학습 예산이 있다면 처음부터 학습하는 것이 거친 가지치기와 대등한 성능을 보임
- 부모 모델의 지식 전달은 미세한 입도의 가지치기에서 더 효과적임
가지치기(Pruning)는 강력한 소형 언어 모델(Small Language Models)을 만들기 위한 지름길을 약속합니다. 본 연구에서는 두 가지 통제된 토큰 일치(token-matched) 설정 하에서, 깊이(depth), 너비(width), 그리고 희소 입도(sparse granularities)를 아우르는 6가지 방법을 사용하여 0.5~0.8의 가지치기 비율(pruning ratios)로 Llama-3.1-8B를 가지치기함으로써 이 약속을 검증합니다. (1) 동일한 학습 토큰 예산(training token budget)을 사용할 경우, 가지치기된 초기화(pruned initialization)가 무작위 초기화(random initialization)보다 일관되게 우수한 성능을 보입니다. 이는 부모 모델(parent model)이 강력한 시작점을 제공한다는 것을 보여주지만, 학습 토큰 예산이 늘어나고 가지치기 비율이 높아짐에 따라 그 이점은 줄어들며, 우리가 연구한 가장 높은 가지치기 비율에서는 거의 사라집니다. (2) 대신 처음부터 학습하기(training from scratch)에 전체 파이프라인이 소비하는 전체 토큰 예산을 부여할 경우, 더 미세한 입도(finer granularities)에서의 가지치기는 여전히 이점을 유지하지만, 더 거친 구조적 가지치기(coarser structured pruning)는 대등하거나 이를 능가할 수 있습니다. 이는 부모 모델이 추가적인 학습 토큰만으로는 완전히 회복할 수 없는 지식을 전달하며, 이는 오직 미세한 입도에서만 가능하다는 것을 시사합니다. 종합하면, 우리의 결과는 명확한 권장 사항을 제시합니다: 대규모 사전 학습된 모델(pretrained model)을 보유하고 있고 학습 토큰 예산이 제한적이라면, 가지치기가 처음부터 학습하는 것보다 더 낫습니다. 반면 학습 예산이 제한되지 않는다면, 처음부터 학습하는 것이 거친 가지치기(coarser pruning)에 대해 경쟁력을 가질 수 있으므로, 대규모 사전 학습된 부모 모델이 항상 필요한 것은 아닙니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기