가변 크기 소형 언어 모델의 효과적인 초기화를 위한 체인 기반 증류(Chain-based Distillation)
요약
대규모 언어 모델(LLMs)의 높은 비용과 소형 언어 모델(SLMs) 학습의 어려움을 해결하기 위해 '체인 기반 증류(CBD)'라는 확장 가능한 패러다임을 제안한다. CBD는 단계적 증류 과정을 통해 희소하고 제한적인 중간 모델 시퀀스(앵커)를 구성하며, 이를 점진적으로 전달하는 증류 체인을 형성하여 가변 크기 언어 모델의 효율적인 초기화를 가능하게 한다.
핵심 포인트
- LLMs는 강력하지만 자원 제약 환경에 배포하기에는 비용이 많이 든다.
- 기존 지식 증류 방식은 다양한 목표 크기에 대해 대규모 교사 모델 접근이 필요하여 확장성이 떨어진다.
- 제안된 '체인 기반 증류(CBD)'는 가변 크기 언어 모델을 효율적으로 초기화하는 새로운 패러다임이다.
- CBD는 단계적 증류를 통해 중간 모델 시퀀스(앵커)로 구성된 점진적인 증류 체인을 형성한다.
대규모 언어 모델(LLMs)은 강력한 성능을 달성하지만, 자원이 제한된 환경에 배포하기에는 여전히 비용이 많이 듭니다. 소형 언어 모델(SLMs)을 처음부터 학습시키는 것은 계산 비용이 많이 들며, 기존의 지식 증류(knowledge distillation)는 다양한 목표 크기에 대해 대규모 교사 모델(large teachers)에 반복적으로 접근해야 하므로 확장성이 떨어집니다. 이러한 문제들을 해결하기 위해, 우리는 가변 크기 언어 모델을 효율적으로 초기화할 수 있는 확장 가능한 패러다임인 **체인 기반 증류(Chain-based Distillation, CBD)**를 제안합니다. 단계적 증류(stepwise distillation)를 통해 희소하고 제한적인 중간 모델 시퀀스(앵커, anchors라고 함)가 구성되며, 이는 점진적으로 전달하는 증류 체인을 형성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기