arXiv중요논문2026. 04. 24. 04:38

LLM 경량화를 위한 하이브리드 정책 증류 (HPD) 기법 제안

요약

대규모 언어 모델(LLM)의 지식 증류(Knowledge Distillation, KD)는 모델 압축에 필수적인 기술이지만, 기존 방법들은 최적화 전략과 데이터 구성 측면에서 한계가 있었습니다. 본 논문은 이러한 KD 과정을 토큰 레벨의 재가중 로그 우도(reweighted log-likelihood) 목표로 통일하여 분석하고, '하이브리드 정책 증류(Hybrid Policy Distillation, HPD)'라는 새로운 프레임워크를 제안합니다. HPD는 순방향 및 역방향 KL 다이버전스의 장점을 결합하여 모드 커버리지와 모드 탐색

핵심 포인트

HPD는 순방향 (forward) 및 역방향 (reverse) KL의 이점을 통합하여 모델 증류 과정의 안정성과 성능을 개선했습니다.
제안된 HPD 프레임워크는 오프정책(off-policy) 데이터를 경량화된 근사 온정책(approximate on-policy) 샘플링과 결합합니다.
HPD는 긴 생성 수학 추론, 짧은 대화 및 코드 작업 등 다양한 태스크에서 최적화 안정성, 계산 효율성, 최종 성능 향상을 입증했습니다.

대규모 언어 모델(LLM)의 지식 증류(Knowledge Distillation, KD)는 거대한 모델을 경량화하고 압축하는 데 매우 강력한 패러다임입니다. 하지만 기존 KD 방법론들은 발산 방향 설정, 최적화 전략, 그리고 데이터 구성 방식 등 여러 요소가 복합적으로 얽혀 있어 설계에 어려움이 있었습니다.

본 연구는 기존 KD 기법들의 설계를 체계적으로 분석하고, 이들을 토큰 레벨의 재가중 로그 우도(reweighted log-likelihood) 목표로 통합하여 통일된 관점을 제시합니다. 이를 통해 다양한 KD 방법론 간의 연결고리를 명확히 파악할 수 있게 합니다.

나아가, 연구진은 **하이브리드 정책 증류(Hybrid Policy Distillation, HPD)**라는 새로운 프레임워크를 제안했습니다. HPD는 모델 증류 과정에서 발생하는 두 가지 상반된 목표, 즉 '모드 커버리지(mode coverage)'와 '모드 탐색(mode-seeking)'의 장점을 결합합니다. 이를 위해 순방향 KL (forward KL)과 역방향 KL (reverse KL)의 상호 보완적인 이점을 통합했습니다.

HPD는 또한 데이터 활용 측면에서도 진보를 이루었습니다. 기존에 사용되던 오프정책(off-policy) 데이터를 기반으로 하면서도, 계산 비용을 줄인 경량화된 근사 온정책(approximate on-policy) 샘플링 방식을 결합했습니다.

이러한 HPD 프레임워크의 효과는 다양한 실제 시나리오에서 검증되었습니다. 특히 긴 생성 과정이 필요한 수학 추론(math reasoning), 짧은 대화, 그리고 코드 생성 작업 등 광범위하고 이질적인 태스크에 걸쳐 테스트를 진행했습니다.

그 결과, HPD가 기존 방법 대비 최적화 안정성을 크게 개선했을 뿐만 아니라, 계산 효율성과 최종 모델의 실제 성능(final performance) 측면에서도 우수한 결과를 보여주었습니다. 이는 다양한 규모와 계열의 모델에 걸쳐 일관되게 적용 가능한 범용적인 증류 기법임을 입증합니다.

본 연구는 KD 분야의 학문적 이해도를 높이고, 실제 산업 환경에서 LLM을 효율적으로 배포할 수 있는 실질적인 방법론을 제시했다는 점에서 큰 의의를 가집니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 경량화를 위한 하이브리드 정책 증류 (HPD) 기법 제안

요약

핵심 포인트

댓글