arXiv논문2026. 06. 24. 11:20

태스크 특화 LLM 증류(Distillation)를 위한 스케일링 법칙 (Scaling Laws)

요약

도메인 특화 LLM 압축을 위한 경험적 스케일링 법칙을 제안하는 연구입니다. 데이터셋 크기, 압축률, 지도 형식 등이 도메인 지식 및 일반 지식 성능에 미치는 영향을 정량화했습니다.

핵심 포인트

도메인 특화 압축 시 일반 지식 성능이 더 빠르게 저하됨
Chain-of-Thought 지도가 가지치기로 손실된 일반 지식 회복에 기여
로짓 기반 및 LoRA 기반 증류 방식의 성능 비교 분석
금융 도메인을 활용한 재사용 가능한 압축 의사결정 프레임워크 제공

대규모 언어 모델 (LLMs)은 점점 더 넓은 범위의 도메인에서 강력한 성능을 달성하고 있지만, 그 규모로 인해 지연 시간(latency)과 비용 제약이 중요한 애플리케이션에서는 배포상의 어려움을 초래합니다. 본 논문은 도메인 특화 LLM 압축(compression)을 위한 경험적 스케일링 법칙 (scaling laws)을 도출하며, 도메인 내 지식 및 일반 지식 성능이 데이터셋 크기, 압축률 (compression ratio), 지도 형식 (supervision format), 그리고 반복적 가지치기 일정 (iterative pruning schedule)에 따라 어떻게 변화하는지 정량화합니다. 정량적 금융 (quantitative finance)을 응용 도메인으로 사용하여, 우리는 반복적 구조적 가지치기 (iterative structural pruning) 하에서 로짓 기반 (logit-based) 증류와 LoRA 기반 증류를 비교하며, 추론 경로 (reasoning traces)에 걸쳐 KL-발산 (KL-divergence) 증류를 안정화하는 혼합 사고 사슬 (blended chain-of-thought) 지도 손실 (supervision loss)을 도입합니다. 도메인 내 태스크 품질은 압축 시 예측 가능한 방식으로 저하되는 반면, 일반 지식 벤치마크는 동일한 지점에 도달하기 훨씬 전에 붕괴됩니다. 지도 형식은 이러한 트레이드오프 (tradeoff)의 핵심 동력이며, 사고 사슬 (chain-of-thought) 지도는 가지치기로 인해 삭제된 일반 지식을 능동적으로 회복시킵니다. 우리는 재사용 가능한 도메인 특화 압축 의사결정 프레임워크를 제공하기 위해 핵심 데이터셋인 FinHeadlineMix, 스케일링 법칙 결과 및 실질적인 권장 사항을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

태스크 특화 LLM 증류(Distillation)를 위한 스케일링 법칙 (Scaling Laws)

요약

핵심 포인트

댓글