적응형 윈도잉을 이용한 추측적 디코딩(Speculative Decoding)을 위한 성능 중심 정책 최적화
요약
본 논문은 LLM 추론 속도를 높이는 Speculative Decoding 기법을 개선하기 위해, 초안 모델(draft model)의 정책 최적화 방식을 제안합니다. 기존 방법들이 토큰 레벨 지도 학습에 의존했던 한계를 극복하고, 윈도우 레벨에서 성능 중심의 최적화를 수행하는 강화 학습 프레임워크인 PPOW를 제시했습니다. PPOW는 적응형 윈도잉과 다양한 보상 함수를 결합하여 추측적 디코딩 효율성을 크게 향상시켰습니다.
핵심 포인트
- Speculative Decoding은 초안 모델을 이용해 LLM 추론 속도를 가속화하는 기술이다.
- 기존의 초안 작성기 최적화는 윈도우 레벨 특성에도 불구하고 토큰 레벨 지도 학습에 머물러 있었다.
- 제안된 PPOW(Performance-Driven Policy Optimization with Adaptive Windowing)는 강화 학습을 통해 윈도우 레벨에서 정책을 최적화한다.
- PPOW는 적응형 발산 인식 윈도잉, 비용 인식 가속화 보상 등을 결합하여 효율성을 높인다.
- 실험 결과, PPOW는 평균 수락 길이와 가속화 측면에서 기존 대비 높은 성능 향상을 입증했다.
추측적 디코딩 (Speculative decoding)은 경량화된 초안 모델 (draft model)이 후보 토큰의 추측적 윈도우 (speculative windows)를 제안하고, 더 큰 타겟 모델 (target model)이 이를 병렬로 검증하게 함으로써 LLM 추론을 가속화합니다. 실제 상황에서 추측 효율성은 초안 작성이 어려운 위치에 의해 병목 현상이 발생하는 경우가 많은데, 이 위치에서는 조기 불일치 (early mismatch)가 발생하여 수락된 접두사 (accepted prefix)를 잘라내고 나머지 추측적 윈도우를 무효화합니다. 대부분의 학습 기반 초안 작성기 (drafters)들은 추측 유용성 (speculative utility)이 본질적으로 윈도우 레벨 (window-level)이며 접두사 민감적 (prefix-sensitive)임에도 불구하고, 여전히 토큰 레벨 (token-level)의 지도 학습 목적 함수 (supervised objectives)로 최적화됩니다. 우리는 초안 작성기 최적화를 토큰 레벨의 모방 (imitation)에서 윈도우 레벨의 최적화로 전환하는 강화 학습 (reinforcement learning) 프레임워크인 PPOW (Performance-Driven Policy Optimization with Adaptive Windowing)를 제안합니다. PPOW는 비용 인식 가속화 보상 (Cost-Aware Speedup Reward), 분포 기반 근접성 보상 (Distribution-Based Proximity Reward), 그리고 신뢰도 가중치가 적용된 초안-타겟 발산 (confidence-weighted draft-target divergence)이 높은 정보가 풍부한 윈도우를 우선시하는 적응형 발산 인식 윈도잉 (Adaptive Divergence-Aware Windowing)을 결합합니다. PPOW는 통합된 디코딩 프로토콜 하에서 여러 모델 제품군과 벤치마크에 대해 6.29-6.52의 평균 수락 길이 (acceptance lengths)와 3.39-4.36$ imes$의 가속화를 달성합니다. 이러한 결과는 성능 중심의 윈도우 레벨 최적화가 추측적 디코딩 효율성을 향상시키는 실용적인 접근 방식임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기