arXiv논문2026. 06. 10. 10:33

K-Forcing: Push-Forward Language Modeling을 통한 공동 Next-K-Token 디코딩

요약

K-Forcing은 기존 자기회귀(AR) 모델의 메모리 대역폭 제한 문제를 해결하기 위해 제안된 Push-Forward 언어 모델링 패러다임입니다. 단 한 번의 순전파로 여러 미래 토큰을 동시에 생성하여 고부하 배치 서빙 환경에서 추론 속도를 획기적으로 높입니다.

핵심 포인트

기존 AR 모델을 조건부 Push-Forward 매핑으로 증류하여 효율성 극대화
단일 순전파를 통해 k개의 토큰을 공동 샘플링하는 방식 도입
표준 AR 서빙 인프라와 호환되며 교사 모델의 백본 재사용 가능
LM1B 및 OpenWebText 평가 결과, 약 2.4~3.5배의 속도 향상 달성

자기회귀 (Autoregressive, AR) 언어 모델링은 텍스트 생성의 지배적인 패러다임이지만, 순차적인 토큰 단위 디코딩 (token-by-token decoding) 방식은 추론 시 메모리 대역폭 제한 (memory-bound) 문제를 야기하며 비효율적입니다. Speculative decoding이나 확산 언어 모델 (diffusion language models)과 같은 기존의 가속화 접근 방식은 특정 조건 하에서 속도 향상을 가져올 수 있지만, 산업 규모의 배포에서 가장 중요한 시나리오인 고부하 배치 서빙 (high-load batch serving) 문제를 직접적으로 해결하지는 못합니다. 본 논문에서는 공동 Next-K-Token 디코딩을 위한 Push-Forward 언어 모델링 패러다임인 K-Forcing을 소개합니다. K-Forcing은 기존의 AR 모델을 조건부 Push-Forward 매핑 (conditional push-forward mapping)으로 증류 (distill) 합니다. 이 매핑은 단 한 번의 순전파 (forward pass) 과정에서 독립적인 균등 노이즈 변수 (independent uniform noise variables)를 여러 미래 토큰의 공동 샘플 (joint sample)로 변환합니다. 이러한 설계는 고정된 길이의 출력을 보존하고, AR 교사 (AR teacher) 백본을 재사용하며, 표준 AR 서빙 인프라와 호환성을 유지합니다. 우리는 점진적 자기 강제 증류 (progressive self-forcing distillation)를 통해 이 매핑을 학습시키며, 이는 예측 창 (prediction window)을 점진적으로 확장하는 동시에 학생 (student) 모델이 AR 교사의 시퀀스 분포 (sequence distribution)를 밀접하게 따를 수 있도록 합니다. 우리는 표준 인과적 트랜스포머 (causal Transformer) 백본을 사용하여 LM1B 및 OpenWebText 데이터셋에서 K-Forcing을 평가했습니다. 순전파당 k = 4개의 토큰을 생성하도록 공격적으로 설정했을 때, K-Forcing은 AR 교사 대비 약간의 품질 저하를 보이면서도 다양한 배치 크기(batch sizes)에 걸쳐 약 2.4~3.5배의 속도 향상을 제공합니다. 추론이 현대 거대 언어 모델 (LLM)의 생애 주기 컴퓨팅 비용에서 점점 더 큰 비중을 차지함에 따라, K-Forcing은 실제 고부하 배포 환경에서 AR 생성을 가속화할 수 있는 유망한 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

K-Forcing: Push-Forward Language Modeling을 통한 공동 Next-K-Token 디코딩

요약

핵심 포인트

댓글