본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 10. 10:32

CLP: 손실 없는 적응형 멀티 토큰 추론을 위한 배치 길이 예측 (Collocation-Length Prediction)

요약

LLM 추론 가속을 위한 멀티 토큰 예측(MTP) 방식의 구조적 결함을 해결하는 CLP 기술을 제안합니다. Backbone-as-Architect 원칙을 통해 품질 저하 없이 추가 토큰을 예측하며, 경량화된 레이어로 효율적인 가속을 달성했습니다.

핵심 포인트

  • MTP 헤드와 백본 헤드 간의 경쟁으로 인한 품질 저하 문제 해결
  • Backbone-as-Architect 설계 원칙 도입으로 출력 일관성 확보
  • 경량 CLP 레이어를 통한 효율적인 추가 토큰 수 예측
  • Qwen2.5 모델 실험 결과, 품질 저하 없이 최대 1.29x 속도 향상

대규모 언어 모델 (LLM) 추론은 각 토큰마다 전체 순전파 (forward pass)가 필요한 자기회귀적 디코딩 (autoregressive decoding)에 의해 병목 현상이 발생합니다. 멀티 토큰 예측 (Multi-token prediction, MTP)은 유망한 가속 경로를 제공하지만, 기존 방식들은 근본적인 구조적 결함을 가지고 있습니다. 즉, 첫 번째 토큰을 위한 MTP 헤드 (head)가 백본 (backbone) 자체의 언어 모델 (LM) 헤드와 경쟁하게 되어, 예측값이 수락될 때 심각한 품질 저하를 초래한다는 점입니다. 우리는 이러한 헤드와 백본 간의 경쟁을 기존 MTP 기반 가속 방법에서 반복적이고 일관성 없는 출력이 발생하는 근본 원인으로 식별했습니다.

이를 해결하기 위해, 우리는 백본 LM 헤드가 항상 첫 번째 토큰을 생성하고, MTP 헤드는 오직 후속 토큰만을 담당하도록 하는 설계 원칙인 Backbone-as-Architect를 제안합니다. 이 원칙을 바탕으로, 우리는 각 디코딩 단계에서 얼마나 많은 추가 토큰을 안전하게 수락할 수 있는지 예측하는 경량 스팬 수준 (span-level) 결정 레이어인 CLP (Collocation-Length Predictor)를 도입합니다. CLP는 단 하나의 선형 레이어 (4.6K--7.7K 파라미터)만을 사용하며, 기존 연구에서 사용된 과하게 설계된 1M 파라미터 규모의 게이트 네트워크 (gate networks)를 대체합니다.

Qwen2.5 모델 (0.5B, 1.5B, 7B)에 대한 실험 결과, CLP는 품질 저하 없이 (반복 비율 < 0.02) 1.5B 모델에서 1.20x--1.29x, 7B 모델에서 1.14x--1.20x의 속도 향상을 달성했습니다. 반면 게이트 기반 방식은 가속에 실패하거나 (1.07x) 심각하게 저하된 출력 (반복 비율 > 0.5%)을 생성했습니다. 우리는 더 나아가 더 짧은 예측 지평 (prediction horizons, k=2)이 대규모 모델에서 MTP 헤드 정확도를 24% 더 높게 회복한다는 것을 입증하여, 스케일링을 고려한 (scaling-aware) 설계 원칙을 확립했습니다. 우리는 MTP 헤드 예측 정확도가 가속의 제약 조건임을 확인하였으며, 향후 개선을 위한 명확한 로드맵을 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0