본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:19

Pair-In, Pair-Out: 효율적인 LLM을 위한 잠재 다중 토큰 예측 (Latent Multi-Token Prediction)

요약

PIPO(Pair-In, Pair-Out)는 잠재 압축과 다중 토큰 예측(MTP)을 통합하여 LLM의 추론 효율성을 극대화하는 새로운 프레임워크입니다. 입력 압축과 출력 확장을 거울 이미지 연산으로 연결하고 경량 신뢰도 헤드를 통해 검증 비용을 제거했습니다.

핵심 포인트

  • 잠재 압축과 MTP를 통합하여 추론 비용 절감
  • 경량 신뢰도 헤드로 검증기(Verifier) 비용 제거
  • On-Policy Distillation(OPD)을 통한 효율적 학습
  • 지연 시간 최대 2.64배 단축 및 성능 향상 입증

긴 사고 사슬 (Long chain-of-thought) 추론은 자기회귀 디코딩 (autoregressive decoding)을 현대 대규모 언어 모델 (LLM)의 지배적인 추론 비용으로 만들었습니다. 기존 방법들은 입력 측 (잠재 압축 (latent compression)) 또는 출력 측 (추측 디코딩 (speculative decoding) 및 다중 토큰 예측 (multi-token prediction, MTP)) 중 하나를 목표로 해왔으나, 이 두 가지 연구 흐름은 독립적으로 추진되어 왔습니다. 더욱이, 출력 측 방법들은 MTP에 의해 예측된 신뢰할 수 없는 초안 토큰 (draft tokens)을 검증하기 위해 비용이 많이 드는 검증기 (verifier) 패스를 거쳐야만 합니다. 이러한 문제를 해결하기 위해, 우리는 잠재 압축기 (latent compressor)와 MTP 헤드 (head)를 거울 이미지 연산으로 간주하여 양측을 통합하는 extbf{Pair-In, Pair-Out (PIPO)}를 제안합니다. 즉, 압축기는 두 개의 입력 토큰을 하나의 잠재 표현 (latent representation)으로 접고, MTP 헤드는 하나의 은닉 상태 (hidden state)를 하나의 추가 출력 토큰으로 펼칩니다. 신뢰성을 희생하지 않으면서 검증기 비용을 제거하기 위해, PIPO는 초안 토큰의 수락 여부를 결정하는 경량 신뢰도 헤드 (confidence head)를 학습시킵니다. 우리는 온-정책 증류 (On-Policy Distillation, OPD)가 추측 디코딩의 거부 샘플링 (rejection-sampling) 기준과 자연스럽게 일치한다는 것을 관찰하였으며, 따라서 신뢰도 헤드는 무시할 수 있는 수준의 추가 비용으로 OPD와 함께 학습될 수 있습니다. Qwen3.5-4B 및 9B 백본을 사용하여 AIME 2025, GPQA-Diamond, LiveCodeBench v6, LongBench v2에서 수행한 실험 결과, PIPO는 일반적인 디코딩 대비 pass@4를 최대 $+7.15$ 포인트 향상시키는 동시에, 첫 번째 토큰 지연 시간 (first-token-latency)은 최대 $2.64 imes$, 토큰당 지연 시간 (per-token-latency)은 최대 $2.07 imes$의 속도 향상을 제공함을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0