본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:33

UniVer: 다단계 및 다 드래프트 추측 해독에 대한 통합적 관점

요약

UniVer는 조건부 최적 전송(Conditional Optimal Transport, COT) 문제를 활용하여 대형 언어 모델의 추측 해독(Speculative Decoding) 과정을 통합적으로 형식화하는 새로운 방법을 제안합니다. 기존 방식들이 다단계 및 다 드래프트 측면을 분리하여 처리했던 한계를 극복하고, 수직 의존성을 접두어 확률로 추상화하여 수평 드래프트 선택에 능동적으로 활용합니다. 이를 통해 UniVer는 트리 레벨 전체를 함께 최적화하는 검증 알고리즘을 구현하며, 기존 방식 대비 높은 효율성 개선과 정확도 유지라는 이점을 입증했습니다.

핵심 포인트

  • UniVer는 조건부 OT 문제를 사용하여 Speculative Decoding의 다단계 및 다 드래프트 측면을 통합적으로 모델링합니다.
  • 수직 의존성은 접두어 수용 확률로 추상화되어, 수평 드래프트 선택에 동적 스케일링 인자로 활용됩니다.
  • 제안된 알고리즘은 트리 레벨 전체를 함께 최적화하는 검증 계획을 구성하여 효율성을 극대화합니다.
  • 실험 결과, UniVer는 표준 재귀 거부 표본 추출 대비 4.2%에서 8.5%의 수용 길이 개선을 달성하며 정확도를 유지했습니다.

추측 해독 (Speculative Decoding) 은 검증 과정을 최적 전송 (Optimal Transport, OT) 문제로 형식화함으로써 대형 언어 모델의 속도를 가속화합니다. 기존 접근 방식은 일반적으로 단일 단계 드래프트에 평면 OT 를 적용하거나 트리 구조의 후보자에게 토큰별 거부 표본 추출을 적용하여 다단계 및 다 드래프트 측면을 분리하여 처리합니다. 이러한 분리는 수평과 수직 차원의 후보 트리의 결합 (multi-step dependencies meet multi-draft branching) 을 잘 최적화하지 못하게 하여, 국소 검증 규칙이 후보 트리의 수평 및 수직 차원 간의 결합을 활용하지 못하게 합니다.

본 논문에서는 조건부 OT 문제를 통해 트리 기반 검증을 통합적 관점으로 형식화하는 방법을 제안합니다. 우리의 핵심 통찰은 수직 의존성을 접두어 수용 확률 (prefix acceptance probabilities) 을 통해 추상화할 수 있으며, 이는 동적 스케일링 인자로 작용하여 수평 드래프트 선택을 능동적으로 안내한다는 것입니다. 이 원리에 기반하여, 우리는 접두어 제약 조건 하에 국소 최적 전송 계획을 구성함으로써 트리 레벨을 함께 최적화하는 검증 알고리즘인 UniVer 를 소개합니다. 우리는 UniVer 가 제안된 조건부 프레임워크 하에서 손실 없는 (lossless) 상태를 유지하며 최적의 수용률을 달성함을 증명합니다.

다양한 과제 및 모델에 걸친 광범위한 실험은, UniVer 가 표준 재귀 거부 표본 추출 (standard recursive rejection sampling without replacement) 과 비교하여 수용 길이를 4.2% 에서 8.5% 까지 개선함을 보여줍니다. 동시에 목표 모델과의 정확한 분포 정렬을 유지합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0