확산 모델(Diffusion)에 좌측에서 우측으로 추측(Speculate)하도록 가르치기
요약
확산 언어 모델을 활용한 투기적 디코딩의 효율성을 높이기 위해, 양방향 생성과 좌측-우측 검증 간의 간극을 줄이는 세 가지 훈련 기법을 제안합니다. 이를 통해 추가 연산 없이도 초안 수락 길이를 21-76% 향상시켰습니다.
핵심 포인트
- 확산 모델의 양방향 생성과 타겟 모델의 순차적 검증 간 불일치 해결
- 토큰 위치 가중치, 첫 번째 오류 초점 손실, 체인 손실 등 세 가지 개입 제안
- 추가적인 추론 비용 없이 초안 수락 길이를 최대 76% 향상
- 추론, 코드, 대화 등 다양한 벤치마크에서 성능 검증 완료
대규모 언어 모델(LLMs)은 광범위한 작업에서 놀라운 성능을 달성하지만, 본질적으로 순차적인 토큰 생성으로 인해 자기회귀적 디코딩(autoregressive decoding) 과정에서 상당한 추론 비용이 발생합니다. 투기적 디코딩(Speculative decoding)은 경량화된 초안 모델(draft model)을 사용하여 여러 개의 미래 토큰을 제안하고, 이후 더 큰 타겟 모델(target model)이 이를 병렬로 검증함으로써 이러한 병목 현상을 해결합니다. 최근 연구에 따르면 확산 언어 모델(diffusion language models)은 초안 토큰의 전체 블록을 병렬로 생성할 수 있어 자기회귀적 초안 작성(autoregressive drafting)의 순차적 제약을 완화할 수 있으므로 이 설정에 매우 적합하다는 것이 입증되었습니다. 이 방식의 미묘한 점은 블록 확산 초안 작성기(block-diffusion drafters)가 블록 내에서 양방향으로 토큰을 생성하는 반면, 검증은 엄격하게 좌측에서 우측 방향(left-to-right)으로 토큰을 평가하는 자기회귀적 타겟 모델에 의해 수행된다는 것입니다. 이로 인해 대칭적인 훈련 시 목적 함수(training-time objective)와 비대칭적인 검증 시 보상(verification-time reward) 사이에 간극이 발생합니다. 본 연구에서는 이 간극을 좁히는 세 가지 훈련 시 개입(training-time interventions)에 대한 경험적 분석을 제공합니다: 토큰 위치 가중치(token positional weighting), 각 블록 내에서 수락된 접두사(accepted prefix)를 깨뜨리는 위치를 대상으로 하는 첫 번째 오류 초점 손실(first-error focal loss), 그리고 기대 수락 길이(expected accepted length)를 미분 가능한 대리물(differentiable surrogate)로 대체하는 체인 손실(chain loss) 항입니다. 이 세 가지 개입은 직교하는 축(위치, 블록 조건부 첫 번째 오류, 결합 접두사)을 따라 작동하며 가산적으로 구성됩니다. 또한 이들은 원칙적으로 결합 가능한 멀티 초안 자기 선택(multi-draft self-selection)과 같은 테스트 시 정렬 메커니즘(test-time alignment mechanisms)과도 직교합니다. 네 가지 타겟 모델과 추론, 코드 및 대화 벤치마크 6개에 걸쳐, 이 세 가지 개입은 추가적인 순전파(forward passes)를 더하지 않고, 추론 파이프라인이나 거부 샘플링(rejection-sampling)의 정확성 계약을 변경하지 않으면서도, 위치 균등 베이스라인(position-uniform baseline) 대비 벤치마크당 수락된 초안 길이를 21-76% 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기