arXiv논문2026. 06. 02. 12:22

SimSD: 확산 언어 모델(Diffusion Language Models)을 위한 단순한 투기적 디코딩(Speculative Decoding)

요약

확산 언어 모델(dLLM)의 추론 속도를 높이기 위해 제안된 SimSD 알고리즘을 소개합니다. 이 방식은 별도의 학습 없이도 dLLM에 시간적 문맥을 제공하여 투기적 디코딩을 가능하게 하며, 처리량을 최대 7.46배 향상시킵니다.

핵심 포인트

dLLM과 투기적 디코딩 간의 호환성 문제 해결
플러그 앤 플레이 방식의 마스킹 전략 채택
추가 학습 없이 기존 가속 기술과 유연하게 통합 가능
생성 품질 유지 및 디코딩 처리량 최대 7.46배 증가

확산 대규모 언어 모델(Diffusion large language models, dLLMs)은 최근 병렬 또는 블록 단위 디코딩(blockwise decoding)을 통해 더 빠른 추론을 제공하며 자기회귀(Autoregressive, AR) LLM의 유망한 대안으로 부상했습니다. 그러나 dLLM의 마스크 언어 모델링(masked language modeling) 공식은 AR 모델을 위한 가장 효과적인 가속 기술 중 하나인 표준 토큰 수준 투기적 디코딩(token-level speculative decoding)과 여전히 호환되지 않습니다. AR 디코딩에서는 인과적 마스크(causal mask)가 시간적으로 유효한 토큰 수준의 문맥(context)을 보존하여, 타겟 모델이 단 한 번의 순전파(forward pass)로 여러 개의 초안 토큰(drafted tokens)을 검증할 수 있게 합니다. 반면, dLLM은 마스크 토큰(mask tokens)과 양방향 어텐션(bidirectional attention)에 의존하기 때문에, 디노이징(denoising) 단계에 따라 유효한 문맥이 변하게 되어 직접적인 토큰 수준의 투기적 검증을 방해합니다. 이러한 격차를 해소하기 위해, 우리는 SimSD라고 명명된 확산 언어 모델을 위한 단순하지만 효과적인 투기적 디코딩 알고리즘을 제안합니다. 이 알고리즘은 주로 dLLM에 투기적 디코딩을 위한 시간적으로 유효한 토큰 수준의 문맥을 제공하는 플러그 앤 플레이(plug-and-play) 방식의 마스킹 전략을 채택합니다. 우리의 방법은 초안 모델(draft-model)의 예측으로부터 참조 토큰(reference tokens)을 명시적으로 도입하고, 현재 단계의 토큰들과의 상호작용을 조절하는 어텐션 마스크(attention mask)를 설계하여, dLLM이 단 한 번의 순전파로 초안 토큰에 대한 유효한 로짓(logits)을 계산할 수 있도록 합니다. 이는 dLLM의 병렬 디코딩 이점을 유지하면서도 AR 모델의 인과적 마스킹이 제공하는 핵심적인 검증 능력을 복원합니다. 제안된 방법은 별도의 학습이 필요하지 않으며(training-free), KV 캐시(KV cache) 및 블록 단위 디코딩(blockwise decoding)과 같은 다른 가속 기술과 유연하게 통합될 수 있습니다. 4개의 벤치마크에 걸쳐 SDAR 계열 dLLM을 대상으로 수행한 실험 결과, 우리의 방법은 평균 생성 품질을 유지하거나 심지어 향상시키면서도 디코딩 처리량(throughput)을 최대 7.46배까지 높이는 것을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SimSD: 확산 언어 모델(Diffusion Language Models)을 위한 단순한 투기적 디코딩(Speculative Decoding)

요약

핵심 포인트

댓글