적을수록 더 많다: 확산 언어 모델(Diffusion Language Models)을 위한 상호 안정성 샘플링 (Mutual-Stability
요약
확산 언어 모델(dLLM)의 디코딩 효율성을 높이기 위해, 토큰 확정 시점을 동적으로 결정하는 적응형 샘플러 LESS를 제안합니다. LESS는 상호 안정성 샘플링을 통해 불필요한 계산을 줄이면서도 정확도를 향상시킵니다.
핵심 포인트
- dLLM의 고정된 디노이징 단계로 인한 비효율성 문제 해결
- 훈련이 필요 없고 모델에 구애받지 않는 적응형 샘플러 LESS 제안
- 상호 안정성 규칙을 통해 토큰 확정 시점을 최적화
- 기존 방식 대비 역방향 단계 72.1% 감소 및 정확도 향상
- 추론 지연 시간 및 연산량(Inference Compute) 절감
확산 대규모 언어 모델 (diffusion large language models, dLLMs)은 마스킹된 시퀀스(masked sequences)를 반복적으로 정제함으로써 자기회귀 디코딩 (autoregressive decoding)의 유망한 대안을 제공하며, 병렬 토큰 업데이트와 양방향 조건화 (bidirectional conditioning)를 가능하게 합니다. 그러나 이들의 실질적인 효율성은 디코딩 전에 선택된 고정된 수의 역방향 디노이징 (reverse denoising) 단계를 실행하는 샘플링 절차로 인해 제한되며, 이미 안정된 위치에 계산 자원을 소모하거나 때로는 불안정한 위치를 너무 일찍 확정(committing)해 버리는 문제가 발생합니다. 우리는 토큰 확정 (token commitment)을 온라인 정지 문제 (online stopping problem)로 취급하는, 훈련이 필요 없고 모델에 구애받지 않는 적응형 샘플러인 \textsc{LESS}를 제안합니다. \textsc{LESS}는 마스킹된 위치의 top-1 예측이 높은 신뢰도를 가지고, top-1 토큰이 최근의 역방향 단계들에 걸쳐 지속되며, 예측 분포가 top-$K$ 단계 간 젠슨-샤논 발산 (Jensen--Shannon divergence) 하에서 안정적일 때만 해당 위치의 마스크를 해제할 수 있도록 하는 결합 안정성 규칙을 통해 상호 안정성 샘플링 (mutual-stability sampling)을 구현합니다. 우리는 일반 지식, 수학, 코드를 아우르는 7개의 벤치마크에 걸쳐 전체 시퀀스 확산 (full-sequence diffusion) 및 준-자기회귀 블록 단위 샘플링 (semi-autoregressive blockwise sampling) 체제를 포함하는 Dream-7B, LLaDA-8B, LLaDA-1.5-8B에서 \textsc{LESS}를 평가합니다. \textsc{LESS}는 고정 예산 디코딩 (fixed-budget decoding)보다 $72.1%$ 적은 역방향 단계를 사용하면서도 강력한 훈련 불필요 적응형 샘플러들보다 평균 정확도를 향상시킵니다. 각 역방향 단계는 Transformer 순전파 (forward pass)를 필요로 하므로, 이러한 단계 수의 감소는 더 적은 순전파 평가, 더 낮은 측정 벽시계 지연 시간 (wall-clock latency), 그리고 더 낮은 추정 추론 연산량 (inference compute)으로 이어집니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기