arXiv논문2026. 06. 10. 10:33

Masked Diffusion 언어 모델을 위한 어텐션 할인 적응형 샘플러 (Attention-Discounted Adaptive

요약

Masked Diffusion 언어 모델의 병렬 디코딩 품질을 개선하기 위한 새로운 훈련 불필요 샘플러인 ADAS를 제안합니다. ADAS는 어텐션 점수를 소프트 마진 페널티로 활용하여 토큰 간 상호작용을 고려한 재순위화를 수행합니다. 실험 결과, 기존 샘플러 대비 낮은 NFE 환경에서 성능을 크게 향상시키면서도 오버헤드는 최소화했습니다.

핵심 포인트

ADAS는 어텐션 기반의 소프트 마진 페널티를 사용하는 재순위화 규칙임
기존 샘플러와 결합 시 NFE 성능을 평균 9~10%p 향상
실행 시간 오버헤드는 회당 약 3.1%로 매우 낮음
LLaDA-8B 및 Dream-7B 모델을 통해 성능 검증 완료

Masked diffusion 언어 모델 (Masked diffusion language models)은 디노이징 반복 (denoising iteration) 당 여러 토큰을 한 번에 드러냄으로써 추론 단계 (inference steps)를 줄일 수 있지만, 이러한 병렬성 (parallelism)은 취약합니다. 개별적으로는 확신이 있는 위치라도, 예측이 서로 결합될 때 함께 확정하기에는 안전하지 않을 수 있기 때문입니다. Top-$k$, Fast-dLLM, EB-Sampler와 같은 기존의 훈련이 필요 없는 샘플러 (training-free samplers)들은 주로 얼마나 많은 토큰을 드러낼지를 제어하며, 선택된 집합 내의 상호작용을 무시한 채 토큰별 점수 (token-wise scores)로 후보를 순위 매기는 경우가 많습니다. 우리는 병렬 Masked diffusion 디코딩 (parallel masked diffusion decoding)을 위한 훈련이 필요 없는 재순위화 규칙 (training-free reranking rule)인 ADAS를 제안합니다. ADAS는 기본 샘플러의 중단 규칙 (stopping rule)은 변경하지 않고 오직 부분 집합 구성 (subset construction)만을 수정합니다. 즉, 예측이 여전히 불확실한 이미 선택된 위치에 강하게 어텐션 (attention)을 기울이는 후보에 대해 탐욕적(greedily)으로 할인을 적용합니다. 어텐션을 엄격한 호환성 제약 조건 (hard compatibility constraints)으로 변환하는 그래프 제약 방식 (graph-constrained methods)과 달리, ADAS는 어텐션을 연속적으로 유지하며 이를 소프트 마진 페널티 (soft marginal penalty)로 사용합니다. GSM8K, MATH500, HumanEval, MBPP 데이터셋에 대해 LLaDA-8B-Base 및 Dream-7B-Base 모델을 대상으로 실험한 결과, ADAS를 Top-$k$, Fast-dLLM, EB-Sampler에 결합했을 때 동일한 디노이저 평가 조건에서의 낮은 NFE (low-NFE) 성능이 평균적으로 각각 $9.11$ 및 $10.46$ 퍼센트 포인트 향상되었으며, 실행 시간 오버헤드 (runtime overhead)는 회당 $3.1 ext{%}$에 불과했습니다. 이러한 결과는 소프트 어텐션 할인 재순위화 (soft attention-discounted reranking)가 Masked diffusion 언어 모델의 고도의 병렬 디코딩 품질을 개선하는 단순하고 모듈화된 방법임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Masked Diffusion 언어 모델을 위한 어텐션 할인 적응형 샘플러 (Attention-Discounted Adaptive

요약

핵심 포인트

댓글