arXiv논문2026. 06. 05. 14:06

NAVIRA: 마스크드 확산 언어 모델을 위한 분리된 확률적 재마스킹 (Decoupled Stochastic Remasking)

요약

마스크드 확산 언어 모델의 국소적 의존성 오류를 해결하기 위해 제안된 NAVIRA는 토큰 품질 점수 산출과 재마스킹 과정을 분리한 새로운 디코딩 정책입니다. 확률적 재마스킹을 통해 문맥 오염을 방지하고 텍스트 생성의 유창성과 다양성 사이의 균형을 최적화합니다.

핵심 포인트

토큰 품질 점수 산출과 재마스킹 과정을 분리하여 오류 전파 방지
온도 제어형 재마스킹으로 유창성과 다양성 간의 균형 확보
확률적 재마스킹을 통해 엔트로피를 보존하며 LLM-judge 점수 향상
재마스킹 정책이 확산 모델의 신뢰할 수 있는 생성에 핵심임을 입증

마스크드 확산 언어 모델 (Masked diffusion language models)은 많은 토큰을 병렬로 반복적으로 언마스킹 (unmasking)하여 텍텍스트를 생성하지만, 이러한 속도는 수정 문제 (correction problem)를 동반합니다. 즉, 동일한 단계에서 생성된 토큰들은 주변 분포 (marginal distributions)로부터 예측되며, 초기의 국소적 의존성 오류 (local dependency errors)가 나중에 문맥 (context)을 오염시킬 수 있습니다. PRISM은 토큰 수준의 품질 점수 (token-level quality scores)를 학습하고 신뢰할 수 없는 토큰을 재마스킹 (remasking)함으로써 이 문제를 해결하지만, 그 추론 규칙은 결합 (coupled)되어 있습니다. 즉, 동일한 순전파 (forward pass) 과정에서 저품질 토큰을 탐지하는 동시에 그 교체 대상에 대한 로짓 (logits)을 계산하므로, 오류가 있는 토큰이 여전히 재생성 (regeneration)의 조건 (condition)으로 작용하게 됩니다. 우리는 이 두 작업을 분리하고 재마스킹 위치를 확률적으로 샘플링하는 추론 시점 디코딩 정책 (inference-time decoding policy)인 NAVIRA를 제안합니다. 첫 번째 순전파 (forward pass)는 토큰의 점수를 매기고, 선택된 토큰들은 마스킹 (masked)됩니다. 이후 두 번째 순전파 (forward pass)가 정제된 문맥 (cleaned context)으로부터 텍스트를 재생성합니다. 온도 제어형 재마스킹 (Temperature-controlled remasking)은 동일한 위치가 반복적으로 수정되는 것을 줄이고 유창성 (fluency)과 다양성 (diversity) 사이의 균형을 맞춥니다. 170M 규모의 마스크드 확산 언어 모델을 이용한 통제된 실험에서, 분리 (decoupling) 방식은 유창성을 향상시키는 한편, 스케줄링된 확률적 재마스킹 (scheduled stochastic remasking)은 엔트로피 (entropy)를 보존하며 더 큰 순전파 (forward-pass) 예산 하에서 더 높은 LLM-judge 점수를 달성했습니다. 이러한 결과는 학습된 품질 신호 (quality signal)뿐만 아니라 재마스킹 정책 (remasking policy) 또한 신뢰할 수 있는 마스크드 확산 텍스트 생성 (masked-diffusion text generation)의 핵심임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

NAVIRA: 마스크드 확산 언어 모델을 위한 분리된 확률적 재마스킹 (Decoupled Stochastic Remasking)

요약

핵심 포인트

댓글