DSL-LLaDA: 8B Masked Diffusion LM을 위한 연속적 디노이징 (Continuous Denoising) 확장
요약
LLaDA-8B 모델을 기반으로 이산적 마스크 확산 언어 모델을 연속적 디노이징 방식으로 확장하는 DSL-LLaDA 연구를 소개합니다. 이 방식은 임베딩 공간에서 토큰을 공동 진화시켜 텍스트 길이와 품질 사이의 트레이드오프 문제를 해결합니다.
핵심 포인트
- 이산적 마스크를 연속적 가우시안 노이즈로 대체하여 적응
- 낮은 디코딩 단계에서도 높은 품질과 길이 유지 가능
- 제로샷 요약 작업에서 ROUGE-1 성능 최고치 달성
- 깨끗한 토큰은 보존하고 손상된 토큰만 수정하는 강건성 제공
이산적 마스크 확산 언어 모델 (Discrete Masked diffusion language models)은 반복적인 병렬 디코딩 (iterative parallel decoding)을 통해 텍스트를 생성하지만, 몇 단계의 디코딩 (few-step decoding)은 길이와 품질 사이의 트레이드오프 (tradeoff) 문제를 겪습니다. 즉, 고정된 단계 예산 (step budget) 내에서 표준적인 방법들은 짧고 고품질인 출력을 생성하거나, 혹은 길지만 반복적인 텍스트를 생성하게 됩니다. 연속적 디노이징 (Continuous denoising)은 임베딩 공간 (embedding space)에서 모든 위치를 공동으로 진화시킴으로써 이러한 트레이드오프를 피할 수 있지만, 이러한 모델을 대규모로 처음부터 구축하는 것은 여전히 미해결 과제로 남아 있습니다. 본 연구에서는 사전 학습된 마스크 DLM (pretrained masked DLM)을 가볍게 적응시켜 연속적 임베딩 공간 디노이징 (continuous embedding-space denoising)을 지원할 수 있음을 보여줍니다. LLaDA-8B-Instruct를 시작점으로 하여, 이산적 확률적 국소화 (Discrete Stochastic Localization, DSL)를 통해 단 1,000 단계 동안 연속 사전 학습 (continue-pretrain)을 수행하며, 이 과정에서 이진 마스킹 (binary masking)을 소프트 마스크 (soft mask)로서 토큰당 연속 가우시안 노이즈 (continuous per-token Gaussian noise)로 대체합니다. 이렇게 적응된 모델은 임베딩 공간에서 모든 위치를 공동으로 진화시키는 연속적 추론 (continuous inference)을 지원하며, 최종 단계까지 하드 토큰 확정 (hard token commitment)을 유예합니다. 낮은 단계 예산 (<=16 forward passes)에서의 제로샷 요약 (zero-shot summarization) 작업에서, DSL-LLaDA-SDE는 4개의 모든 벤치마크에서 최고의 ROUGE-1 성능을 달성하였으며, 반복적 언마스킹 (iterative unmasking)의 조기 종료 (premature-termination) 및 반복 문제의 트레이드오프를 크게 회피합니다. 동일한 적응 방식은 선택적 노이즈 상태 강건성 (selective noisy-state robustness) 또한 제공합니다. 즉, 모델은 깨끗한 토큰은 보존하면서 손상된 토큰을 수정합니다. 동일한 연산량을 사용한 표준 마스크 확산 학습 (standard masked diffusion training)을 이용한 대조 실험에서는 이러한 동작이 나타나지 않았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기