Forward-Free Diffusion Language Models (전방향 과정이 없는 확산 언어 모델)
요약
FReDA는 인위적인 전방향 과정(forward process) 없이 텍스트를 생성하는 새로운 확산 언어 모델을 제안합니다. 재귀적 분포 정제 방식을 통해 모델이 생성한 초안을 목표 분포로 점진적으로 이동시키며, 기존 확산 모델 대비 높은 품질과 속도를 달성했습니다.
핵심 포인트
- 수동 설계된 전방향 과정 없이 암시적 중간 상태 활용
- 재귀적 분포 정제를 통한 초안의 점진적 개선
- FReDA-4B 모델이 대규모 확산 모델보다 높은 성능 기록
- 기존 확산 베이스라인 대비 1.5~1.8배 속도 향상
확산 언어 모델 (Diffusion language models)은 반복적인 노이즈 제거 (denoising) 과정을 통해 텍스트를 생성하며, 이는 자기회귀 생성 (autoregressive generation)에 대한 강력한 대안을 제공합니다. 그러나 이산적인 언어 공간 (discrete language spaces)은 효과적인 섭동 (perturbations)을 정의하기 위한 자연스러운 이웃 구조 (neighborhood structure)가 부족하기 때문에, 전방향 과정 (forward process)에서 일부 인위적인 오염 방식 (corruption schemes)이 제안되어 왔습니다. 이러한 규정된 전방향 과정은 수학적으로는 편리하지만, 생성 과정 중에 발생하는 초안 (drafts) 및 오류와 일치하지 않는 상태를 생성하는 경우가 많아 샘플 품질의 저하를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 수동으로 설계된 전방향 과정의 필요성을 제거한 전방향 과정이 없는 확산 언어 모델 (forward-free diffusion language model)인 FReDA를 제안합니다. 우리는 확산 언어 모델링을 재귀적 분포 정제 (recursive distribution refinement)로 공식화하며, 여기서 모델이 생성한 초안은 암시적인 중간 상태 (implicit intermediate states) 역할을 하고, 학습된 정제 모델 (refinement model)은 초안 분포를 목표 분포 (target distribution)로 점진적으로 이동시킵니다. 구체적으로, FReDA는 후보 초안 시퀀스를 제안하고 직접적인 자기 정제 (self-refinement)를 수행하거나, Best-of-N 정제를 통해 병렬 후보 중 하나를 선택함으로써 초안을 정제합니다. 이러한 설계를 통해 FReDA는 이웃 인식 불필요 (neighborhood-agnostic), 모델 복잡도 인지 (model-complexity-aware), 그리고 유연한 정제 매개변수화 (refinement parameterizations)와 호환됩니다. 8B 미만 규모에서의 광범위한 평가 결과, FReDA-4B는 추론 및 코딩 벤치마크에서 더 큰 확산 기반 모델들을 능가하며 최대 15%의 절대적 이득을 달성하는 동시에, 확산 베이스라인 대비 평균 1.5~1.8배의 속도 향상을 보여주었으며 추가적인 정제 연산에 따라 효과적으로 확장됨을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기