Adaptive Block Diffusion: 확산 언어 모델(Diffusion Language Models)의 학습-추론 불일치 해결
요약
확산 언어 모델(DLM)의 학습과 추론 과정에서 발생하는 구성 불일치 문제를 해결하기 위한 Adaptive Block Diffusion(ABD)을 제안합니다. ABD는 구성을 확률 변수로 취급하여 아키텍처 변경 없이 다양한 디코딩 전략에 대한 일반화 성능을 높입니다.
핵심 포인트
- 학습-추론 간의 구성 불일치로 인한 성능 저하 문제 해결
- Adaptive Block Diffusion(ABD)을 통한 디노이징 리스크 최적화
- 다양한 디코딩 스케일에서 구조적 불변성 및 일반화 성능 확보
- 고정 블록 전문 모델과 대등하거나 이를 능가하는 성능 입증
확산 언어 모델 (Diffusion Language Models, DLMs)은 일반적으로 고정된 컨텍스트 구조 하에서 학습되며, 이로 인해 디노이징 (denoising) 과정이 미리 정해진 토큰 서브셋 (token subsets)으로 제한됩니다. 이는 학습과 추론 사이의 불일치를 유발하며, 모델이 임의의 구성 (configurations) 위에서 동작해야 할 때 학습 그리드 (training grid)를 벗어나 성능이 저하되는 결과를 초래합니다. 우리는 접두사-윈도우 (prefix-window) 구성의 분포에 대해 디노이징 리스크 (denoising risk)를 최적화함으로써 이러한 불일치를 해결하는 Adaptive Block Diffusion (ABD)을 제안합니다. 구성을 확률 변수 (stochastic variable)로 취급함으로써, ABD는 아키텍처의 변경 없이 전체 구성 공간에 대해 단일 모델을 학습시킵니다. 우리는 디코딩 전략 (decoding strategies) 전반에 걸친 일반화가 학습 분포의 서포트 (support)에 의해 결정된다는 점과, ABD가 학습 중에 커버된 구성을 가진 모든 추론 정책 (inference policy)에 대해 디노이징 최적성 (denoising optimality)을 보장한다는 것을 보여줍니다. 실험적으로 ABD는 디코딩 스케일 (decoding scales) 전반에 걸쳐 구조적 불변성 (structural invariance)을 나타내어 그리드 이탈 붕괴 (off-grid collapse)를 방지하고, 블록 크기 (block size)와 퍼플렉서티 (perplexity) 사이의 단조 관계 (monotonic relationship)를 회복하는 동시에, 타겟 스케일에서 고정 블록 전문 모델 (fixed-block specialists)과 대등하거나 이를 능가하는 성능을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기