점수(Scores)에서 Gibbs 보정기(Gibbs Correctors)까지: 균일 속도 이산 확산 모델(Uniform-Rate
요약
이산 확산 모델의 샘플링 속도를 획기적으로 개선하는 GADD(Gibbs-Accelerated Discrete Diffusion)를 제안합니다. 추가 학습 없이 Gibbs 사후 가능도를 활용하여 샘플링 복잡도를 대폭 낮추었으며, 텍스트 및 음악 생성 분야에서 우수한 성능을 입증했습니다.
핵심 포인트
- 추가 학습 없이 Gibbs 보정기를 통한 샘플링 가속화
- 균일 속도 이산 확산 모델에서 최초로 낮은 샘플링 복잡도 달성
- 텍스트 및 음악 생성 등 다양한 도메인에서 제로샷 성능 입증
- 예측기-보정기 방법론 분석을 위한 새로운 이론적 프레임워크 도입
이산 확산 모델(Discrete diffusion models)은 텍스트 및 기타 기호적 도메인에서 강력한 실증적 성능을 달성했지만, 특히 균일 속도 모델(uniform-rate models)의 경우 단일 샘플을 생성하는 데 많은 단계가 필요한 경우가 많습니다. 기존의 가속화 방법들은 추가적인 양을 학습하는 데 의존하거나 느린 혼합(mixing) 문제로 어려움을 겪습니다. 본 연구에서는 Gibbs 기반의 새로운 이산 확산 모델용 보정기(corrector)를 제안하며, 이를 Gibbs-Accelerated Discrete Diffusion (GADD)라고 명명합니다. GADD는 표준 점수 추정(score estimation) 외에 추가적인 학습을 요구하지 않고, concrete score function의 구조를 활용하여 Gibbs 사후 가능도(Gibbs posterior likelihoods)를 직접 구축합니다. 우리는 GADD가 $\mathcal{O}(\mathrm{polylog} (\varepsilon^{-1}))$의 전체 샘플링 복잡도(sampling complexity)를 달성함을 보여주며, 이는 균일 속도 이산 확산 모델을 위한 확산 기반 샘플러(diffusion-based samplers)로서 최초로 달성된 속도입니다. 또한 우리는 합성 데이터(synthetic data), 제로샷 텍스트 샘플링(zero-shot text sampling), 그리고 제로샷 조건부 음악 생성(zero-shot conditional music generation) 전반에 걸쳐 GADD의 실질적인 이점을 입증하는 수치 실험을 수행합니다. 이러한 결과는 이론을 뒷받침하며, GADD가 vanilla Euler 방법 및 CTMC 보정기를 포함한 표준 베이스라인(baselines)보다 샘플 품질과 실제 실행 시간 효율성(wall-clock efficiency)을 일관되게 개선함을 보여줍니다. 이를 넘어, 우리의 이론적 분석은 이산 확산 모델에서 예측기-보정기(predictor-corrector) 방법을 분석하기 위한 새로운 프레임워크를 도입하며, 이는 독립적인 관심사가 될 수 있습니다. Girsanov 측도 변경(Girsanov change-of-measure) 기술에 의존하는 기존 접근 방식과 달리, 우리의 방법은 보정기 업데이트의 부정확성을 고려하면서 예측기 반복(predictor iterations)에 따른 오차 전파를 추적하는 귀납적 논증(induction argument)에 기반합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기