arXiv논문2026. 05. 27. 12:01

점수(Scores)에서 Gibbs 보정기(Gibbs Correctors)까지: 균일 속도 이산 확산 모델(Uniform-Rate

요약

이산 확산 모델의 샘플링 속도를 획기적으로 개선하는 GADD(Gibbs-Accelerated Discrete Diffusion)를 제안합니다. 추가 학습 없이 Gibbs 사후 가능도를 활용하여 샘플링 복잡도를 대폭 낮추었으며, 텍스트 및 음악 생성 분야에서 우수한 성능을 입증했습니다.

핵심 포인트

추가 학습 없이 Gibbs 보정기를 통한 샘플링 가속화
균일 속도 이산 확산 모델에서 최초로 낮은 샘플링 복잡도 달성
텍스트 및 음악 생성 등 다양한 도메인에서 제로샷 성능 입증
예측기-보정기 방법론 분석을 위한 새로운 이론적 프레임워크 도입

이산 확산 모델(Discrete diffusion models)은 텍스트 및 기타 기호적 도메인에서 강력한 실증적 성능을 달성했지만, 특히 균일 속도 모델(uniform-rate models)의 경우 단일 샘플을 생성하는 데 많은 단계가 필요한 경우가 많습니다. 기존의 가속화 방법들은 추가적인 양을 학습하는 데 의존하거나 느린 혼합(mixing) 문제로 어려움을 겪습니다. 본 연구에서는 Gibbs 기반의 새로운 이산 확산 모델용 보정기(corrector)를 제안하며, 이를 Gibbs-Accelerated Discrete Diffusion (GADD)라고 명명합니다. GADD는 표준 점수 추정(score estimation) 외에 추가적인 학습을 요구하지 않고, concrete score function의 구조를 활용하여 Gibbs 사후 가능도(Gibbs posterior likelihoods)를 직접 구축합니다. 우리는 GADD가 $\mathcal{O}(\mathrm{polylog} (\varepsilon^{-1}))$의 전체 샘플링 복잡도(sampling complexity)를 달성함을 보여주며, 이는 균일 속도 이산 확산 모델을 위한 확산 기반 샘플러(diffusion-based samplers)로서 최초로 달성된 속도입니다. 또한 우리는 합성 데이터(synthetic data), 제로샷 텍스트 샘플링(zero-shot text sampling), 그리고 제로샷 조건부 음악 생성(zero-shot conditional music generation) 전반에 걸쳐 GADD의 실질적인 이점을 입증하는 수치 실험을 수행합니다. 이러한 결과는 이론을 뒷받침하며, GADD가 vanilla Euler 방법 및 CTMC 보정기를 포함한 표준 베이스라인(baselines)보다 샘플 품질과 실제 실행 시간 효율성(wall-clock efficiency)을 일관되게 개선함을 보여줍니다. 이를 넘어, 우리의 이론적 분석은 이산 확산 모델에서 예측기-보정기(predictor-corrector) 방법을 분석하기 위한 새로운 프레임워크를 도입하며, 이는 독립적인 관심사가 될 수 있습니다. Girsanov 측도 변경(Girsanov change-of-measure) 기술에 의존하는 기존 접근 방식과 달리, 우리의 방법은 보정기 업데이트의 부정확성을 고려하면서 예측기 반복(predictor iterations)에 따른 오차 전파를 추적하는 귀납적 논증(induction argument)에 기반합니다.

AI 자동 생성 콘텐츠

원문 바로가기

점수(Scores)에서 Gibbs 보정기(Gibbs Correctors)까지: 균일 속도 이산 확산 모델(Uniform-Rate

요약

핵심 포인트

댓글