확산 샘플링을 위한 ART: 연속 시간 제어 및 액터-크리틱 학습 (ART for Diffusion Sampling:
요약
확산 모델의 샘플링 효율을 높이기 위해 타임스텝 할당을 학습하는 연속 시간 제어 방식인 ART를 제안합니다. 강화학습의 액터-크리틱 알고리즘을 활용한 ART-RL을 통해 최적의 샘플링 스케줄을 도출하며, 기존 파이프라인 변경 없이도 높은 샘플 품질과 일반화 성능을 입증했습니다.
핵심 포인트
- 고정된 타임스텝 대신 학습 가능한 연속 시간 제어 방식 ART 제안
- 강화학습(Actor-Critic)을 통한 최적의 샘플링 스케줄 학습
- 기존 확산 샘플러에 타임스텝 그리드만 변경하여 즉시 적용 가능
- 다양한 데이터셋과 솔버에 대해 재학습 없는 높은 일반화 성능 확인
우리는 학습된 역시간 역학 (reverse-time dynamics)이 유한한 그리드 상에서 이산화되는 스코어 기반 확산 샘플링 (score-based diffusion sampling)을 위한 타임스텝 할당 (timestep allocation)을 연구합니다. 균등한 (Uniform) 방식과 수작업으로 제작된 스케줄 (hand-crafted schedules)이 표준적인 선택이지만, 이들은 고정된 규정에 의존하므로 최적이 아닐 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 샘플링 시계의 속도를 제어 대상으로 취급하여 시간 변화를 학습하는 연속 시간 제어 공식인 ART (Adaptive Reparameterized Time)를 제안합니다. 이를 통해 학습된 시계 상의 균등한 그리드는 원래의 확산 시간 (diffusion time)에서 적응형 타임스텝 (adaptive timesteps)을 유도합니다. ART는 주요 차수 오일러 오차 대리물 (leading-order Euler error surrogate)을 기반으로, 샘플링 궤적을 따라 타임스텝을 할당하기 위한 원칙적인 목적 함수를 제공합니다. 이 결정론적 제어 문제 (deterministic control problem)를 해결하기 위해, 우리는 가우시안 정책 (Gaussian policies)을 사용하는 보조적 무작위 공식인 ART-RL을 도입하여 스케줄 학습을 연속 시간 강화학습 (continuous-time reinforcement learning) 문제로 전환합니다. 우리는 무작위 ART-RL 공식이 최적화 단계에서 ART와 동일함을 증명하며, 즉 최적의 가우시안 정책이 그 평균을 통해 최적의 ART 시간 왜곡률 (time-warping rate)을 복구한다는 것을 보여줍니다. 나아가 우리는 정책 평가 (policy evaluation) 및 정책 개선 (policy improvement) 특성을 확립하고, 스케줄 학습을 위한 구현 가능한 액터-크리틱 (actor--critic) 업데이트를 생성하는 궤적 기반 모멘트 항등식 (trajectory-based moment identities)을 도출합니다. 통제된 저차원 설정부터 이미지 생성에 이르는 다양한 실험을 통해, ART-RL은 타임스텝 그리드만 변경함으로써 기존 확산 샘플러에 바로 적용될 수 있으며, 나머지 샘플링 파이프라인을 변경하지 않고도 동일한 예산 내에서 강력한 베이스라인 스케줄보다 일관되게 향상된 샘플 품질을 보여줍니다. 학습된 스케줄은 또한 샘플링 예산, 데이터셋, 솔버 (solvers), 파이프라인 및 표현 공간 (representation spaces) 전반에 걸쳐 재학습 없이 전이되는 광범위한 일반화 성능을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기