확산 샘플링을 위한 ART: 연속 시간 제어 및 액터-크리틱 학습 (ART for Diffusion Sampling:

우리는 학습된 역시간 역학 (reverse-time dynamics)이 유한한 그리드 상에서 이산화되는 스코어 기반 확산 샘플링 (score-based diffusion sampling)을 위한 타임스텝 할당 (timestep allocation)을 연구합니다. 균등한 (Uniform) 방식과 수작업으로 제작된 스케줄 (hand-crafted schedules)이 표준적인 선택이지만, 이들은 고정된 규정에 의존하므로 최적이 아닐 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 샘플링 시계의 속도를 제어 대상으로 취급하여 시간 변화를 학습하는 연속 시간 제어 공식인 ART (Adaptive Reparameterized Time)를 제안합니다. 이를 통해 학습된 시계 상의 균등한 그리드는 원래의 확산 시간 (diffusion time)에서 적응형 타임스텝 (adaptive timesteps)을 유도합니다. ART는 주요 차수 오일러 오차 대리물 (leading-order Euler error surrogate)을 기반으로, 샘플링 궤적을 따라 타임스텝을 할당하기 위한 원칙적인 목적 함수를 제공합니다. 이 결정론적 제어 문제 (deterministic control problem)를 해결하기 위해, 우리는 가우시안 정책 (Gaussian policies)을 사용하는 보조적 무작위 공식인 ART-RL을 도입하여 스케줄 학습을 연속 시간 강화학습 (continuous-time reinforcement learning) 문제로 전환합니다. 우리는 무작위 ART-RL 공식이 최적화 단계에서 ART와 동일함을 증명하며, 즉 최적의 가우시안 정책이 그 평균을 통해 최적의 ART 시간 왜곡률 (time-warping rate)을 복구한다는 것을 보여줍니다. 나아가 우리는 정책 평가 (policy evaluation) 및 정책 개선 (policy improvement) 특성을 확립하고, 스케줄 학습을 위한 구현 가능한 액터-크리틱 (actor--critic) 업데이트를 생성하는 궤적 기반 모멘트 항등식 (trajectory-based moment identities)을 도출합니다. 통제된 저차원 설정부터 이미지 생성에 이르는 다양한 실험을 통해, ART-RL은 타임스텝 그리드만 변경함으로써 기존 확산 샘플러에 바로 적용될 수 있으며, 나머지 샘플링 파이프라인을 변경하지 않고도 동일한 예산 내에서 강력한 베이스라인 스케줄보다 일관되게 향상된 샘플 품질을 보여줍니다. 학습된 스케줄은 또한 샘플링 예산, 데이터셋, 솔버 (solvers), 파이프라인 및 표현 공간 (representation spaces) 전반에 걸쳐 재학습 없이 전이되는 광범위한 일반화 성능을 나타냅니다.

Insights

확산 샘플링을 위한 ART: 연속 시간 제어 및 액터-크리틱 학습 (ART for Diffusion Sampling:

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실