Diffusion Teacher를 이용한 기댓값의 분산 감소
요약
사전 학습된 확산 모델을 활용하는 다운스트림 파이프라인에서 발생하는 높은 계산 비용과 그래디언트 분산 문제를 해결하기 위한 CARV 프레임워크를 제안합니다. CARV는 계층적 몬테카를로 추정량을 통해 비용이 많이 드는 상위 작업을 저렴한 노이즈 재샘플링으로 분할 상환하여 계산 효율을 높입니다.
핵심 포인트
- CARV 프레임워크를 통한 계층적 MC 추정량 유도
- 타임스텝 중요도 샘플링 및 층화 역 누적 분포 함수 활용
- text-to-3D 작업에서 2~3배의 유효 계산 배율 제공
- 단일 단계 증류 시 그래디언트 분산을 한 자릿수 감소
사전 학습된 확산 모델 (Pretrained diffusion models)은 text-to-3D, 단일 단계 증류 (single-step distillation), 데이터 속성 (data attribution)과 같은 다운스트림 파이프라인에 피딩(feeding)되는 고정된 교사 (frozen teachers) 역할을 합니다. 이러한 파이프라인이 소비하는 교사 그래디언트 (teacher gradients)는 노이즈 레벨과 가우시안 노이즈 샘플에 대한 몬테카를로 (Monte Carlo, MC) 기댓값입니다. 각 샘플링마다 비용이 많이 드는 상위 작업 (렌더링, 시뮬레이션, 인코딩)이 필요하기 때문에, 이 추정량의 분산 (estimator variance)이 계산 비용을 지배합니다. 우리는 계층적 MC 추정량을 유도하는 계산 인지 분산 회계 프레임워크 (compute-aware variance-accounting framework)인 CARV를 소개합니다. CARV는 비용이 많이 드는 상위 계산을 저렴한 확산 노이즈 재샘플링 (diffusion-noise resamples)에 대해 분할 상환 (amortize)하며, 이는 타임스텝 중요도 샘플링 (timestep importance sampling)과 층화 역 누적 분포 함수 (stratified-inverse-CDF) 구축을 통해 정교화됩니다. 우리의 text-to-3D 증류 및 속성 실험에서, CARV는 목적 함수를 변경하지 않고도 2~3배의 유효 계산 배율 (effective compute multipliers)을 제공합니다 (대부분은 분할 상환된 재사용에서 발생하며, 약 25%는 IS + 층화(stratification)에서 발생함). 단일 단계 증류 (single-step distillation)에서는 동일한 기술이 그래디언트 분산을 한 자릿수(order of magnitude)만큼 줄였으나 다운스트림 FID를 개선하지는 못했는데, 이는 MC 분산이 더 이상 병목 현상이 아닌 영역임을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기