arXiv논문2026. 06. 17. 12:40

NoiseTilt: 확산 보상 정렬을 위한 노이즈 기울임 역 커널 (Noise-Tilted Reverse Kernels)

요약

NTRK은 사전 학습된 확산 모델의 역 커널을 수정하지 않고 노이즈 항에 보상 기울기를 주입하는 새로운 샘플링 기법입니다. 기존 방식의 품질 저하와 탐색 효율성 문제를 해결하여, 샘플 품질을 유지하면서도 계산 효율성을 극대화합니다.

핵심 포인트

역 평균을 고정하고 노이즈 항을 보상 방향으로 편향시켜 품질 저하 방지
화이트닝 연산자를 통해 가이드 신호를 보존하며 안전하게 기울기 주입
미적 생성 작업에서 기존 방식 대비 계산량을 최대 20배 절감
최첨단(SOTA) 베이스라인 대비 우수한 보상 정렬 성능 입증

우리는 사전 학습된 역 커널(reverse kernel)을 변경하지 않고 단계당 단 한 번의 샘플링만을 요구하면서, 노이즈 항(noise term)을 통해 보상 기울기(reward gradients)를 주입하는 보상 가이드 확산 샘플러(reward-guided diffusion sampler)인 Noise-Tilted Reverse Kernel (NTRK)을 소개합니다. 추론 시점의 보상 가이드 샘플링(Reward-guided sampling)은 사전 학습된 확산 모델(diffusion models)의 다재다능함을 크게 확장했습니다. 그러나 기존 방법들은 트레이드오프(trade-off) 문제에 직면해 있습니다. 기울기 기반 가이드(Gradient-based guidance)는 역 평균(reverse mean)을 이동시켜 생성을 유도하지만, 중간 상태를 모델이 학습한 영역 밖으로 밀어내어 품질을 저하시킵니다. 탐색 기반 방법(Search-based methods)은 품질은 유지하지만 기울기 신호(gradient signal)를 얻지 못합니다. 기존의 어떤 방법도 이 두 가지를 동시에 달성하지 못했습니다. NTRK는 역 평균을 고정하고 노이즈 항을 높은 보상 쪽으로 편향(biasing)시킴으로써 이 문제를 해결합니다. 우리는 NTRK의 핵심 메커니즘인 화이트닝 연산자(whitening operator)를 도입하여, 가이드 신호를 잃지 않으면서도 보상 기울기를 노이즈로서 안전하게 주입할 수 있도록 합니다. 다양한 보상 정렬(reward alignment) 작업에서 NTRK는 샘플 품질을 저하시키지 않으면서 최근의 최첨단(state-of-the-art) 베이스라인들을 능가합니다. 특히 미적 생성(aesthetic generation) 작업에서 NTRK는 단 25 NFEs를 사용하여 500 NFEs를 사용한 최상의 베이스라인 보상을 능가하며, 이는 계산량을 20배 감소시킨 결과입니다.

AI 자동 생성 콘텐츠

원문 바로가기

NoiseTilt: 확산 보상 정렬을 위한 노이즈 기울임 역 커널 (Noise-Tilted Reverse Kernels)

요약

핵심 포인트

댓글