본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 12:40

NoiseTilt: 확산 보상 정렬을 위한 노이즈 기울임 역 커널 (Noise-Tilted Reverse Kernels)

요약

NTRK은 사전 학습된 확산 모델의 역 커널을 수정하지 않고 노이즈 항에 보상 기울기를 주입하는 새로운 샘플링 기법입니다. 기존 방식의 품질 저하와 탐색 효율성 문제를 해결하여, 샘플 품질을 유지하면서도 계산 효율성을 극대화합니다.

핵심 포인트

  • 역 평균을 고정하고 노이즈 항을 보상 방향으로 편향시켜 품질 저하 방지
  • 화이트닝 연산자를 통해 가이드 신호를 보존하며 안전하게 기울기 주입
  • 미적 생성 작업에서 기존 방식 대비 계산량을 최대 20배 절감
  • 최첨단(SOTA) 베이스라인 대비 우수한 보상 정렬 성능 입증

우리는 사전 학습된 역 커널(reverse kernel)을 변경하지 않고 단계당 단 한 번의 샘플링만을 요구하면서, 노이즈 항(noise term)을 통해 보상 기울기(reward gradients)를 주입하는 보상 가이드 확산 샘플러(reward-guided diffusion sampler)인 Noise-Tilted Reverse Kernel (NTRK)을 소개합니다. 추론 시점의 보상 가이드 샘플링(Reward-guided sampling)은 사전 학습된 확산 모델(diffusion models)의 다재다능함을 크게 확장했습니다. 그러나 기존 방법들은 트레이드오프(trade-off) 문제에 직면해 있습니다. 기울기 기반 가이드(Gradient-based guidance)는 역 평균(reverse mean)을 이동시켜 생성을 유도하지만, 중간 상태를 모델이 학습한 영역 밖으로 밀어내어 품질을 저하시킵니다. 탐색 기반 방법(Search-based methods)은 품질은 유지하지만 기울기 신호(gradient signal)를 얻지 못합니다. 기존의 어떤 방법도 이 두 가지를 동시에 달성하지 못했습니다. NTRK는 역 평균을 고정하고 노이즈 항을 높은 보상 쪽으로 편향(biasing)시킴으로써 이 문제를 해결합니다. 우리는 NTRK의 핵심 메커니즘인 화이트닝 연산자(whitening operator)를 도입하여, 가이드 신호를 잃지 않으면서도 보상 기울기를 노이즈로서 안전하게 주입할 수 있도록 합니다. 다양한 보상 정렬(reward alignment) 작업에서 NTRK는 샘플 품질을 저하시키지 않으면서 최근의 최첨단(state-of-the-art) 베이스라인들을 능가합니다. 특히 미적 생성(aesthetic generation) 작업에서 NTRK는 단 25 NFEs를 사용하여 500 NFEs를 사용한 최상의 베이스라인 보상을 능가하며, 이는 계산량을 20배 감소시킨 결과입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0