Stream-R1: Reward-guided distillation for streaming video generation
요약
Stream-R1은 보상 유도 증류(Reward-guided distillation) 기법을 사용하여 스트리밍 비디오 생성의 품질과 효율성을 높인 연구입니다. 이 모델은 각 픽셀에 균등한 가중치를 부여하는 대신, 프레임 간 상호 신뢰도와 공간-시간적 내부 퍼플렉시티를 활용하여 단일 보상 모델로 가중치를 재분배합니다. 그 결과, 기존의 Wan2.1 교사 모델을 초과하는 성능으로 23.1 FPS 이상의 고속 스트리밍 비디오 생성이 가능함을 보여줍니다.
핵심 포인트
- 스트리밍 비디오 생성에 보상 유도 증류(Reward-guided distillation) 기법 적용
- 픽셀 단위가 아닌, 상호 신뢰도 및 공간-시간 퍼플렉시티를 기반으로 가중치 재분배
- 단일 보상 모델을 사용하여 효율적인 비디오 생성 품질 향상 달성
- 기존 최고 성능 모델(Wan2.1) 대비 우수한 속도와 품질 (23.1 FPS 이상) 입증
Stream-R1: 보상 유도蒸馏을 통한 스트리밍 비디오 생성
각 픽셀을 동등하게 취급하는 대신, 롤아웃 (rollouts) 간의 상호 신뢰도 (Inter-Reliability) 와 공간 - 시간 (space-time) 간의 내부 퍼플렉시티 (Intra-Perplexity) 를 사용하여 단일 보상 모델 (single reward model) 로 가중치를 재배분합니다. Wan2.1 교사 (teacher) 를 23.1 FPS 로 초과하며, 제로 (zero) [이미지: https://pbs.twimg.com/media/HHtG_vIXUAEj9wV?format=jpg&name=small]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기