Dev.to헤드라인2026. 06. 18. 14:11

두 번의 디퓨전 단계로 31 FPS 달성

요약

Lip Forcing 연구는 디노이징 단계를 단 2회로 줄여 실시간 립싱크(31 FPS)를 구현하는 기술을 제안합니다. 기존의 무거운 양방향 디퓨전 모델 대신 컨디셔닝 파이프라인을 재구성한 스튜던트 모델을 사용하여 속도와 동기화 성능을 동시에 개선했습니다.

핵심 포인트

단 2번의 디노이징 단계로 31 FPS 실시간 립싱크 달성
기존 양방향 모델 대비 약 17.6배 빠른 추론 속도 제공
CFG(Classifier-Free Guidance)를 폐기한 2단계 추론 스케줄 적용
Sync-Window DMD 및 SyncNet 기반 보상을 통한 정렬 유지
실시간 대화형 아바타 및 라이브 스트리밍 활용 가능성 제시

두 번의 디노이징 (denoising) 단계만으로도 디퓨전 (diffusion) 기반의 립싱크 (lip sync)를 실시간 수준으로 끌어올릴 수 있으며, 이는 수십 번의 반복 작업이 필수적이라는 오랜 믿음을 뒤집는 결과입니다. Lip Forcing는 모델 크기를 키우는 대신 컨디셔닝 파이프라인 (conditioning pipeline)을 재구성함으로써 이를 가능하게 합니다.

이 연구 이전에는 립싱크를 위한 디퓨전 비디오가 50회 이상의 양방향 디노이징 (bidirectional denoising) 단계와 전체 시퀀스 어텐션 (full-sequence attention)에 의존했기 때문에, 추론 지연 시간 (inference latency)이 몇 초 단위로 발생하여 대화형 사용이 불가능했습니다. 전체 시퀀스 양방향 어텐션을 사용하는 14B 티처 모델 (teacher model)과 같은 기존 시스템들은 실시간 스트리밍을 위해 설계되지 않았으며, 제안된 스튜던트 (student) 모델들보다 현저히 느리게 작동합니다.

1.3B 스튜던트 모델은 31 FPS로 실시간 스트리밍 영역에 진입하며, 이는 동일한 규모의 양방향 모델보다 17.6배 더 빠릅니다. “1.3B 스튜던트 모델은 31 FPS로 실시간 스트리밍 영역에 진입하며, 이는 동일한 규모의 양방향 모델보다 17.6배 더 빠릅니다.” [1] 저자들이 언급했듯이, 이러한 속도 향상은 약간의 충실도-동기화 (fidelity-sync) 트레이드오프 (trade-off)를 동반하지만, 2단계 스튜던트 모델은 동기화와 속도를 개선하면서도 참조 충실도 (reference fidelity)를 유사하게 유지합니다.

속도 향상은 테스트 시점에 분류기 없는 가이드 (classifier-free guidance, CFG)를 폐기하는 2단계 추론 스케줄 (inference schedule)에서 직접적으로 비롯됩니다. “추론 시, 스튜던트 모델은 추론 시점의 CFG 없이 단 두 번의 디노이징 단계만으로 각 청크 (chunk)를 생성하여 실시간 립싱크를 가능하게 합니다.” [1] 이 스케줄은 급격한 단계 감소에도 불구하고 오디오-비주얼 정렬 (audio-visual alignment)을 긴밀하게 유지하는 Sync-Window DMD 및 SyncNet 기반 보상 (reward)과 결합됩니다.

그 결과는 자기회귀적 (autoregressive) 입술 동기화 청크로 제한되며, 먼저 증류 (distillation)되어야 하는 거대 교사 모델 (teacher model)에 의존합니다. 이는 훈련 비용이 많이 들 수 있는 파이프라인이며, 말하는 얼굴 (speaking faces)에서만 검증되었습니다. 또한, 논문 자체에서도 더 다양한 비디오 도메인에서 나타날 수 있는 충실도-동기화 트레이드오프 (fidelity-sync tradeoff)를 언급하며, 두 단계 레시피가 더 높은 질감 복잡성 (texture complexity)이나 더 긴 시간적 범위 (temporal horizons)를 가진 작업에는 조정이 필요할 수 있음을 시사합니다.

만약 디퓨전 (diffusion)을 입술 동기화를 위해 두 번의 패스로 축소할 수 있다면, 여전히 50단계 실행 시간을 보고하는 모든 V2V 벤치마크는 Lip-Forcing 스타일의 학생 모델 (student)을 통해 재검토되어야 합니다. 실시간 대화형 아바타, 라이브 스트리밍 필터, 온디바이스 음성 기반 애니메이션은 시각적 품질을 유지하면서 무거운 양방향 백본 (bidirectional backbones)을 가벼운 2단계 학생 모델로 대체할 수 있습니다.

다음 세대의 비디오 디퓨전 모델은 단계 수를 1개로 줄여, 진정한 즉각적 생성을 기본값으로 만들게 될까요?

References

Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

AI 자동 생성 콘텐츠

원문 바로가기

두 번의 디퓨전 단계로 31 FPS 달성

요약

핵심 포인트

References

댓글