LongCat-Video-Avatar 1.5 출시
요약
Meituan에서 출시한 LongCat-Video-Avatar 1.5는 오디오 기반 인간 비디오 생성을 위한 오픈 소스 프레임워크입니다. Whisper-Large 인코더와 DMD2 기반 증류 기술을 통해 자연스러운 입술 움직임과 빠른 추론 속도를 제공합니다.
핵심 포인트
- Whisper-Large 도입으로 자연스러운 입술 움직임 구현
- AT2V, ATI2V 및 비디오 연속성 작업 지원
- DMD2 기반 8단계 추론으로 비용 효율성 및 속도 향상
- 애니메이션 및 동물 등 다양한 도메인에 대한 일반화 성능
HuggingFace 링크: meituan-longcat/LongCat-Video-Avatar-1.5 · Hugging Face
LongCat-Video-Avatar 1.5는 오디오 기반 인간 비디오 생성 (audio-driven human video generation)을 위해 극단적인 경험적 최적화와 프로덕션 준비성 (production-readiness)을 우선시하는 업그레이드된 오픈 소스 프레임워크입니다. LongCat-Video 파운데이션 모델 (foundation model)을 기반으로 구축된 v1.5는 Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V), 그리고 비디오 연속성 (Video Continuation)을 포함한 네이티브 작업을 지원하며, 단일 스트림 및 멀티 스트림 오디오 입력 모두와 원활하게 호환되는 매우 안정적인 상용 수준의 아바타 비디오 합성 기능을 제공합니다.
Key Features 주요 기능
- 🌟 업그레이드된 오디오 인코더 (Whisper-Large): Wav2Vec2를 Whisper-Large로 교체하여 훨씬 더 부드럽고 자연스러운 입술 움직임 (lip dynamics)을 구현합니다.
- 🌟 프로덕션 준비 완료된 안정성: 정확한 입술 동기화 (lip-synchronization), 전신 시간적 안정성 (full-body temporal stability), 그리고 엄격한 정체성 일관성 (identity consistency)을 갖춘 강력한 긴 비디오 생성을 달성합니다.
- 🌟 스타일화된 도메인 일반화 (Stylized Domain Generalization): 애니메이션, 동물, 그리고 다인간 상호작용 및 물체 취급과 같은 복잡한 실제 환경 조건에 대해 강력한 일반화 성능을 보여줍니다.
- 🌟 효율적인 8단계 추론 (Efficient 8-Step Inference): 고급 DMD2 기반의 단계 증류 (step distillation) 기술을 통해 추론을 8 NFE(Number of Function Evaluations)로 가속화하여, 비용 효율적인 서비스 제공과 탁월한 시각적 충실도 (visual fidelity) 사이의 균형을 맞춥니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기