HuggingFace 링크: meituan-longcat/LongCat-Video-Avatar-1.5 · Hugging Face

LongCat-Video-Avatar 1.5는 오디오 기반 인간 비디오 생성 (audio-driven human video generation)을 위해 극단적인 경험적 최적화와 프로덕션 준비성 (production-readiness)을 우선시하는 업그레이드된 오픈 소스 프레임워크입니다. LongCat-Video 파운데이션 모델 (foundation model)을 기반으로 구축된 v1.5는 Audio-Text-to-Video (AT2V), Audio-Text-Image-to-Video (ATI2V), 그리고 비디오 연속성 (Video Continuation)을 포함한 네이티브 작업을 지원하며, 단일 스트림 및 멀티 스트림 오디오 입력 모두와 원활하게 호환되는 매우 안정적인 상용 수준의 아바타 비디오 합성 기능을 제공합니다.

Key Features 주요 기능

🌟 업그레이드된 오디오 인코더 (Whisper-Large): Wav2Vec2를 Whisper-Large로 교체하여 훨씬 더 부드럽고 자연스러운 입술 움직임 (lip dynamics)을 구현합니다.
🌟 프로덕션 준비 완료된 안정성: 정확한 입술 동기화 (lip-synchronization), 전신 시간적 안정성 (full-body temporal stability), 그리고 엄격한 정체성 일관성 (identity consistency)을 갖춘 강력한 긴 비디오 생성을 달성합니다.
🌟 스타일화된 도메인 일반화 (Stylized Domain Generalization): 애니메이션, 동물, 그리고 다인간 상호작용 및 물체 취급과 같은 복잡한 실제 환경 조건에 대해 강력한 일반화 성능을 보여줍니다.
🌟 효율적인 8단계 추론 (Efficient 8-Step Inference): 고급 DMD2 기반의 단계 증류 (step distillation) 기술을 통해 추론을 8 NFE(Number of Function Evaluations)로 가속화하여, 비용 효율적인 서비스 제공과 탁월한 시각적 충실도 (visual fidelity) 사이의 균형을 맞춥니다.

Insights

LongCat-Video-Avatar 1.5 출시

요약

핵심 포인트

Key Features 주요 기능

댓글

MCP를 활용한 코드 실행: '코드 모드(Code Mode)'가 에이전트 토큰 비용을 90% 이상 절감하는 방법

SenseNova-Vision: SenseTime이 공식 오픈소스로 공개한 이해 및 생성 통합 비전 거대 모델

베테랑 전략가가 반도체 주식에 보내는 강력한 경고

Blackstone, 강력한 자금 유입으로 AUM 증가하며 2분기 실적 예상치 상회

MCP를 활용한 코드 실행: '코드 모드(Code Mode)'가 에이전트 토큰 비용을 90% 이상 절감하는 방법

SenseNova-Vision: SenseTime이 공식 오픈소스로 공개한 이해 및 생성 통합 비전 거대 모델

베테랑 전략가가 반도체 주식에 보내는 강력한 경고

Blackstone, 강력한 자금 유입으로 AUM 증가하며 2분기 실적 예상치 상회