🚀 모델 소개

오디오 기반 인간 비디오 생성 (audio-driven human video generation)을 위해 극단적인 경험적 최적화와 프로덕션 준비성 (production-readiness)을 우선시하는 업그레이드된 오픈 소스 프레임워크, LongCat-Video-Avatar 1.5의 출시를 발표하게 되어 기쁩니다. LongCat-Video 파운데이션 모델 (foundation model)을 기반으로 구축된 v1.5는 오디오-텍스트-비디오 (Audio-Text-to-Video, AT2V), 오디오-텍스트-이미지-비디오 (Audio-Text-Image-to-Video, ATI2V), 그리고 비디오 연속성 (Video Continuation)을 포함한 네이티브 태스크를 지원하며, 단일 스트림 및 멀티 스트림 오디오 입력 모두와 원활하게 호환되는 매우 안정적인 상용 수준의 아바타 비디오 합성을 제공합니다.

Key Features 주요 특징

🌟 업그레이드된 오디오 인코더 (Whisper-Large): Wav2Vec2를 Whisper-Large로 교체하여 훨씬 더 부드럽고 자연스러운 입술 움직임 (lip dynamics)을 구현합니다.
🌟 프로덕션 준비 완료된 안정성: 정확한 입술 동기화 (lip-synchronization), 전신 시간적 안정성 (full-body temporal stability), 그리고 엄격한 정체성 일관성 (identity consistency)을 갖춘 강력한 긴 비디오 생성을 달성합니다.
🌟 스타일화된 도메인 일반화 (Stylized Domain Generalization): 애니메이션, 동물, 그리고 다인간 상호작용 및 물체 취급과 같은 복잡한 실제 환경 조건으로 강력하게 일반화됩니다.
🌟 효율적인 8단계 추론 (8-Step Inference): 고급 DMD2 기반의 단계 증류 (step distillation) 기술을 통해 추론을 8 NFE로 가속화하여, 비용 효율적인 서빙과 탁월한 시각적 충실도 (visual fidelity) 사이의 균형을 맞춥니다.

📊 인간 평가 (Human Evaluation)

우리는 오디오 기반 디지털 휴먼 생성 (audio-driven digital human generation)에 특화되어 설계된 포괄적인 인간 평가 벤치마크 (human evaluation benchmark)를 소개합니다. 이 벤치마크는 6가지 애플리케이션 시나리오 (뉴스 방송, 지식 교육, 일상 생활, 엔터테인먼트, 노래, 상업 홍보), 2가지 언어 (중국어/영어), 그리고 2가지 시각적 스타일 (실사/애니메이션)을 포함하며, 총 508개의 이미지-오디오 소스 쌍을 생성합니다. 평가 방법론 (Evaluation Methodology):

(1) 주관적 트랙 (Subjective Track): 770명의 크라우드소싱 평가자가 생성된 각 비디오를 1~5점 사이의 인간 유사도 (human-likeness) 척도로 평가하여 총 13,240건의 판단을 도출했습니다.
(2) 객관적 트랙 (Objective Track): 2명의 도메인 전문가가 물리적 합리성 (Physical Rationality), 조화 (Harmony, 오디오-비주얼 협응), 시간적 안정성 (Temporal Stability), 그리고 정체성 일관성 (Identity Consistency)의 네 가지 차원에 대해 구조화된 품질 분석을 수행했습니다.

⚖️ 라이선스 계약 (License Agreement)

**모델 가중치 (model weights)**는 MIT License에 따라 공개됩니다.

Insights

meituan-longcat/LongCat-Video-Avatar-1.5 · Hugging Face

요약

핵심 포인트

🚀 모델 소개

Key Features 주요 특징

📊 인간 평가 (Human Evaluation)

📊 인간 평가 (Human Evaluation)

댓글

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회

WSJ 오피니언: US SEC, 메시지 유실 관련 Coinbase와의 FOIA 소송 합의

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회

WSJ 오피니언: US SEC, 메시지 유실 관련 Coinbase와의 FOIA 소송 합의