본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 23. 17:01

meituan-longcat/LongCat-Video-Avatar-1.5 · Hugging Face

요약

LongCat-Video-Avatar 1.5는 오디오 기반의 고품질 인간 비디오 생성을 위한 오픈 소스 프레임워크입니다. Whisper-Large 인코더와 DMD2 기반 증류 기술을 통해 자연스러운 입술 움직임과 빠른 추론 속도를 제공하며, 다양한 도메인에 대한 일반화 성능을 갖추었습니다.

핵심 포인트

  • Whisper-Large 도입으로 더욱 자연스러운 입술 동기화 구현
  • DMD2 기반 8단계 추론으로 비용 효율적인 서빙 가능
  • 실사부터 애니메이션까지 폭넓은 스타일 일반화 지원
  • 6개 시나리오를 포함한 포괄적인 인간 평가 벤치마크 도입

🚀 모델 소개

오디오 기반 인간 비디오 생성 (audio-driven human video generation)을 위해 극단적인 경험적 최적화와 프로덕션 준비성 (production-readiness)을 우선시하는 업그레이드된 오픈 소스 프레임워크, LongCat-Video-Avatar 1.5의 출시를 발표하게 되어 기쁩니다. LongCat-Video 파운데이션 모델 (foundation model)을 기반으로 구축된 v1.5는 오디오-텍스트-비디오 (Audio-Text-to-Video, AT2V), 오디오-텍스트-이미지-비디오 (Audio-Text-Image-to-Video, ATI2V), 그리고 비디오 연속성 (Video Continuation)을 포함한 네이티브 태스크를 지원하며, 단일 스트림 및 멀티 스트림 오디오 입력 모두와 원활하게 호환되는 매우 안정적인 상용 수준의 아바타 비디오 합성을 제공합니다.

Key Features 주요 특징

  • 🌟 업그레이드된 오디오 인코더 (Whisper-Large): Wav2Vec2를 Whisper-Large로 교체하여 훨씬 더 부드럽고 자연스러운 입술 움직임 (lip dynamics)을 구현합니다.
  • 🌟 프로덕션 준비 완료된 안정성: 정확한 입술 동기화 (lip-synchronization), 전신 시간적 안정성 (full-body temporal stability), 그리고 엄격한 정체성 일관성 (identity consistency)을 갖춘 강력한 긴 비디오 생성을 달성합니다.
  • 🌟 스타일화된 도메인 일반화 (Stylized Domain Generalization): 애니메이션, 동물, 그리고 다인간 상호작용 및 물체 취급과 같은 복잡한 실제 환경 조건으로 강력하게 일반화됩니다.
  • 🌟 효율적인 8단계 추론 (8-Step Inference): 고급 DMD2 기반의 단계 증류 (step distillation) 기술을 통해 추론을 8 NFE로 가속화하여, 비용 효율적인 서빙과 탁월한 시각적 충실도 (visual fidelity) 사이의 균형을 맞춥니다.

📊 인간 평가 (Human Evaluation)

📊 인간 평가 (Human Evaluation)

우리는 오디오 기반 디지털 휴먼 생성 (audio-driven digital human generation)에 특화되어 설계된 포괄적인 인간 평가 벤치마크 (human evaluation benchmark)를 소개합니다. 이 벤치마크는 6가지 애플리케이션 시나리오 (뉴스 방송, 지식 교육, 일상 생활, 엔터테인먼트, 노래, 상업 홍보), 2가지 언어 (중국어/영어), 그리고 2가지 시각적 스타일 (실사/애니메이션)을 포함하며, 총 508개의 이미지-오디오 소스 쌍을 생성합니다. 평가 방법론 (Evaluation Methodology):

(1) 주관적 트랙 (Subjective Track): 770명의 크라우드소싱 평가자가 생성된 각 비디오를 1~5점 사이의 인간 유사도 (human-likeness) 척도로 평가하여 총 13,240건의 판단을 도출했습니다.
(2) 객관적 트랙 (Objective Track): 2명의 도메인 전문가가 물리적 합리성 (Physical Rationality), 조화 (Harmony, 오디오-비주얼 협응), 시간적 안정성 (Temporal Stability), 그리고 정체성 일관성 (Identity Consistency)의 네 가지 차원에 대해 구조화된 품질 분석을 수행했습니다.

⚖️ 라이선스 계약 (License Agreement)

**모델 가중치 (model weights)**는 MIT License에 따라 공개됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0