본문으로 건너뛰기

© 2026 Molayo

r/StableDiffusion분석2026. 05. 12. 13:11

LipDub (Beta): 새로운 오픈 소스 립싱크 IC-LoRA

요약

LipDub은 LTX를 기반으로 구축된 새로운 오픈 소스 립싱크 기능의 베타 버전입니다. 이 도구는 기존 비디오에 새 음성을 재생성하고 입 움직임을 단일 패스로 대체하며, 화자의 외모와 목소리 정체성은 유지합니다. 사용자는 이를 통해 다른 언어로 더빙하거나 원본 대화를 재구성하는 등 다양한 창작 작업을 수행할 수 있습니다.

핵심 포인트

  • 기존 비디오를 가져와 음성을 재생성하고 입 움직임을 단일 패스로 대체하는 IC-LoRA 어댑터입니다.
  • 화자의 외모, 목소리 정체성 등 입 영역을 제외한 모든 요소는 원본 그대로 보존됩니다.
  • 주요 기능으로는 다른 언어로 더빙(Dubbing) 및 원본 대화 재구성/대체가 가능합니다.
  • 1080p Full HD 출력과 최대 8초 클립까지 지원하며, 영어, 프랑스어 등 여러 언어를 지원합니다.

오늘 저희는 LTX를 기반으로 구축된 새로운 오픈 소스 립싱크 기능인 LipDub의 베타 버전을 공개합니다.

LipDub은 기존 비디오를 가져와 음성을 재생성하고 입 움직임을 함께 단일 패스로 대체하는 IC-LoRA 어댑터입니다. 원본 비디오와 새 대화가 담긴 텍스트 프롬프트를 제공하면, 화자의 외모, 목소리 정체성(vocal identity), 톤, 전달 방식 등 입 영역을 제외한 모든 것을 보존합니다.

이 베타 버전에는 다음 기능이 포함됩니다:

  • 1080p Full HD 출력
  • 최대 8초 클립
  • 단일 화자 지원
  • 검증된 언어: 영어(English), 프랑스어(French), 스페인어(Spanish), 독일어(German), 러시아어(Russian).

이 기능을 활용하여 할 수 있는 것:

  • 다른 언어로 더빙하기 (Dub into another language)
  • 원본 언어의 대화 재구성 또는 대체하기 (Rephrase or replace dialogue in the original language)
  • 토킹 헤드 생성 워크플로우(Talking-head generation workflows)

링크:

이것은 초기 오픈 소스 베타 릴리스입니다. API가 출시되기 전에 커뮤니티에 제공합니다. 자유롭게 탐색하고, 오류를 찾아내고(break it), 이를 활용하여 구축해 보시고(build with it), 발견한 점을 알려주세요.

LipDub은 Lightricks와 Tel Aviv University 연구원들이 발표한 논문 Video Dubbing via Joint Audio-Visual Diffusion에 기반하고 있으며, 이 논문에서는 왜 공동 오디오-비주얼 생성(joint audio-visual generation)이 모듈식 파이프라인보다 우수한지에 대해 다루고 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0