사진 한 장과 오디오로 입 모양이 동기화된 3D 아바타 비디오를 실시간 생성, 단일 GPU로 25fps 구동 가능
요약
AVTR-1은 사진 한 장과 오디오를 입력받아 입 모양이 동기화된 3D 아바타 비디오를 실시간으로 생성하는 모델입니다. 단일 GPU 환경에서도 25fps의 속도로 1인 및 2인 대화 시뮬레이션이 가능합니다.
핵심 포인트
- 사진 한 장과 오디오로 실시간 3D 아바타 생성
- 단일 GPU에서 25fps의 실시간 구동 성능 확보
- 1인 및 2인 대화 모드와 입 모양 동기화 지원
- HuggingFace를 통한 모델 가중치 공개
사진 한 장과 오디오를 사용하여 입 모양이 동기화된 3D 아바타 비디오를 실시간으로 생성하며, 단일 카드(Single GPU)로 25프레임을 구동할 수 있습니다.
https://
gitub.com/avaturn-live/a
vtr-1
...
AVTR-1은 avaturn-live에서 공개한 실시간 대화 아바타 모델입니다. 초상화 사진 한 장과 두 개의 오디오 경로를 입력하면, 프레임별로 입 모양 동기화(Lip-sync)와 경청하는 표정을 생성하여 25fps 비디오를 출력합니다.
1인 및 2인 대화를 지원합니다. A100에서는 5프레임 지연 시간이 91ms, RTX 4060 Ti에서는 166ms로 실시간 사용에 충분합니다. 가중치(Weights)는 HuggingFace에서 다운로드할 수 있으며, 추론(Inference)에는 InsightFace의 얼굴 탐지(Face Detection) 및 키포인트(Keypoint) 모델을 사용합니다.
Claude Code의 Go 성능 최적화 기술 팩은 여러 클래식한 성능 리소스를 직접 호출 가능한 지식 베이스로 컴파일합니다.
https://
gitub.com/smallnest/chao
-go-perf
...
A Claude Code 기술은 Dave Cheney 및 dgryski의 go-perfbook과 같은 권위 있는 리소스를 기반으로 합니다. 이는 다음을 다룹니다
AI 자동 생성 콘텐츠
본 콘텐츠는 X @qingq77 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기