X요약2026. 05. 28. 23:11

사진 한 장과 오디오로 입 모양이 동기화된 3D 아바타 비디오를 실시간 생성, 단일 GPU로 25fps 구동 가능

요약

AVTR-1은 사진 한 장과 오디오를 입력받아 입 모양이 동기화된 3D 아바타 비디오를 실시간으로 생성하는 모델입니다. 단일 GPU 환경에서도 25fps의 속도로 1인 및 2인 대화 시뮬레이션이 가능합니다.

핵심 포인트

사진 한 장과 오디오로 실시간 3D 아바타 생성
단일 GPU에서 25fps의 실시간 구동 성능 확보
1인 및 2인 대화 모드와 입 모양 동기화 지원
HuggingFace를 통한 모델 가중치 공개

사진 한 장과 오디오를 사용하여 입 모양이 동기화된 3D 아바타 비디오를 실시간으로 생성하며, 단일 카드(Single GPU)로 25프레임을 구동할 수 있습니다.
https://
gitub.com/avaturn-live/a
vtr-1
...
AVTR-1은 avaturn-live에서 공개한 실시간 대화 아바타 모델입니다. 초상화 사진 한 장과 두 개의 오디오 경로를 입력하면, 프레임별로 입 모양 동기화(Lip-sync)와 경청하는 표정을 생성하여 25fps 비디오를 출력합니다.

1인 및 2인 대화를 지원합니다. A100에서는 5프레임 지연 시간이 91ms, RTX 4060 Ti에서는 166ms로 실시간 사용에 충분합니다. 가중치(Weights)는 HuggingFace에서 다운로드할 수 있으며, 추론(Inference)에는 InsightFace의 얼굴 탐지(Face Detection) 및 키포인트(Keypoint) 모델을 사용합니다.

Claude Code의 Go 성능 최적화 기술 팩은 여러 클래식한 성능 리소스를 직접 호출 가능한 지식 베이스로 컴파일합니다.
https://
gitub.com/smallnest/chao
-go-perf
...
A Claude Code 기술은 Dave Cheney 및 dgryski의 go-perfbook과 같은 권위 있는 리소스를 기반으로 합니다. 이는 다음을 다룹니다

AI 자동 생성 콘텐츠

원문 바로가기

사진 한 장과 오디오로 입 모양이 동기화된 3D 아바타 비디오를 실시간 생성, 단일 GPU로 25fps 구동 가능

요약

핵심 포인트

댓글