X요약2026. 06. 07. 20:01

ByteDance가 SwanSphere를 출시했습니다

요약

ByteDance가 파노라마 비디오와 텍스트를 기반으로 고충실도 공간 오디오를 생성하는 스트리밍 프레임워크 SwanSphere를 출시했습니다. 인과적 자기회귀 확산 트랜스포머를 활용하여 실시간으로 몰입형 오디오를 생성하는 것이 특징입니다.

ByteDance가 SwanSphere를 출시했습니다.

파노라마 비디오(panoramic video)와 텍스트로부터 고충실도 공간 오디오(high-fidelity spatial audio)를 생성하기 위한 스트리밍 프레임워크(streaming framework)입니다.

이 프레임워크는 인과적 자기회귀 확산 트랜스포머(causal autoregressive diffusion transformer)를 사용하여 정밀한 공간 정보를 포착하는 동시에 실시간으로 몰입형 오디오를 생성합니다.

SwanSphere는 비디오-공간 오디오(video-to-spatial audio) 및 텍스트-공간 오디오(text-to-spatial audio) 생성 분야에서 이전 연구들보다 뛰어난 성능을 보여줍니다.

AI 자동 생성 콘텐츠