arXiv논문2026. 06. 08. 10:32

DirectAudioEdit: Diffusion Prediction Contrast를 통한 인버전 프리(Inversion-Free) 텍스트

요약

DirectAudioEdit은 인버전 과정 없이 텍스트 가이드로 오디오를 편집하는 새로운 연구 방법론을 제안합니다. Diffusion Prediction Contrast를 활용하여 계산 오버헤드와 재구성 오류를 줄이고 편집 속도를 대폭 향상시켰습니다.

핵심 포인트

인버전이 필요 없는(Inversion-free) 오디오 편집 방식 최초 제안
Diffusion Prediction Contrast를 통한 편집 경로 구축
DDPM 인버전 대비 FAD 및 KL 지표 약 15% 개선
기존 방식 대비 편집 속도 최대 64.5% 향상

텍스트 가이드 오디오 편집 (Text-guided audio editing)은 편집과 무관한 소스 구성 요소는 보존하면서 언어로 지정된 음향 콘텐츠를 수정하는 것을 목표로 합니다. 기존의 훈련이 필요 없는 (training-free) 방식들은 일반적으로 인버전 기반 (inversion-based) 편집에 의존합니다. 인버전 프리 (inversion-free) 편집은 계산 오버헤드와 재구성 오류 (reconstruction errors)를 줄여주기 때문에 매력적이지만, 오디오 편집 분야에서는 여전히 거의 탐구되지 않은 상태로 남아 있습니다. 핵심 과제는 확산 디노이징 역학 (diffusion denoising dynamics)을 통해 소스에서 타겟으로 이어지는 편집 경로를 구축하는 것입니다. 본 논문에서는 오디오 편집을 위한 훈련이 필요 없고 인버전이 필요 없는 (training-free and inversion-free) 방법을 개발하려는 첫 번째 시도인 DirectAudioEdit을 소개합니다. 두 가지 백본 (backbones)을 사용하여 음악 및 이벤트 수준의 벤치마크에서 수행한 실험 결과, DirectAudioEdit은 DDPM 인버전 (DDPM inversion)과 비교했을 때 거시 평균 FAD (macro-averaged FAD)와 KL을 각각 15.9% 및 15.8% 감소시키는 동시에, 편집 속도를 최대 64.5% 향상시켰음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

DirectAudioEdit: Diffusion Prediction Contrast를 통한 인버전 프리(Inversion-Free) 텍스트

요약

핵심 포인트

댓글