arXiv논문2026. 06. 19. 10:50

Rectified Flow를 통한 지시어 기반 오디오 편집을 위한 하이브리드 확산 트랜스포머 (Hybrid Diffusion

요약

Rectified Flow를 기반으로 지시어에 따라 오디오를 편집하는 하이브리드 2단계 확산 트랜스포머 아키텍처를 제안합니다. 저해상도 단계의 결합 주의 집중과 고해상도 단계의 교차 주의 집중을 교차 활용하여 효율성과 정밀도를 동시에 높였습니다.

핵심 포인트

Rectified Flow 기반의 하이브리드 2단계 확산 트랜스포머 제안
Coarse-to-fine 전략을 통한 전역 모델링 및 세부 편집 정밀도 향상
결합 주의 집중의 이차 복잡도 문제를 해결하여 편집 효율성 개선
복잡한 지시어 및 중첩된 오디오 이벤트에 대한 우수한 성능 입증

오디오 편집 (Audio editing)은 나머지 음향 콘텐츠를 보존하면서 자연어 지시어에 따라 기존 오디오 클립의 특정 콘텐츠를 수정하는 것을 목표로 합니다. 확산 모델 (diffusion models)의 놀라운 발전에도 불구하고, 기존의 학습 기반 편집 방법들은 주로 컨볼루션 U-Net 백본 (convolutional U-Net backbones)의 국소적 귀납 편향 (local inductive biases)과 교차 주의 집중 (cross-attention) 상호작용에 의존하며, 이는 종종 장거리 의미론적 정렬 (long-range semantic alignment)과 지시어의 정밀한 이해 및 국소화 (localization)를 방해합니다. 이와 대조적으로, 확산 트랜스포머 (diffusion transformers)는 더 강력한 전역 모델링 (global modeling)과 멀티모달 융합 (multimodal fusion)을 제공하지만, 기존의 편집 아키텍처들은 대개 MMDiT와 DiT 블록을 단순히 쌓아 올리는 방식을 채택합니다. 모든 블록에서 연결된 오디오 및 텍스트 토큰에 대해 결합 주의 집중 (joint attention)을 적용하면 토큰 길이에 대해 이차 복잡도 (quadratic complexity)가 발생합니다. 편집 성능과 효율성의 균형을 맞추기 위해, 우리는 rectified flow matching을 기반으로 지시어 기반 오디오 편집을 위한 하이브리드 2단계 확산 트랜스포머 아키텍처를 제안합니다. 이 모델은 저해상도 단계 (low-resolution stage)에서 오디오 및 텍스트 토큰에 대해 결합 주의 집중을 수행하여 거친 의미론적 정렬 (coarse semantic alignment)을 구축한 다음, 고해상도 단계 (high-resolution stage)에서는 교차 주의 집중 (cross-attention)과 결합 주의 집중 블록을 교대로 전환하여 편집 세부 사항을 정밀하게 다듬습니다. 이러한 coarse-to-fine 전략은 효율적이고 정확한 지시어 기반 오디오 편집을 가능하게 합니다. 실험 결과, 제안된 프레임워크는 중첩된 오디오 이벤트와 복잡한 지시어가 포함된 까다로운 편집 작업에서 주목할 만한 성능 향상을 달성하는 동시에, 컴팩트한 모델로 편집 효율성을 실질적으로 개선함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Rectified Flow를 통한 지시어 기반 오디오 편집을 위한 하이브리드 확산 트랜스포머 (Hybrid Diffusion

요약

핵심 포인트

댓글