Spatial-Omni: FOA 인코딩을 통한 멀티모달 LLM의 공간 오디오 이해 통합
요약
Spatial-Omni는 기존 Omni LLM의 오디오 인코더를 수정하지 않고 FOA 인코딩을 통해 공간 오디오 이해 능력을 통합하는 경량화된 방법론을 제안합니다. 이를 위해 대규모 공간 오디오 데이터셋인 SO-Dataset과 성능 평가를 위한 SO-Bench를 구축하여 모델의 공간 추론 능력을 입증했습니다.
핵심 포인트
- FOA 인코딩을 통한 경량화된 공간 오디오 모달리티 주입
- 기존 오디오 인코더 수정 없이 공간 토큰 제공 가능
- 40만 개의 FOA 클립을 포함한 SO-Dataset 구축
- 16개 하위 작업을 포함한 공간 오디오 벤치마크 SO-Bench 제안
- 기존 LALMs 및 Omni LLM 대비 우수한 공간 추론 성능
최근의 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 주로 오디오를 모노럴 (Monaural) 신호로 처리하며, 이로 인해 음원 위치 추적 (Sound Localization), 공간 관계 추론 (Spatial Relation Reasoning), 공간 장면 이해 (Spatial Scene Understanding)를 위한 공간 오디오 (Spatial Audio) 내의 공간 단서 (Spatial Cues)를 버리게 됩니다. 우리는 기존의 Omni LLM의 오디오 인코더 (Audio Encoder)를 수정하지 않고도, 1차 앰비소닉스 (First-Order Ambisonics, FOA) 공간 오디오를 독립적인 모달리티 (Modality)로서 기존 Omni LLM에 주입하는 경량화된 방법인 Spatial-Omni를 제안합니다. SO-Encoder는 제한된 추가 컨텍스트 비용으로 공간 토큰 (Spatial Tokens)을 제공하며, 효율적인 단계별 학습 (Staged Training)을 통해 공간 오디오 이해를 향상시킵니다. 학습과 평가를 지원하기 위해, 우리는 오픈 소스 데이터, 실제 녹음 및 시뮬레이션을 활용하여 40만 개의 FOA 공간 오디오 클립과 210만 개의 공간 질의응답 (Spatial Question Answering) 쌍을 포함하는 SO-Dataset, SO-QA, SO-Bench를 구축했습니다. SO-Bench는 기본적인 탐지 및 위치 추정 (Location Estimation), 공간 관계 이해, 복잡한 공간 추론을 포함하여 16개의 공간 오디오 이해 하위 작업 (Subtasks)을 다룹니다. 실험 결과, Spatial-Omni는 일반적인 오디오 이해 (General Audio Understanding) 수준을 합리적으로 유지하면서도 공간 오디오 이해 작업에서 기존의 오픈 소스 거대 오디오-언어 모델 (Large Audio-Language Models, LALMs) 및 Omni LLM 모델보다 뛰어난 성능을 보였습니다. 코드와 데이터는 https://github.com/dieKarotte/Spatial-Omni 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기