arXiv논문2026. 06. 15. 11:21

동적 음원(Dynamic Sound Sources)을 위한 시공간 오디오 언어 모델링

요약

음향 이벤트의 의미론적 정체성과 시공간적 궤적을 동시에 파악하기 위한 새로운 오디오 언어 모델링 연구를 소개합니다. ST-AudioQA 데이터셋과 ST-AudioLM 모델을 통해 소리의 정체성, 위치, 움직임을 통합적으로 추론하는 성능을 입증했습니다.

핵심 포인트

시공간 오디오 QA를 위한 ST-AudioQA 벤치마크 제안
음원 궤적과 이벤트 의미론을 동시에 학습하는 ST-Audio Encoder 개발
오디오 토큰을 LLM에 연결하여 시공간 추론을 수행하는 ST-AudioLM 제안
기존 모델 대비 의미론적 정보와 위치 추적 간의 트레이드오프 개선

음향 이벤트(Sound events)는 의미론적 정체성(semantic identities), 위치, 그리고 궤적(trajectories)을 가진 엔티티이지만, 현재의 오디오-언어 모델(audio-language models)은 대개 클립을 전역적인 이벤트 콘텐츠(global event content)로 추론합니다. 반대로, 음향 이벤트 위치 추적 모델(sound event localization models)은 시간에 따른 음원의 방향을 추적하지만, 언어 추론을 위한 의미론적 범위(semantic coverage)는 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 정적 및 이동 음원의 1차 앰비소닉(first-order ambisonic, FOA) 렌더링을 기반으로 구축된 시공간 오디오 QA 데이터셋이자 벤치마크인 ST-AudioQA를 소개합니다. 각 장면은 음원의 정체성, 활동, 방향, 거리 및 움직임 메타데이터를 제공하여, 조밀한 궤적 지도 학습(dense trajectory supervision)과 무엇이 소리를 내는지, 어디에 있는지, 어떻게 움직이는지, 그리고 음원들이 서로 어떻게 연관되는지에 대한 질문을 가능하게 합니다. 나아가 우리는 이벤트 의미론(event semantics)을 음원 궤적과 함께 학습하는 시간 분해능 FOA 오디오 인코더인 ST-Audio Encoder와, 인코더의 오디오 토큰(audio tokens)을 LLM에 연결하여 시공간 오디오 QA를 수행하는 ST-AudioLM을 제안합니다. 실험 결과, 이러한 표현 방식은 의미론적-위치 추적 트레이드오프(semantic-localization tradeoff)를 개선하며, 정적 공간 및 위치 추적 중심의 베이스라인(baselines)보다 더 강력한 추론 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

동적 음원(Dynamic Sound Sources)을 위한 시공간 오디오 언어 모델링

요약

핵심 포인트

댓글