SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적
요약
SelectTSL은 멀티모달 프롬프트를 활용하여 복잡한 음향 환경에서 특정 타겟 음원의 위치를 선택적으로 추적하는 새로운 엔드투엔드 아키텍처를 제안합니다. PGSA 모듈을 통해 프롬프트 정보를 임베딩하여 위상 단서를 정제하고, 타겟의 방향과 개수를 동시에 추정합니다.
핵심 포인트
- 프롬프트 유도 선택적 어텐션(PGSA)을 통한 타겟 인식 전략 설계
- 채널 간 위상차(IPD) 강화기를 통한 정밀한 공간 정보 정제
- 도래 방향(DoA)과 타겟 음원 개수를 공동으로 추정하는 결합 설계
- 합성 및 실제 데이터 실험을 통해 강력한 일반화 성능 입증
인간은 복잡한 시나리오에서 타겟 음원에 선택적으로 주의를 기울이고 그 방향을 추정할 수 있는 반면, 현재의 딥러닝 (deep learning) 기반 시스템에서 이러한 선택적 위치 추적 (selective localization)은 여전히 어려운 과제로 남아 있습니다. 음원 위치 추적 (Sound source localization, SSL)은 딥러닝을 통해 놀라운 성공을 거두었으나, 대부분의 방법은 선택성 없이 활성화된 모든 음원을 위치 추적합니다. 반대로, 타겟 음원 추출 (target sound extraction, TSE)은 멀티모달 프롬프트 (multimodal prompts)를 사용하여 음원을 추출하지만, 정확한 위치 추적에 필요한 다채널 공간 정보 (multichannel spatial information)를 보존하는 데 일반적으로 실패합니다. 이러한 격차를 해소하기 위해, 우리는 프롬프트 유도 선택적 타겟 음원 위치 추적 (prompt-guided selective target sound localization) 작업을 공식화하고, 다중 음원 음향 장면 (multi-source acoustic scenes)에서 사용자가 지정한 타겟만을 위치 추적하는 엔드투엔드 (end-to-end) 아키텍처인 SelectTSL을 제안합니다. 구체적으로, 우리는 프롬프트 유도 선택적 어텐션 모듈 (Prompt-Guided Selective Attention Module, PGSA)을 사용하여 프롬프트 정보가 포함된 임베딩 (embeddings)을 생성하는 타겟 인식 선택적 위치 추적 전략을 설계합니다. 이러한 임베딩은 채널 간 위상차 (inter-channel phase difference, IPD) 강화기를 안내하여 원시 위상 단서 (raw phase cues)를 정제하며, 타겟 크기 (target magnitudes)와 융합하여 도래 방향 (direction of arrival, DoA) 및 타겟 음원 수 (target-source cardinality), 즉 타겟 음원의 개수를 공동으로 추정합니다. 이러한 결합된 설계는 선택적 위치 추적을 위해 사용자가 지정한 타겟의 공간 단서에 효과적으로 집중할 뿐만 아니라, 시간에 따라 변하는 타겟 음원의 수도 처리합니다. 합성 데이터 (synthetic data)와 실제 녹음 데이터 모두에 대한 광범위한 실험을 통해, 우리가 제안한 방법이 다른 베이스라인 (baselines) 모델들을 일관되게 능가하며 실제 음향 환경에 대해 강력한 일반화 (generalization) 성능을 보임을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기