SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적

인간은 복잡한 시나리오에서 타겟 음원에 선택적으로 주의를 기울이고 그 방향을 추정할 수 있는 반면, 현재의 딥러닝 (deep learning) 기반 시스템에서 이러한 선택적 위치 추적 (selective localization)은 여전히 어려운 과제로 남아 있습니다. 음원 위치 추적 (Sound source localization, SSL)은 딥러닝을 통해 놀라운 성공을 거두었으나, 대부분의 방법은 선택성 없이 활성화된 모든 음원을 위치 추적합니다. 반대로, 타겟 음원 추출 (target sound extraction, TSE)은 멀티모달 프롬프트 (multimodal prompts)를 사용하여 음원을 추출하지만, 정확한 위치 추적에 필요한 다채널 공간 정보 (multichannel spatial information)를 보존하는 데 일반적으로 실패합니다. 이러한 격차를 해소하기 위해, 우리는 프롬프트 유도 선택적 타겟 음원 위치 추적 (prompt-guided selective target sound localization) 작업을 공식화하고, 다중 음원 음향 장면 (multi-source acoustic scenes)에서 사용자가 지정한 타겟만을 위치 추적하는 엔드투엔드 (end-to-end) 아키텍처인 SelectTSL을 제안합니다. 구체적으로, 우리는 프롬프트 유도 선택적 어텐션 모듈 (Prompt-Guided Selective Attention Module, PGSA)을 사용하여 프롬프트 정보가 포함된 임베딩 (embeddings)을 생성하는 타겟 인식 선택적 위치 추적 전략을 설계합니다. 이러한 임베딩은 채널 간 위상차 (inter-channel phase difference, IPD) 강화기를 안내하여 원시 위상 단서 (raw phase cues)를 정제하며, 타겟 크기 (target magnitudes)와 융합하여 도래 방향 (direction of arrival, DoA) 및 타겟 음원 수 (target-source cardinality), 즉 타겟 음원의 개수를 공동으로 추정합니다. 이러한 결합된 설계는 선택적 위치 추적을 위해 사용자가 지정한 타겟의 공간 단서에 효과적으로 집중할 뿐만 아니라, 시간에 따라 변하는 타겟 음원의 수도 처리합니다. 합성 데이터 (synthetic data)와 실제 녹음 데이터 모두에 대한 광범위한 실험을 통해, 우리가 제안한 방법이 다른 베이스라인 (baselines) 모델들을 일관되게 능가하며 실제 음향 환경에 대해 강력한 일반화 (generalization) 성능을 보임을 입증하였습니다.

Insights

SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적

요약

핵심 포인트

댓글

Palantir CEO Alex Karp: 기업들은 비즈니스 가치를 "훔치는" AI 모델에 대해 "격분"하고 있다

Susquehanna, 반도체 장비 지출 전망 상향에 따라 Teradyne 목표가를 시장 최고치인 $550로 상향

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표

Susquehanna, 반도체 장비 지출 전망 상향에 따라 Teradyne 목표가를 시장 최고치인 $550로 상향

5분 만에 SSH 키 인증 (SSH Key Authentication) 설정하는 방법

Robinhood, 유럽 내 무기한 선물 서비스 확대 및 영국 내 암호화폐 출시 계획 발표