arXiv논문2026. 05. 06. 12:51

Towards Open World Sound Event Detection

요약

본 논문은 제한적인 데이터셋과 알려진 사건만을 가정하는 기존의 음향 사건 탐지(SED) 시스템의 한계를 극복하기 위해 오픈 월드 사운드 이벤트 탐지(OW-SED) 패러다임을 제안합니다. OW-SED는 새로운/미지의 음향 사건을 식별하고 점진적으로 학습할 수 있도록 설계되었으며, 이를 위해 1D Deformable 구조를 활용하여 시간적 특징에 적응적으로 집중하는 모델을 개발했습니다. 최종 프레임워크인 WOOT은 피처 분리(feature disentanglement)와 다양성 손실(diversity loss) 등의 기법을 통합하여 오픈 월드 환경에서의 탐지 성능을 크게 향상시켰습니다.

핵심 포인트

기존 SED 시스템의 한계: 폐쇄 세계 가정으로 인해 실제 다양한 음향 사건에 대한 적용성이 제한적임.
OW-SED 패러다임 도입: 알려진 사건 감지를 넘어, 미지의/새로운 음향 사건을 식별하고 점진적으로 학습하는 것이 목표임.
핵심 구조 제안 (1D Deformable): 중첩 및 모호한 사건 처리를 위해 시간 영역의 중요 지점에 적응적으로 집중할 수 있는 1D Deformable 구조를 사용함.
WOOT 프레임워크: 클래스 특이적/무관 표현 분리(feature disentanglement)와 다양성 손실을 결합하여 오픈 월드 환경에서의 표현력을 극대화함.

Sound Event Detection (SED) 는 감지, 스마트 시티, 헬스케어, 멀티미디어 인덱싱 등 다양한 분야에서 중요한 역할을 합니다. 그러나 기존의 SED 시스템은 폐쇄 세계 가정 (closed-world assumption) 을 기반으로 작동하여, 새로운 음향 사건이 자주 발생하는 실제 환경에서 그 효과성을 제한합니다. 컴퓨터 비전에서의 오픈 월드 학습의 성공을 영감받아, 우리는 모델이 알려진 사건을 감지하고, 보이지 않는 사건의 식별과 점진적 학습을 수행해야 하는 Open-World Sound Event Detection (OW-SED) 패러다임을 소개합니다. OW-SED 의 고유한 과제인 중첩 및 모호한 사건들을 해결하기 위해, 우리는 deformable attention 을 활용하여 중요한 시간 영역에 적응적으로 집중할 수 있도록 1D Deformable 구조를 제안합니다. 또한, 클래스 특이적 (class-specific) 과 클래스 무관 (class-agnostic) 표현을 분리하는 feature disentanglement 를 포함하고, one-to-many matching 전략과 다양성 손실 (diversity loss) 을 도입하여 표현의 다양성을 향상시키는 Open-World Deformable Sound Event Detection Transformer (WOOT) 프레임워크를 설계합니다. 실험 결과는 기존 폐쇄 세계 설정에서 최상위 기법 대비 약간 우수한 성능을 달성하고, 오픈 월드 시나리오에서는 기존 베이스라인에 비해 현저히 개선된 성능을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Towards Open World Sound Event Detection

요약

핵심 포인트

댓글