이종 오디오 분류를 위한 다중 분기 계층 인식 프레임워크
요약
DCASE 2026 Challenge를 위해 제안된 이종 오디오 분류 프레임워크를 설명합니다. CLAP 기반의 오디오-텍스트 표현을 활용하며, 데이터 확장, 특징별 분기, 계층 인식 분류기를 통해 성능을 최적화했습니다.
핵심 포인트
- CLAP 기반 오디오-텍스트 표현 활용
- 특징별 분기(feature-specific branches)를 통한 음향 모델링 강화
- 계층 인식 분류기 및 KNN 기반 후처리 적용
- 앙상블 시스템을 통해 최대 81.25%의 계층적 F1 점수 달성
이 기술 보고서는 Broad Sound Taxonomy (BST)에 따라 이종(heterogeneous) 오디오 녹음물을 분류하는 것을 목표로 하는 DCASE 2026 Challenge의 Task 1을 위한 당사의 시스템을 설명합니다. 이 과제는 정확한 2단계(second-level) 예측과 최상위 계층(top-level) 분류 체계와의 일관성을 모두 요구합니다. 당사의 시스템은 CLAP 기반의 오디오-텍스트 표현(audio-text representations)을 기반으로 구축되었으며, 세 가지 전략을 통해 개선되었습니다: BSD35k의 필터링된 하위 집합을 통한 학습 데이터셋 확장, 특징별 분기(feature-specific branches)를 통한 음향 모델링(acoustic modeling) 강화, 그리고 계층 인식 분류기(hierarchy-aware classifiers) 및 KNN 기반 후처리(post-processing)를 사용한 예측 정교화입니다. 고려된 음향 특징 중에서는 log-STFT 분기가 가장 강력한 단일 모델 성능을 제공합니다. KNN 기반 후처리를 적용했을 때, 당사의 최적 단일 시스템은 베이스라인과 동일한 평가 프로토콜 하에서 BSD10k-v1.2 세트에 대해 80.84%의 계층적 F1 점수(Hier. F1)를 달성했습니다. 나아가 당사는 상호 보완적인 음향 특징과 분류 헤드(classification heads)를 가진 모델들을 결합하여 앙상블 시스템을 구축하였으며, 각각 81.25%와 81.18%의 Hier. F1 점수를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기