이종 오디오 분류를 위한 다중 분기 계층 인식 프레임워크

이 기술 보고서는 Broad Sound Taxonomy (BST)에 따라 이종(heterogeneous) 오디오 녹음물을 분류하는 것을 목표로 하는 DCASE 2026 Challenge의 Task 1을 위한 당사의 시스템을 설명합니다. 이 과제는 정확한 2단계(second-level) 예측과 최상위 계층(top-level) 분류 체계와의 일관성을 모두 요구합니다. 당사의 시스템은 CLAP 기반의 오디오-텍스트 표현(audio-text representations)을 기반으로 구축되었으며, 세 가지 전략을 통해 개선되었습니다: BSD35k의 필터링된 하위 집합을 통한 학습 데이터셋 확장, 특징별 분기(feature-specific branches)를 통한 음향 모델링(acoustic modeling) 강화, 그리고 계층 인식 분류기(hierarchy-aware classifiers) 및 KNN 기반 후처리(post-processing)를 사용한 예측 정교화입니다. 고려된 음향 특징 중에서는 log-STFT 분기가 가장 강력한 단일 모델 성능을 제공합니다. KNN 기반 후처리를 적용했을 때, 당사의 최적 단일 시스템은 베이스라인과 동일한 평가 프로토콜 하에서 BSD10k-v1.2 세트에 대해 80.84%의 계층적 F1 점수(Hier. F1)를 달성했습니다. 나아가 당사는 상호 보완적인 음향 특징과 분류 헤드(classification heads)를 가진 모델들을 결합하여 앙상블 시스템을 구축하였으며, 각각 81.25%와 81.18%의 Hier. F1 점수를 달성했습니다.

Insights

이종 오디오 분류를 위한 다중 분기 계층 인식 프레임워크

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실