arXiv논문2026. 06. 16. 13:13

아티팩트를 넘어: 음악 고유 특징을 통한 일반화 가능한 합성곡 탐지(Synthetic Song Detection)를 향하여

요약

음악 생성 기술의 발전에 대응하여, 특정 생성기에 의존하지 않고 음악 고유의 특징을 활용해 합성곡을 탐지하는 Sofia 프레임워크를 제안합니다. MoE 모듈을 통해 보컬, 오디오 효과, 전역 구조를 모델링하며, 새로운 벤치마크인 MUSIC8K를 통해 성능을 입증했습니다.

핵심 포인트

음악 고유 속성을 활용한 생성기 불가지론적(generator-agnostic) 탐지 프레임워크 Sofia 제안
특징별 전문가 및 MoE 모듈을 통해 보컬, 오디오 효과, 전역 구조를 효과적으로 모델링
새로운 도전적 벤치마크인 MUSIC8K 구축 및 현실적인 오디오 섭동 대응력 확인
기존 베이스라인 대비 F1 점수를 18.5포인트 향상시키며 강력한 강건성 증명

AI 음악 생성기의 급격한 발전은 신뢰할 수 있는 합성곡 탐지(Synthetic Song Detection, SSD)의 시급한 필요성을 강조합니다. 기존의 SSD 방법들은 종종 저수준의 아티팩트(artifacts)나 고정된 특징 가정에 의존하여, 생성기 불가지론적(generator-agnostic) 단서를 포착하는 데 어려움을 겪습니다. 이를 해결하기 위해, 우리는 특징별 전문가(feature-specific experts)와 적응형 전문가 혼합(Mixture-of-Experts, MoE) 모듈을 통해 음악 고유의 속성을 모델링하는 유연한 프레임워크인 Sofia(Synthetic-song detection framework via music features)를 제안합니다. 대표적인 보컬(Vocal), 오디오 효과(Audio-effect), 전역 구조(Global structure) 특징 및 이들의 조합으로 Sofia를 구성함으로써, 각 특징의 개별적 및 상호 보완적 기여도를 제시합니다. 우리 프레임워크를 종합적으로 평가하기 위해, 최신 신흥 생성기들과 현실적인 오디오 섭동(audio perturbations)을 특징으로 하는 도전적인 벤치마크인 MUSIC8K를 추가로 구축했습니다. 실험 결과, Sofia는 음악 고유의 특징으로부터 생성기 불가지론적 표현(generator-agnostic representations)을 학습하며, MUSIC8K-O에서 가장 강력한 베이스라인 대비 F1 점수를 18.5포인트 향상시키는 동시에 강력한 강건성(robustness)을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

아티팩트를 넘어: 음악 고유 특징을 통한 일반화 가능한 합성곡 탐지(Synthetic Song Detection)를 향하여

요약

핵심 포인트

댓글