arXiv논문2026. 06. 08. 10:33

MMAE: 대규모 멀티태스크 오디오 편집 벤치마크

요약

범용 지시 기반 오디오 편집을 평가하기 위한 최초의 포괄적 벤치마크인 MMAE를 소개합니다. 소리, 음성, 음악 등 7가지 양상과 6단계 복잡도를 포함하는 체계적인 분류를 통해 기존 평가 인프라의 한계를 극복하고자 합니다.

핵심 포인트

7가지 오디오 양상과 6단계 작업 복잡도를 포함하는 종합 분류 체계 구축
2,000개의 고충실도 샘플과 17,741개의 검증 가능한 루브릭 기반 평가 프레임워크 제공
현재 모델들의 정확 일치율(EMR)이 5% 미만으로 매우 낮음을 입증
복잡한 혼합 양상 작업에서 모델의 성능 병목 현상 확인

우리는 범용 지시 기반 (instruction-based) 오디오 편집을 위해 설계된 최초의 포괄적인 평가 테스트베드인 MMAE, 즉 대규모 멀티태스크 오디오 편집 (Massive Multitask Audio Editing) 벤치마크를 소개합니다. 지능형 창작 (intelligent creation)으로의 전환에 힘입어, 이미지 분야의 Nano-banana 2나 비디오 분야의 Gemini-Omni와 같은 모델들이 선구적으로 이끈 상호작용형 편집 (interactive editing)은 시각적 영역에서 오디오 영역으로 빠르게 확장되었습니다. 그러나 현재의 평가 인프라는 매우 뒤처져 있으며, 고도로 파편화되어 있거나 특정 하위 도메인 또는 기본적인 작업에 국한되어 있습니다. 범위가 제한적인 기존 벤치마크와 달리, MMAE는 소리 (sound), 음성 (speech), 음악 (music) 및 이들의 혼합물을 포함한 7가지의 뚜렷한 오디오 양상 (audio modalities)을 아우르며 광범위한 실제 시나리오로 확장됩니다. 나아가, 우리는 기본적인 수정부터 다단계 추론 (multi-hop reasoning) 및 다회차 편집 (multi-round editing)에 이르는 6단계의 작업 복잡도 (task complexity), 2단계의 세분성 (granularity), 그리고 8가지의 뚜렷한 작업 유형 (operation types)을 포괄하는 종합적인 분류 체계 (taxonomy)를 구축했습니다. 인간-에이전트 협업 (human-agent collaboration)을 통해 세심하게 큐레이션된 MMAE는 2,000개의 고충실도 (high-fidelity) 샘플과 선구적인 루브릭 기반 (rubric-based) 평가 프레임워크로 구성됩니다. 자유 형식의 작업을 17,741개의 검증 가능한 기준으로 분해함으로써, 이 강력한 루브릭 기반 패러다임은 지시 이행 (instruction following)과 문맥 일관성 (context consistency) 모두에 대해 정밀하고 다차원적인 평가를 가능하게 합니다. 주요 모델들에 대한 광범위한 평가 결과, 현재의 시스템들은 신뢰할 수 있는 편집을 달성하기에는 아직 갈 길이 멀다는 것이 드러났습니다. 놀랍게도, 정확 일치율 (Exact Match Rate, EMR)은 지속적으로 5% 미만을 기록했으며, 복잡한 혼합 양상 (mixed-modality) 작업에서는 절대적인 0%로 급락하여, 정밀한 실행과 구조적 견고성 (structural robustness) 측면에서의 치명적인 병목 현상을 노출했습니다. 우리는 MMAE가 지능형 창작 커뮤니티의 미래 발전을 위한 촉매제 역할을 하여, 명확한 진단 로드맵을 제공하고 차세대 오디오 편집 시스템을 위한 표준화되고 지속 가능한 평가 패러다임을 구축하기를 희망합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MMAE: 대규모 멀티태스크 오디오 편집 벤치마크

요약

핵심 포인트

댓글