
MMAE: 대규모 멀티태스크 오디오 편집 벤치마크 (Massive Multitask Audio Editing Benchmark)
요약
지시어 기반 오디오 편집 성능을 측정하기 위한 최초의 포괄적인 벤치마크인 MMAE를 소개합니다. 7가지 모달리티와 다양한 복잡도 레벨을 포함하며, 현재 주요 모델들이 복잡한 작업에서 낮은 정확도를 보임을 입증했습니다.
핵심 포인트
- 지시어 기반 오디오 편집을 위한 최초의 대규모 테스트베드
- 7가지 모달리티와 6단계 복잡도 레벨 제공
- 2,000개 샘플 및 17,741개 루브릭 구성
- 기존 주요 모델들의 복잡한 오디오 편집 성능 한계 확인
MMAE: 대규모 멀티태스크 오디오 편집 벤치마크 (Massive Multitask Audio Editing Benchmark)
지시어 기반 (instruction-based) 오디오 편집을 위한 최초의 포괄적인 테스트베드입니다.
7가지 모달리티 (modalities). 6가지 복잡도 레벨 (complexity levels). 2,000개의 샘플. 17,741개의 루브릭 (rubrics).
주요 모델들이 복잡한 작업에서 0%의 정확한 일치 (exact match)를 기록했습니다.
Hugging Face에서 전체 벤치마크를 확인해 보세요.
데이터셋 (Dataset):
https://huggingface.co/datasets/BoJack/MMAE
논문 (Paper):
https://huggingface.co/papers/2606.07229
코드 (Code):
https://github.com/ddlBoJack/MMAE
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기