Persian MusicGen: 페르시아 음악을 위한 대규모 데이터셋 및 문화 인지적 생성 모델

페르시아 음악은 독특한 음조(tonalities), 선법 체계(modal systems, Dastgah), 그리고 리듬 구조를 가지고 있어, 주로 서구 음악을 기반으로 학습된 음악 생성 모델(music generation models)에게 상당한 도전 과제를 제시합니다. 우리는 팝, 전통, 현대 스타일을 포함한 다양한 하위 장르에 걸쳐 900시간 이상의 고품질 오디오 샘플로 구성된 최초의 대규모 페르시아 노래 데이터셋을 큐레이션함으로써 이러한 격차를 해결합니다. 이 데이터셋은 페르시아 음악의 풍부한 멜로디 및 문화적 다양성을 포착하며, 최첨단 생성 음악 모델인 MusicGen을 미세 조정(fine-tuning)하기 위한 토대로 사용됩니다. 우리는 MusicGen을 이 도메인에 맞게 조정하고, 주관적 및 객관적 지표를 활용하여 성능을 평가합니다. 생성된 음악과 의도된 스타일 태그 사이의 의미론적 정렬(semantic alignment)을 평가하기 위해, 생성된 결과물에 관련 태그가 정확하게 반영된 비율을 보고합니다. 우리의 결과는 미세 조정된 모델이 페르시아 스타일 관습에 더 부합하는 작곡을 생성한다는 것을 보여줍니다. 본 연구는 생성 음악 연구를 위한 새로운 리소스를 소개하며, 음악 생성 모델이 과소 대표된(underrepresented) 문화적 및 언어적 맥락에 얼마나 적응할 수 있는지를 보여줍니다.

Insights

Persian MusicGen: 페르시아 음악을 위한 대규모 데이터셋 및 문화 인지적 생성 모델

요약

핵심 포인트

댓글

내 친구가 안드로이드 폰 자체에서 실행되는 멀티 에이전트 Claude Code 오케스트레이터를 만들었습니다

원유 및 채권 수익률 상승에 따라 주가지수 하락

Sihl, 라벨 컨버터를 위한 수성 잉크젯 코팅 PE 필름 출시

아프리카, 글로벌 맥주 생산량 감소 추세 거스르다

내 친구가 안드로이드 폰 자체에서 실행되는 멀티 에이전트 Claude Code 오케스트레이터를 만들었습니다

원유 및 채권 수익률 상승에 따라 주가지수 하락

Sihl, 라벨 컨버터를 위한 수성 잉크젯 코팅 PE 필름 출시

아프리카, 글로벌 맥주 생산량 감소 추세 거스르다