본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 16:15

Persian MusicGen: 페르시아 음악을 위한 대규모 데이터셋 및 문화 인지적 생성 모델

요약

본 연구는 페르시아 음악의 독특한 음조와 선법 체계(Dastgah)를 포착하기 위해 900시간 이상의 고품질 오디오 샘플로 구성된 최초의 대규모 페르시아 노래 데이터셋을 구축했습니다. 이 데이터를 활용하여 최첨단 생성 모델인 MusicGen을 미세 조정(fine-tuning)하였으며, 그 결과 미세 조정된 모델이 페르시아 스타일 관습에 더 부합하는 음악을 성공적으로 생성함을 입증했습니다.

핵심 포인트

  • 페르시아 음악의 특성상 서구 기반 모델 학습에는 어려움이 있어, 전용 데이터셋 구축이 필요함.
  • 900시간 이상의 고품질 페르시아 노래 데이터셋을 큐레이션하여 문화적 다양성을 포착함.
  • MusicGen과 같은 생성 모델을 이 도메인에 맞게 미세 조정(fine-tuning)하는 방법을 제시함.
  • 미세 조정된 모델이 페르시아 스타일 관습에 맞는 작곡을 생성하며, 의미론적 정렬 능력을 보여줌.

페르시아 음악은 독특한 음조(tonalities), 선법 체계(modal systems, Dastgah), 그리고 리듬 구조를 가지고 있어, 주로 서구 음악을 기반으로 학습된 음악 생성 모델(music generation models)에게 상당한 도전 과제를 제시합니다. 우리는 팝, 전통, 현대 스타일을 포함한 다양한 하위 장르에 걸쳐 900시간 이상의 고품질 오디오 샘플로 구성된 최초의 대규모 페르시아 노래 데이터셋을 큐레이션함으로써 이러한 격차를 해결합니다. 이 데이터셋은 페르시아 음악의 풍부한 멜로디 및 문화적 다양성을 포착하며, 최첨단 생성 음악 모델인 MusicGen을 미세 조정(fine-tuning)하기 위한 토대로 사용됩니다. 우리는 MusicGen을 이 도메인에 맞게 조정하고, 주관적 및 객관적 지표를 활용하여 성능을 평가합니다. 생성된 음악과 의도된 스타일 태그 사이의 의미론적 정렬(semantic alignment)을 평가하기 위해, 생성된 결과물에 관련 태그가 정확하게 반영된 비율을 보고합니다. 우리의 결과는 미세 조정된 모델이 페르시아 스타일 관습에 더 부합하는 작곡을 생성한다는 것을 보여줍니다. 본 연구는 생성 음악 연구를 위한 새로운 리소스를 소개하며, 음악 생성 모델이 과소 대표된(underrepresented) 문화적 및 언어적 맥락에 얼마나 적응할 수 있는지를 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0