PianoCoRe: Combined and Refined Piano MIDI Dataset
요약
PianoCoRe는 기존의 한계점을 극복한 대규모 통합 및 정제된 피아노 MIDI 데이터셋입니다. 이 데이터셋은 483명의 작곡가가 작성한 5,625곡의 250,046개 연주를 포함하며 총 21,763시간 분량의 방대한 양질의 음악 데이터를 제공합니다. 또한, Note-level 정렬(alignment)을 갖춘 서브셋(PianoCoRe-A)과 데이터 품질 향상을 위한 MIDI 분류기 및 정제 파이프라인도 함께 제공되어, 차세대 표현적 피아노 연주 연구의 기반을 마련했습니다.
핵심 포인트
- 483명의 작곡가와 5,625곡의 곡으로 구성된 대규모 통합 피아노 MIDI 데이터셋(PianoCoRe)을 제시함.
- 총 21,763시간 분량의 방대한 연주 데이터를 포함하며, 다양한 응용 프로그램에 맞춘 계층적 서브셋으로 제공됨 (예: Note-level 정렬의 PianoCoRe-A).
- 데이터 품질 향상을 위한 MIDI 분류기 및 Alignment refinement 파이프라인을 함께 개발하여 데이터 신뢰도를 높임.
- PianoCoRe를 활용한 모델은 기존 소규모/비정제 데이터로 훈련된 모델 대비 미지의 곡(Unseen piece)에 대한 강건성(Robustness)이 개선됨을 입증함.
Score 와 Performance 가 매칭된 Symbolic music dataset 은 많은 Music Information Retrieval (MIR) 작업에 필수적입니다. 그러나 기존 자원들은 작곡가 범위가 좁고, Performance 다양성이 부족하며, Note-level alignment 을 누락하거나 일관되지 않은 Naming format 을 사용하는 경우가 많습니다. 본 연구는 주요 Open-source piano corpus 를 통합하고 정제하는 대규모 Piano MIDI dataset 인 PianoCoRe 를 제시합니다. 이 dataset 은 483 명의 작곡가에 의해 작성된 5,625 곡의 250,046 번의 Performance 를 포함하며, 총 21,763 시간의 연주 음악으로 구성됩니다.
PianoCoRe 는 다양한 응용 프로그램을 지원하기 위해 계층 구조의 subset 으로 출시되었습니다: 대규모 분석 및 Pre-training (PianoCoRe-C 와 중복 제거된 PianoCoRe-B) 에서부터 Note-level score alignment 을 가진 Expressive performance modeling (PianoCoRe-A/A*) 까지. Note-aligned subset 인 PianoCoRe-A 는 현재까지 가장 큰 Open-source collection 로, 1,591 곡에 대한 157,207 번의 Performance 를 제공합니다.
dataset 외에도 기여물은 다음과 같습니다: (1) Corrupted transcription 과 Score-like transcriptions 을 감지하는 MIDI quality classifier 와 (2) RAScoP, Temporal alignment error 를 정화하고 결측 Note 를 Interpolate 하는 Alignment refinement pipeline 입니다. 분석은 정제가 Temporal noise 를 줄이고 Tempo outlier 을 제거함을 보여줍니다. 또한 PianoCoRe 에 훈련된 Expressive performance rendering 모델은 Raw 또는 작은 dataset 에서 훈련된 모델에 비해 Unseen piece 에 대한 Robustness 가 개선됨을 보여줍니다. PianoCoRe 는 다음 세대의 Expressive piano performance 연구에 사용할 준비가 된 Foundation 입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기