본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 11. 14:20

PianoKontext: 무표정한 맥락으로부터 표현적인 연주 렌더링

요약

PianoKontext는 클래식 피아노 음악을 위한 표현적 연주 렌더링(EPR) 모델입니다. 기존 모델의 시간 제약을 극복하고, Music2Latent 모델의 잠재 공간에서 가변 길이의 연주를 생성합니다. DTW 기반 데이터 구성과 DiT 블록을 활용하여 악보와 실제 연주 간의 의존성을 학습했습니다.

핵심 포인트

  • 표현적 연주 렌더링(EPR) 목표 제시
  • Music2Latent 잠재 공간에서 가변 길이 생성 가능
  • DTW를 활용하여 악보-연주 쌍 데이터 구성
  • DiT 블록으로 악보와 연주의 의존성 학습

표현적 연주 렌더링(Expressive Performance Rendering, EPR)은 음표 시퀀스에 제약된 사실적인 연주를 생성하는 것을 목표로 합니다. 하지만 흐름 매칭 오디오 편집 모델들은 동일한 길이의 동기화된 음악 샘플만을 조작하기 때문에 표현적인 타이밍에 대한 이해가 제한적입니다. 우리는 클래식 피아노 음악을 위한 흐름 매칭 렌더링 모델인 PianoKontext를 소개합니다. 이 모델은 사전 학습된 Music2Latent 모델의 잠재 공간(latent space)에서 가변 길이의 연주를 생성합니다. 저희는 MIDI 악보를 무표정한 오디오로 합성하고, 훈련을 위해 잠재 공간에서 동적 시간 왜곡(Dynamic Time Warping, DTW)을 사용하여 쌍을 이루는 데이터를 구성합니다. 정렬된 임베딩들은 DiT 블록에 연결되어 악보와 연주 사이의 의존성을 간단하고 효과적으로 학습할 수 있게 합니다. 오디오 샘플은 저희 데모 페이지에서 이용 가능합니다: https://realfolkcode.github.io/pianokontext_demo/.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0