라이브 뮤직 디퓨전 모델 (Live Music Diffusion Models): 인터랙티브 디퓨전 음악 생성기를 위한 효율적인 미세 조정 및
요약
본 연구는 실시간 인터랙티브 음악 생성을 위해 기존 오디오 디퓨전 모델을 효율적으로 재용도화하는 LMDMs를 제안합니다. 블록 단위 KV 캐싱과 ARC-Forcing 패러다임을 통해 계산 효율성을 높이고 오차 누적을 줄여 소비자용 하드웨어에서도 실시간 협업이 가능하게 합니다.
핵심 포인트
- LMDMs 제안: 디퓨전 모델을 활용한 효율적인 실시간 음악 생성
- 블록 단위 KV 캐싱을 통한 추론 복잡도 개선 및 효율성 확보
- ARC-Forcing 패러다임으로 강화학습 없이 안정적인 사후 학습 정렬 구현
- 소비자용 게이밍 노트북에서 로컬 실행 및 실시간 생성 악기 활용 입증
인터랙티브 스트리밍 음악 생성 (Interactive streaming music generation)은 오프라인 모델로는 불가능한 라이브 공연 및 공동 창작을 위한 생성 모델의 활용을 약속합니다. 그러나 최첨단 (SOTA) 모델들은 이산적 자기회귀 (discrete-AR) 영역에 존재하며, 훈련과 추론 모두에 산업적 수준의 컴퓨팅 자원을 요구합니다. 본 연구에서는 오픈 소스 커뮤니티에서 폭넓게 지원되지만 스트리밍이 불가능한 양방향 특성을 가진 오디오 디퓨전 모델 (audio diffusion models)이 소비자용 하드웨어에서 접근 가능한 인터랙티브 모델로 효율적으로 재용도화될 수 있는지 조사합니다. 블록 단위 아웃페인팅 디퓨전 (block-wise outpainting diffusion)을 위한 현대적 파이프라인을 비판적으로 검토함으로써, 우리는 이산적 자기회귀 (discrete-AR) 모델보다 계산 효율성이 현저히 떨어지게 만드는 추론 과정에서의 결정적인 비효율성을 식별했습니다. 우리는 블록 단위 KV 캐싱 (block-wise KV Caching)을 통해 이산적 라이브 뮤직 모델 (discrete Live Music Models, LMMs)의 추론 복잡도를 회복하고 이를 능가하는 생성 디퓨전 프로세스의 단순한 수정 방식인 라이브 뮤직 디퓨전 모델 (Live Music Diffusion Models, LMDMs)을 제안합니다. LMMs와 달리, LMDMs는 우리의 새로운 ARC-Forcing 패러다임을 통해 안정적인 사후 학습 정렬 (post-training alignment)을 추가로 가능하게 하여, 명시적인 강화학습 (RL)이나 보상 모델 (reward models) 없이도 오차 누적을 줄입니다. 우리는 텍스트 조건부 생성 (text-conditioned generation), 스케치 기반 음악 합성 (sketch-based music synthesis), 재밍 (jamming)을 포함한 여러 창의적 영역에서 LMDMs의 적용을 입증합니다. 마지막으로, 우리는 LMDMs를 소비자용 게이밍 노트북에서 로컬로 실행하면서, 음악가의 즉흥 연주를 다양한 음색 효과를 위해 실시간으로 변형하는 "생성적 지연 (generative delay)"로 활용함으로써 실제 아티스트-AI 협업에서 생성 악기로 어떻게 사용될 수 있는지 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기