arXiv논문2026. 06. 30. 12:54

LeVo 2: 계층적 표현 모델링과 점진적 사후 학습을 통한 안정적이고 선율적인 노래 생성

요약

LeVo 2는 계층적 모델링과 점진적 사후 학습을 통해 일관성 있고 선율적인 전체 길이 노래를 생성하는 하이브리드 LLM-Diffusion 프레임워크입니다. 의미론적 계획과 트랙별 정교화를 결합하여 보컬과 반주의 조화를 유지하며 높은 음악성을 구현합니다.

핵심 포인트

계층적 모델링을 통한 의미론적 계획 및 트랙별 정교화 구현
미학 가이드 학습 일정을 통한 음악성 사전 정보 제공
SFT 및 DPO를 활용한 점진적 사후 학습으로 품질 개선
상용 시스템에 근접하는 수준의 생성 품질 및 제어 가능성 입증

전체 길이의 노래 생성은 일관성과 음악성을 유지해야 하며, 상세한 보컬 및 반주 음향을 구현하고, 가사와 프롬프트를 따라야 합니다. 기존의 언어 모델 (Language Model) 기반 시스템은 구조적 트레이드오프 (trade-off)에 직면해 있습니다. 혼합 토큰 (mixed-token) 모델링은 보컬-악기 간의 조화를 보존하지만 트랙별 세부 사항을 모호하게 만드는 반면, 이중 트랙 예측 (dual-track prediction)은 음향을 개선하지만 더 긴 시퀀스를 요구하며 전역적 계획 (global planning)을 약화시킵니다. 우리는 제어 가능한 전체 길이 노래 생성을 위한 하이브리드 LLM-Diffusion 프레임워크인 LeVo 2를 제시합니다. LeVo 2는 이 트레이드오프를 계층적 모델링 (hierarchical modeling)으로 공식화합니다. LeLM은 먼저 의미론적 계획 (semantic planning)을 위해 혼합 토큰을 예측한 다음, 트랙별 정교화를 위해 보컬과 반주 토큰을 병렬로 예측하며, 확산 기반 (diffusion-based) Music Codec이 전체 길이의 파형 (waveform)을 재구성합니다. 이 확장 버전의 핵심 기여는 정렬을 위한 미학 가이드 학습 일정 (aesthetics-guided training schedule)입니다. 사전 학습 (pre-training) 동안, 자동화된 음악 미학 평가 프레임워크가 대규모 데이터에 음악성 계층 조건 (musicality-tier conditions)을 할당하여, 선호도 정렬 (preference alignment) 이전에 음악성 사전 정보 (musicality priors)를 제공합니다. 점진적 사후 학습 (Progressive post-training)은 SFT, 대규모 오프라인 DPO, 그리고 폐쇄 루프 반-온라인 DPO (closed-loop semi-online DPO)를 적용하여 생성 품질, 제어 가능성, 그리고 음악성을 각각 개선합니다. 모듈형 확장 (Modular extension)을 통해 정렬된 의미론적 플래너 (semantic planner)를 보존하면서 음향 정교화를 위한 트랙별 LM (Track-Specific LM)을 학습합니다. 이 일정은 음악성 학습, 제어 가능성 정렬, 그리고 음향 정교화를 분리하여 최적화 충돌과 정적인 오프라인 선호도 쌍의 한계를 완화합니다. 전문가 청취 테스트와 객관적 평가 결과, LeVo 2는 6가지 주관적 차원에서 오픈 소스 베이스라인을 능가하며, 여러 청취 지표에서 선도적인 상용 시스템에 근접함을 보여줍니다. 절제 연구 (Ablations)를 통해 학습 전략, 미학 가이드, 스케일링 (scaling), 그리고 계층적 구조의 효과를 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LeVo 2: 계층적 표현 모델링과 점진적 사후 학습을 통한 안정적이고 선율적인 노래 생성

요약

핵심 포인트

댓글