arXiv논문2026. 06. 08. 10:55

제한된 데이터의 활용 극대화: 텍스트-음악 생성(Text-to-Music Generation)을 위한 점수 인식 학습(Score-Aware

요약

방대한 데이터와 컴퓨팅 자원 없이도 효율적인 텍스트-음악 생성을 가능하게 하는 '점수 인식 학습(score-aware training)' 방법론을 제안합니다. 오디오-캡션 정렬 점수를 활용해 저품질 데이터를 재활용하고, 2단계 캡션 절차와 REPA 보조 손실을 통해 데이터 효율성을 극대화했습니다.

핵심 포인트

점수 인식 학습을 통한 저품질 데이터의 효과적 재활용
CLAP 조건부 노이즈 스케줄링을 통한 암시적 규제화 구현
2단계 캡션 절차로 학습과 추론 간의 분포 차이 해소
REPA 보조 손실을 통한 구조화된 의미론적 지식 전이
ICME 2026 챌린지 Efficiency Track 상위권 입상

최첨단 텍스트-음악 생성 (text-to-music generation) 시스템은 방대한 양의 독점 데이터셋과 산업 규모의 컴퓨팅 자원에 의존하며, 이로 인해 아키텍처의 기여도와 자원적 이점을 분리하여 파악하는 것이 불가능합니다. 본 논문에서는 오디오-캡션 정렬 점수 (audio-caption alignment score)를 파이프라인 전반에 걸쳐 직접적인 지도 신호 (supervision signal)로 취급하는 extit{점수 인식 학습 (score-aware training)}을 제안합니다. 점수가 낮은 세그먼트 (segments)를 버리는 대신, 우리는 이를 CLAP 조건부 Beta 노이즈 타임스텝 스케줄 (CLAP-conditioned Beta noise timestep schedule)을 통해 재활용하여 고노이즈 학습 체제로 유도하며, 이는 효과적인 암시적 규제화 (implicit regularizer) 역할을 합니다. 이와 상호 보완적으로, 세그먼트 수준의 필터링 (segment-level filtering)을 통해 가장 정렬이 잘못된 예시들을 제거하며, 2단계 캡션 절차 (two-stage caption procedure)는 장황한 학습용 캡션과 간결한 추론 프롬프트 (inference prompts) 사이의 분포 차이 (distribution gap)를 메워줍니다. 또한, REPA 보조 손실 (REPA auxiliary loss)을 통해 추가 데이터 없이도 사전 학습된 CLAP 및 MuQ 인코더로부터 구조화된 의미론적 지식 (structured semantic knowledge)을 전이합니다. ICME 2026 ATTM Grand Challenge Efficiency Track에 제출된 우리의 450M 파라미터 FluxAudio 기반 시스템은 객관적 평가의 두 트랙 모두에서 2위를 차지했으며, 최종 MOS 평가의 Efficiency Track에서는 3위를 기록했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

제한된 데이터의 활용 극대화: 텍스트-음악 생성(Text-to-Music Generation)을 위한 점수 인식 학습(Score-Aware

요약

핵심 포인트

댓글