본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 13:58

TuneJury: 음악 생성 선호도 정렬(Preference Alignment) 개선을 위한 오픈 메트릭

요약

음악 생성 모델의 선호도 정렬을 개선하기 위한 오픈 보상 모델인 TuneJury를 소개합니다. 인간의 미적 평가와 투표 데이터를 기반으로 학습되었으며, 다양한 다운스트림 애플리케이션에서 높은 성능과 데이터 효율성을 보여줍니다.

핵심 포인트

  • 텍스트-음악 선호도 예측을 위한 인스턴스 수준 쌍체 보상 모델
  • 아레나 스타일 투표 및 전문가 미적 평가 등 다양한 레이블 활용
  • 앵커 보정(anchor calibration)을 통한 높은 데이터 효율성 확보
  • Best-of-N 선택 및 잠재 최적화 등 다양한 활용 가능성 입증

우리는 텍스트 프롬프트와 오디오 클립으로부터 음악 선호도 점수를 예측하는 텍스트-음악(text-to-music)을 위한 오픈 인스턴스 수준 쌍체 보상 모델(instance-level pairwise reward model)인 TuneJury를 소개합니다. 공개된 체크포인트는 아레나 스타일(A vs. B) 투표, 메트릭 정렬(metric-alignment) 선호 쌍, 크라우드소싱 쌍체 비교, 그리고 전문가의 미적 평가(aesthetic ratings)를 포함하는 공개된 인간 선호도 레이블을 기반으로 학습되었습니다. 두 클립 사이의 예측된 점수 마진(score margin)은 홀드아웃 테스트 분할(held-out test split)에서 잘 보정(calibrated)되어 있으며, 단순한 점수 임계값(score threshold)을 통한 데이터 필터링을 지원합니다. TuneJury는 홀드아웃 테스트 쌍과 분포 외(out-of-distribution) 벤치마크 모두로 일반화되며, 후자의 경우 이전 베이스라인(baselines)들과 경쟁할 만한 성능을 유지합니다. 학습 이후에 출시된 생성기(generators)를 위해, 우리는 사후(post-hoc) 방식의 시스템별 Bradley-Terry 보정(calibration)인 앵커 보정(anchor calibration)을 도입하여, 처음부터 다시 학습(from-scratch retraining)하는 것보다 훨씬 더 나은 데이터 효율성으로 일치성을 회복합니다. 동일한 동결된(frozen) 보상 모델은 추론 시점의 Best-of-N 선택, DITTO 스타일의 잠재 최적화(latent optimization), 그리고 전문가 반복 사후 학습(expert-iteration post-training)이라는 세 가지 다운스트림 애플리케이션 전반에 걸쳐 일관된 보상 축 이득(reward-axis gains)을 이끌어냅니다. TuneJury는 https://github.com/yonghyunk1m/TuneJury 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0