arXiv논문2026. 05. 28. 12:36

정서적 음악 추천: 오프라인 선호도 최적화를 위한 롤아웃 기반 월드 모델 (Rollout-Based World Model)

요약

임상 및 웰니스 사용자를 위한 정서적 음악 추천 시스템인 AMRS를 소개합니다. 롤아웃 기반 월드 모델을 활용하여 온라인 실험의 윤리적 제약을 극복하고, 오프라인에서 직접 선호도 최적화(DPO)를 통해 정서적 상태를 예측하고 개선하는 방법론을 제시합니다.

핵심 포인트

롤아웃 기반 월드 모델을 통한 인실리코 시뮬레이션 구현
DPO를 활용한 오프라인 정책 미세 조정 및 선호도 최적화
윤리적 제약이 있는 임상 환경에서의 추천 시스템 검증 방법론
분포 붕괴를 방지하며 유가성 및 각성 예측 성능 개선

소비자 중심의 기능성 음악 애플리케이션부터 수면 보조 도구, 임상적 개입에 이르기까지, 이들은 공통적인 추천 문제를 공유합니다. 즉, 성공 여부는 청취자의 정서적 상태 (affective state)에 의해 정의되지만, 감정에 대한 온라인 실험은 윤리적 제약이 따릅니다. 특히 노래를 건너뛰거나 고통을 보고하기 어려운 임상 대상군(clinical populations)의 경우 더욱 그러합니다. 본 논문에서는 LUCID의 건강 및 웰니스 플랫폼에 배포된 정서적 음악 추천 시스템인 AMRS (Affective Music Recommendation System)를 설명합니다. 이 플랫폼은 임상 사용자(주로 신경인지 질환을 가진 노인층)와 에너지 증진, 집중, 진정, 수면 모드를 사용하는 소비자 웰니스 사용자를 대상으로 서비스됩니다. AMRS는 롤아웃 기반 월드 모델 (rollout-based world model)을 중심으로 구축되었습니다. 이는 로그에 기록된 청취 데이터를 통해 참여도 (engagement), 이진 평점 (binary rating), 그리고 자기 보고식 유가성 (valence) 및 각성 (arousal)을 공동으로 예측하도록 학습된 인과적 트랜스포머 (causal transformer)입니다. 이 월드 모델은 오프라인 정책 학습을 위한 인실리코 시뮬레이터 (in-silico simulator)이자, 배포 전 스트레스 테스트 도구로서의 역할을 수행합니다. 행동 복제 (behaviour cloning)로 초기화된 추천 정책은 구성 가능한 다목적 효용 함수 (multi-objective utility function)에 따라 직접 선호도 최적화 (Direct Preference Optimization, DPO)를 통해 오프라인에서 미세 조정됩니다. 엄격한 콜드 스타트 (cold-start) 프로토콜 하에서, 월드 모델은 행동 신호와 정서적 신호 모두를 사용 가능한 수준의 충실도로 예측합니다. DPO는 복제된 베이스라인 (cloned baseline) 대비 예측된 유가성과 각성을 개선하는 동시에, 유사한 다양성 프로필을 유지하며 탐욕적 최적화 (greedy optimization)로 인해 발생하는 분포 붕괴 (distributional collapse)를 방지합니다. 본 연구는 온라인 실험이 윤리적으로 불가능할 때 정서적 추천을 위한 방법론을 조기에 배포하여 검증한 사례로 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

정서적 음악 추천: 오프라인 선호도 최적화를 위한 롤아웃 기반 월드 모델 (Rollout-Based World Model)

요약

핵심 포인트

댓글