arXiv논문2026. 06. 29. 10:56

HPRO: 감정적 텍พย์-음성 합성(TTS)을 위한 선호도 추출 기반 계층적 점진적 보상 최적화

요약

HPRO는 감정적 표현력이 부족한 기존 TTS 모델의 문제를 해결하기 위해 제안된 계층적 점진적 보상 최적화 프레임워크입니다. HD-Emo 코덱을 통해 콘텐츠와 감정 정보를 분리하고, 프레임부터 문장 단위까지 단계적으로 정렬하여 언어적 명료성과 감정 표현력을 동시에 향상시킵니다.

핵심 포인트

기존 SFT 방식의 평균적인 운율 및 감정 표현 제한 문제 해결
HD-Emo 코덱을 통한 콘텐츠와 감정 정보의 구조적 격리
정보 충돌로 인한 보상 해킹 및 의미론적 저하 방지
프레임, 단어, 문장 수준의 계층적 정렬로 규모 격차 해소

최근 대규모 언어 모델 (LLM) 기반의 텍스트 음성 합성 (TTS) 모델들은 놀라운 자연스러움을 달성했습니다. 그러나 표준적인 지도 미세 조정 (Supervised Fine-Tuning) 패러다임은 종종 통계적으로 평균화된 운율 (prosody)로 수렴하여, 감정적 표현력을 제한하는 문제가 있습니다. 선호도 기반 최적화 (preference-driven optimization)가 유망한 대안을 제시하지만, 기존 방식들은 두 가지 구조적 불일치 문제를 겪고 있습니다: 첫째는 정보 충돌 (information conflict)으로, 공유된 잠재 공간 (latent space) 내에서 콘텐츠와 감정이 충돌하는 그래디언트 (gradients)를 생성하여 보상 해킹 (reward hacking)과 의미론적 저하 (semantic degradation)를 초래한다는 점입니다. 둘째는 규모 격차 (scale gap)로, 희소한 문장 수준의 보상이 조밀한 프레임 수준의 생성을 가이드하는 데 어려움을 겪는다는 점입니다. 이러한 과제를 극복하기 위해, 우리는 계층적 점진적 보상 최적화 프레임워크인 HPRO를 제안합니다. HPRO 내에서, 우리는 정보 충돌을 해결하기 위한 새로운 미분 가능한 보상 모델 (differentiable reward model)로서 HD-Emo 코덱을 도입합니다. 이 코덱은 음성을 별개의 콘텐츠 및 스타일 선호도 토큰 (preference tokens)으로 추출하여, 감정 최적화를 의미론적 콘텐츠로부터 구조적으로 격리합니다. 이러한 구조화된 선호도 공간을 바탕으로, HPRO는 프레임, 단어 및 문장 수준의 목표를 점진적으로 정렬함으로써 규모 격차를 해소합니다. 실험을 통해 HPRO가 언어적 명료성 (linguistic intelligibility)을 효과적으로 보존하면서도 감정적 표현력을 크게 향상시킨다는 것을 입증했습니다. 코드와 오디오 샘플은 https://xxh333.github.io/hpro-demo/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

HPRO: 감정적 텍พย์-음성 합성(TTS)을 위한 선호도 추출 기반 계층적 점진적 보상 최적화

요약

핵심 포인트

댓글