지각적 보상(Perceptual Rewards)을 이용한 사후 학습 음성 향상 언어 모델
요약
이산 오디오 토큰 기반 음성 향상 모델의 최적화를 위해 지각적 보상을 활용한 사후 학습(post-training) 방법을 제안합니다. 미분 불가능한 품질 지표를 직접 보상 신호로 사용하는 GSPO 기법을 통해 DNS2020 벤치마크에서 SOTA 성능을 달성했습니다.
핵심 포인트
- 미분 불가능한 품질 지표(DNSMOS, WER 등)를 보상 신호로 직접 최적화
- GSPO(Group Sequence Policy Optimization)를 통한 사후 학습 도입
- 다중 지표 보상 사용으로 단일 지표 학습 시 발생하는 보상 해킹 방지
- UniSE 및 GenSE 모델에 적용하여 DNS2020 벤치마크 SOTA 달성
음성 향상 언어 모델(Speech enhancement language models)은 이산 오디오 토큰(discrete audio tokens)으로 학습할 때 강력한 성능을 발휘하지만, 이들의 최적화는 평가에 사용되는 지각적 지표(perceptual metrics)보다는 토큰 수준의 교차 엔트로피(cross-entropy)에 의존합니다. 본 연구에서는 다중 지표 지각적 보상(multi-metric perceptual rewards)을 사용하는 그룹 시퀀스 정책 최적화(Group Sequence Policy Optimization, GSPO)를 활용하여 자기회귀(autoregressive) 음성 향상 언어 모델을 위한 사후 학습(post-training) 단계를 도입합니다. 우리의 방법은 학습된 대리 모델(learned surrogates)이나 오프라인 선호도 쌍(offline preference pairs) 없이, 미분 불가능한 품질 지표(DNSMOS, WER, UTMOS)를 보상 신호로 직접 최적화합니다. 두 가지 자기회귀 베이스 모델인 UniSE와 GenSE에 적용했을 때, 우리의 접근 방식은 DNS2020 벤치마크에서 최첨단(state-of-the-art) 결과를 달성했습니다. 인간 평가 어블레이션(human evaluation ablation)을 통해 복합 다중 지표 보상이 단일 지표 변형보다 선호됨을 추가로 보여주었으며, 이는 다중 보상 최적화가 단일 지표 학습에서 관찰되는 보상 해킹(reward hacking)을 방지함을 확인시켜 줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기