arXiv논문2026. 06. 17. 11:07

음성 파운데이션 모델의 개입적 사후 학습을 통한 작업 특화적 부분 공간 학습

요약

음성 파운데이션 모델의 얽힌 표현 공간을 콘텐츠와 화자 정보로 분리하기 위한 사후 학습 정제 방식을 제안합니다. 개입적 대조 학습을 통해 특정 작업에 특화된 부분 공간 학습을 구현하여 성능을 개선했습니다.

핵심 포인트

개입적 대조 학습을 통한 음성 표현 공간의 분리
콘텐츠와 화자 정보의 독립적인 부분 공간 학습
화자 검증 및 키워드 탐지 작업에서의 성능 향상
도메인 외(OOD) 화자 검증 성능 개선 입증

라벨이 지정되지 않은 대규모 음성 데이터 코퍼스(corpora)로 사전 학습된 음성 파운데이션 모델(Speech foundation models)은 다양한 작업에 유용한 범용 표현(general-purpose representations)을 생성합니다. 그러나 이러한 표현은 두드러진 음성 변수들에 대한 정보를 분산된 방식으로 인코딩하는 반면, 다운스트림(downstream) 음성 작업들은 이러한 가변성 중 일부에만 의존합니다. 본 연구에서는 개입적 대조 학습(interventional contrastive learning)을 사용하는 사후 학습 정제(post-training refinement) 접근 방식을 제안합니다. 개입적 데이터셋(interventional dataset)과 다중 부분 대조 손실(multi-part contrastive loss)을 활용함으로써, 우리는 음성 파운데이션 모델의 얽힌 표현 공간(entangled representation space)으로부터 분리된 콘텐츠(content) 및 화자(speaker) 부분 공간(subspaces)으로의 변환을 학습합니다. 우리는 학습된 표현을 화자 검증(speaker verification) 및 키워드 탐지(keyword spotting) 작업에서 평가하였으며, 이를 통해 개선된 도메인 외(out-of-domain) 화자 검증 성능을 보여주고 화자 정보와 콘텐츠 정보가 학습된 부분 공간 전반에 걸쳐 분리되었음을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

음성 파운데이션 모델의 개입적 사후 학습을 통한 작업 특화적 부분 공간 학습

요약

핵심 포인트

댓글