arXiv논문2026. 06. 30. 13:35

OLIVE: 음성 SSL을 위한 파형 재구성 및 뷰 증강 잠재 예측

요약

OLIVE는 음성 SSL을 위한 새로운 프레임워크로, 뷰 증강 마스크 잠재 예측과 파형 재구성을 결합하여 최적화합니다. 이를 통해 신호 수준의 정보 유지와 견고한 문맥적 표현 형성을 동시에 달성합니다.

핵심 포인트

분석 및 합성 목적 함수를 공동 최적화하는 프레임워크 제안
파형 재구성을 통한 초기 인코더 특징의 신호 정보 유지
마스크 잠재 예측을 통한 불변성 있는 문맥적 표현 형성
생성, 화자, 인식, 의미 등 다양한 음성 작업에서 성능 개선

우리는 분석(analysis) 및 합성(synthesis) 목적 함수를 공동으로 최적화하는 자기지도 음성 표현 학습(self-supervised speech representation learning) 프레임워크인 OLIVE(Online Latent prediction with Invariant Views and rEconstruction)를 제안합니다. OLIVE는 뷰 증강 마스크 잠재 예측(view-augmented masked latent prediction)과 파형 재구성(waveform reconstruction)을 단일 목적 함수 아래 결합합니다. 재구성은 초기 인코더 특징(encoder features)이 신호 수준의 정보(signal-level information)를 유지하도록 제약하며, 마스크 잠재 예측은 후기 문맥적 표현(contextual representations)이 견고한 다운스트림 성능(downstream performance)을 위해 불변성(invariance)을 갖도록 형성합니다. 우리는 이러한 목적 함수들이 광범위한 작업(tasks)을 지원하는 표현(representations)을 가능하게 함을 보여줍니다. 특히, OLIVE는 생성(generation) 및 화자(speaker) 작업에서 결과를 개선하고, 인식(recognition) 및 의미(semantic) 작업에서 경쟁력 있는 성능을 유지하며, 파형 재구성을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

OLIVE: 음성 SSL을 위한 파형 재구성 및 뷰 증강 잠재 예측

요약

핵심 포인트

댓글