arXiv논문2026. 05. 26. 12:52

최소한의 간섭을 통한 지속적인 화자 정체성 언러닝 (Continual Speaker Identity Unlearning)

요약

제로샷 TTS 모델에서 특정 화자의 목소리를 지속적으로 삭제하기 위한 새로운 프레임워크 CORTIS를 제안합니다. 기존 방식이 새로운 언러닝 시 이전 데이터가 복구되는 문제를 해결하기 위해 Fisher-information 기반 마스킹과 직교 투영 기술을 사용합니다.

핵심 포인트

순차적 화자 삭제 요청 시 발생하는 데이터 복구 문제 해결
이전 언러닝 데이터 없이도 지속적인 삭제가 가능한 CORTIS 제안
Fisher-information 기반 파라미터 마스킹 및 직교 투영 결합
VoiceBox 모델 적용 시 기존 방식 대비 뛰어난 성능 입증

머신 언러닝 (Machine unlearning)은 사전 학습된 모델에서 지정된 개념이나 지식을 제거합니다. 최근 연구는 이 패러다임을 제로샷 텍ext-to-speech (ZS-TTS)에서의 화자 정체성 언러닝 (speaker identity unlearning)으로 확장했습니다. 이는 모델이 특정 화자의 목소리를 복제하는 능력을 선택적으로 삭제하는 작업입니다. 그러나 기존 방법들은 모든 언러닝 요청이 한꺼번에 발생한다고 암묵적으로 가정하고 있습니다. 개인정보 보호를 목적으로 하는 삭제 요청은 시간이 지남에 따라 순차적으로 발생하기 때문에 이는 비현실적인 가정입니다. 본 연구에서는 이러한 가정이 최신 기술 (state-of-the-art) 방법들을 무너뜨린다는 것을 보여줍니다. 즉, 새로운 화자를 매번 언러닝할 때마다 이전에 언러닝된 화자들이 완전히 다시 살아나며, 이는 언러닝이 제거하고자 했던 바로 그 개인정보 보호 위험을 다시 도입하게 됩니다. 우리는 이전에 언러닝된 화자의 데이터에 접근할 필요가 없는, ZS-TTS에서의 지속적인 화자 정체성 언러닝을 위한 최초의 프레임워크인 CORTIS (Cumulative ORThogonal Identity Suppression)를 제안합니다. CORTIS는 업데이트를 화자 관련 가중치로 국소화하는 Fisher-information 기반 파라미터 마스킹 (parameter masking)과, 이전 언러닝 업데이트에 의해 생성된 부분 공간 (subspaces)에 대한 직교 투영 (orthogonal projection)을 결합합니다. VoiceBox를 사용하여 CORTIS는 요청된 각 화자를 언러닝하는 동시에, 긴 요청 시퀀스 전반에 걸쳐 이전에 언러닝된 화자들이 잊힌 상태를 유지하며, 기존 방법들을 순차적으로 적용하는 것보다 실질적으로 뛰어난 성능을 보여줍니다. 데모는 https://cumulativeortis.github.io/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

최소한의 간섭을 통한 지속적인 화자 정체성 언러닝 (Continual Speaker Identity Unlearning)

요약

핵심 포인트

댓글