MindVoice: 사전 학습된 사전 지식(Pretrained Priors)을 활용한 비침습적 신경 신호로부터 이해 가능한 음성 재구성
요약
MindVoice는 비침습적 신경 신호(EEG, MEG)로부터 이해 가능한 음성을 재구성하는 새로운 프레임워크입니다. 사전 학습된 모델을 활용해 의미론적 콘텐츠와 음향적 속성을 분리하여 복원함으로써, 노이즈가 많은 신경 기록의 한계를 극복하고 자연스러운 음성 합성을 구현합니다.
핵심 포인트
- 비침습적 신경 신호의 노이즈 및 공간적 흐릿함 문제 해결
- 의미론적 콘텐츠와 음향적 속성을 분리하는 이중 경로 구조
- 사전 학습된 사전 지식을 활용한 고품질 음성 재구성
- EEG 및 MEG 실험을 통해 기존 방식 대비 성능 우위 입증
비침습적(non-invasive) 신경 기록으로부터 연속적인 음성을 재구성하는 것은 인간의 청각 지각을 조사하고 안전하며 확장 가능한 음성 뇌-컴퓨터 인터페이스(Speech Brain-Computer Interface, BCI)를 구축하기 위한 근본적인 문제입니다. 최근의 진전에도 불구하고, 비침습적 기록은 본질적으로 노이즈가 많고, 공간적으로 흐릿하며(spatially blurred), 인지된 음성에 대한 정보를 부분적으로만 보존하기 때문에 이해 가능한 재구성은 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 신경 활동을 얽혀 있는(entangled) 음성 표현으로 직접 매핑한 후 신경 보코더(neural vocoders)를 사용하여 파형을 합성하는데, 이는 스펙트럼상으로는 유사하지만 이해할 수 없는 결과를 초래합니다. 이러한 한계를 극복하기 위해, 우리는 신경 기록에 포함된 불완전한 의미론적(semantic) 및 음향적(acoustic) 정보를 보완하기 위해 사전 학습된 모델(pretrained models)을 사용하는 신경-음성 재구성 프레임워크인 MindVoice를 소개합니다. MindVoice는 재구성을 두 개의 상호 보완적인 경로로 분리합니다. 하나는 고수준의 의미론적 콘텐츠를 복원하고, 다른 하나는 세밀한 음향적 속성을 추정합니다. 이렇게 추론된 표현들은 강력한 음성 생성 모델 및 인컨텍스트 음성 복제(in-context voice cloning)와 결합되어 자연스럽고 이해 가능한 발화를 합성합니다. EEG 및 MEG에 대한 광범위한 실험을 통해 MindVoice가 다양한 지표에서 기존 방법들을 실질적으로 능가함을 입증했습니다. 이러한 결과는 사전 학습된 사전 지식(pretrained priors)이 노이즈가 많은 신경 기록과 자연스러운 음성 사이의 간극을 메우는 원칙적인 방법을 제공한다는 것을 보여주며, 청각 신경과학 연구 및 비침습적 음성 뇌-컴퓨터 인터페이스를 위한 유망한 시도임을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기