NeuroSonic: EEG-to-Speech 재구성을 위한 조건부 흐름 매칭 (Conditional Flow Matching)
요약
NeuroSonic은 EEG 신호를 기반으로 연속적인 음성을 재구성하는 조건부 흐름 매칭(Conditional Flow Matching) 프레임워크입니다. 결정론적 확률 흐름 속도장을 학습하여 기존 확산 모델의 불안정성을 극복하고 음성 재구성의 품질을 크게 향상시켰습니다.
핵심 포인트
- EEG-to-speech 재구성을 위한 결정론적 확률 흐름 매칭 도입
- 확률적 샘플링 없이 궤적 진화를 명시적으로 모델링하여 안정성 확보
- CineBrain 및 EAV 벤치마크에서 기존 모델 대비 지각적 품질 최대 26.3% 향상
- EEG의 높은 변동성과 노이즈 문제를 효과적으로 해결
두피 뇌전도 (scalp electroencephalography, EEG)로부터 연속적인 음성을 재구성하는 것은 근본적으로 어려운 과제로 남아 있습니다. EEG는 분산된 피질 활동에 대해 약하고, 공간적으로 확산되어 있으며, 변동성이 매우 큰 측정을 제공하는 반면, 음성은 강한 배음(harmonic) 및 시간적 구조를 가진 일관된 음향 궤적(acoustic trajectory)으로 구성됩니다. 이러한 불일치로 인해 파형 회귀 (waveform regression)가 불안정해지며, 확률적 다단계 생성 (stochastic multi-step generation)이 아티팩트(artifact) 의존적 조건화 및 피험자 변동성에 민감하게 반응하게 됩니다.
우리는 EEG-to-speech 재구성을 위한 조건부 흐름 매칭 (conditional flow-matching) 프레임워크인 NeuroSonic을 소개합니다. NeuroSonic은 파형을 직접 예측하거나 확률적 디노이징 (stochastic denoising)을 통해 정제하는 대신, EEG 조건화 하에서 노이즈가 섞인 음향 상태를 깨끗한 음성으로 이동시키는 결정론적 확률 흐름 속도장 (deterministic probability-flow velocity field)을 학습합니다. EEG와 오디오는 공유된 토큰 공간 (token space)으로 임베딩되며, 수송 상미분 방정식 (transport ordinary differential equation)을 매개변수화하는 시간 조건부 게이트 트랜스포머 (time-conditioned gated Transformer)에 의해 처리됩니다. 이 공식은 반복적인 확률적 샘플링 (stochastic sampling)을 피하면서 궤적 진화 (trajectory evolution)를 명시적으로 모델링합니다.
우리는 교차 피험자 평가 (cross-subject evaluation) 환경에서 CineBrain 및 EAV 벤치마크를 통해 NeuroSonic을 평가합니다. 두 데이터셋 모두에서 제안된 방법은 대표적인 GAN, 확산 모델 (diffusion), 평균 흐름 (mean-flow) 베이스라인에 비해 분포적 실재감 (distributional realism), 스펙트럼 충실도 (spectral fidelity) 및 지각적 품질 (perceptual quality)을 개선하였으며, 전체적인 지각적 품질에서 최대 26.3%의 향상을 보였습니다. 성능 격차는 조건화 변동성이 가장 강한 아티팩트가 많은 구간에서 가장 뚜렷하게 나타납니다. 이러한 결과는 결정론적 조건부 수송 (deterministic conditional transport)이 EEG 기반 음성 재구성을 위한 안정적이고 효과적인 공식을 제공함을 시사합니다. 코드는 https://github.com/Y-Research-SBU/NeuroSonic/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기