본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 06:39

Imagined-to-Listened MEG 매핑을 통한 제로샷(Zero-Shot) 상상 음성 디코딩

요약

본 연구는 비침습적 MEG 기록을 활용하여 상상된 음성을 디코딩하는 새로운 접근 방식을 제안합니다. 기존의 어려움(데이터셋 부족, 시간 정렬 문제)을 극복하기 위해, 훈련된 음악가들로부터 청취 및 상상에 대한 쌍으로 이루어진 MEG 데이터를 수집했습니다. 개발된 세 단계의 디코딩 파이프라인은 상상과 청취 간의 신경 활동 관계를 밝혀냈으며, 이는 확장 가능하고 실제 BCI 시나리오에 적용 가능한 결과를 보여주었습니다.

핵심 포인트

  • 청취 중 MEG 기록을 활용하여 상상 음성 디코딩의 어려움을 극복하는 새로운 방법론 제시.
  • 훈련된 음악가들을 대상으로 청취 및 상상에 대한 쌍으로 이루어진(paired) MEG 데이터를 수집하여 시간 정렬 문제를 개선함.
  • 세 단계의 디코딩 파이프라인을 개발하여, 동일 자극에 대한 상상과 청취 간의 신경 활동 관계를 분석함.
  • 모델 성능이 훈련 데이터 크기에 따라 향상됨을 입증하여, 이 접근 방식의 확장성과 실제 BCI 적용 가능성을 시사함.

비침습적 뇌 기록으로부터 상상된 음성을 디코딩하는 것은 상상 데이터셋이 부족하고 피험자 및 세션 간에 시간적으로 정렬하기 어렵기 때문에 까다롭습니다. 본 연구에서는 청취 중의 더 풍부하고 신뢰성 있게 레이블링된 기록을 활용하여 상상된 음성의 디코딩에 대한 새로운 접근 방식을 제안합니다. 우리는 훈련된 음악가들로부터 리듬적, 선율적 및 구어적 자극에 대해 쌍으로 이루어진(paired) 청취 및 상상 MEG 기록을 수집했습니다. 훈련된 음악가를 사용한 것은 조건 전반에 걸쳐 시간 정렬을 개선하는 데 도움이 되었습니다. 그런 다음 우리는 세 단계의 디코딩 파이프라인을 개발했으며, 이는 동일한 자극을 상상하고 듣는 것과 관련하여 신경 활동 간에 일관되고 의미 있는 관계를 밝혀냈습니다. 첫째, 우리는 여섯 개의 선형(linear) 모델을 훈련했습니다.

여기서는 상상된 음성을 디코딩하기 위한 개념 증명(proof-of-concept) 구현 결과를 보고합니다. 모든 평가는 별도로 보관된 대상자(held-out subjects)를 대상으로 수행되었습니다. 또한, 훈련 데이터 크기가 커짐에 따라 성능이 향상됨을 보여주었으며, 이는 이 접근 방식이 확장 가능하며 실제적인 뇌-컴퓨터 인터페이스(Brain-Computer Interface, BCI) 시나리오에 직접 적용될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0