Waves 속으로의 다이빙: EEG 기반 피험자 간 감정 디코딩을 위한 Morlet Spectral Transformer
요약
EEG 기반 피험자 간 감정 인식을 위해 Morlet Spectral Transformer(MST)를 제안합니다. MST는 Morlet 웨이브릿 토큰화와 주파수 특화 공간 투영을 통해 노이즈가 많은 뇌파 신호에서 정교한 시간-주파수 표현을 추출합니다.
핵심 포인트
- Morlet 웨이브릿을 활용한 다중 스케일 시간-주파수 표현 제공
- 긴 컨텍스트 베이스라인 제거로 피험자별 드리프트 문제 해결
- 주파수 대역별 별도 채널 믹서를 통한 해석 가능한 패턴 포착
- 사전 학습 없이도 기존 파운데이션 모델 및 주파수 모델 능가
우리는 뇌-컴퓨터 인터페이스 (BCI) 분야에서 실질적으로 중요하면서도 도전적인 문제인 EEG 기반 피험자 간 감정 인식 (cross-subject emotion recognition)을 연구합니다. 명확한 파형 특징 (waveform signatures)을 가진 작업들과 달리, 감정 관련 EEG 신호는 주로 스펙트럼 전력 (spectral power)에 인코딩되어 있으며, 신호가 약하고 노이즈가 많으며 피험자 간 변동성이 매우 큽니다. 기존의 접근 방식들은 방대한 데이터를 필요로 하지만 여전히 피험자 간 변동성 문제로 어려움을 겪는 대규모 사전 학습된 EEG 파운데이션 모델 (pretrained EEG foundation models)에 의존하거나, 스펙트럼 구조를 더 잘 반영하지만 표현 불일치 (mismatched representations), 드리프트 중심의 토큰화 (drift-dominated tokenization), 그리고 대역 특화된 공간 모델링 (band-specific spatial modeling)의 부재로 어려움을 겪는 주파수 영역 인코더 (frequency-domain encoders)에 의존합니다.
본 논문에서 우리는 시공간 Transformer 백본 (spatiotemporal Transformer backbone)과 통합된 세 가지 핵심 구성 요소를 중심으로 구축된 Morlet Spectral Transformer (MST)를 제안합니다. 첫째, Morlet 웨이브릿 토큰화 (Morlet wavelet tokenization)는 뇌 리듬의 다중 스케일 구조 (multi-scale structure)와 일치하는 시간-주파수 표현 (time-frequency representation)을 제공하며, 고전적인 미분 엔트로피 (differential entropy) 특징을 Transformer에 적합한 형태로 확장합니다. 둘째, 긴 컨텍스트 베이스라인 제거 (long-context baseline removal)는 피험자 특유의 드리프트 (subject-specific drift)와 인접한 윈도우 간의 중복성을 제거하는 단순한 시간적 정규화 (temporal normalization) 역할을 합니다. 셋째, 주파수 특화 공간 투영 (frequency-specific spatial projection)은 각 주파수 대역에 대해 별도의 채널 믹서 (channel mixer)를 학습하여, 해석 가능한 대역 특화 패턴을 포착하고 채널 간 혼합 (cross-channel mixing)을 줄입니다.
우리는 사전 학습 (pretraining) 없이도 MST가 모든 SEED 계열 데이터셋에서 대규모 사전 학습된 EEG 파운데이션 모델과 주파수 기반 방법론 모두를 일관되게 능가함을 보여줍니다. 이러한 결과는 세심한 표현 설계 (representation design)가 대규모 사전 학습에 대한 정확하고 비용 효율적이며 해석 가능한 대안이 될 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기