뇌 재구성을 위한 Sequential Mamba 기반의 Coarse-to-fine 계층적 구조
요약
인간의 시각 피질 구조를 모방한 CHASMBrain 프레임워크를 제안합니다. Mamba 기반의 듀얼 스트림 설계를 통해 이미지-to-fMRI 인코딩 성능을 극대화하며, 기존 베이스라인 모델들을 능가하는 성과를 보였습니다.
핵심 포인트
- Mamba 기반의 Coarse-to-fine 계층적 구조 제안
- 전역적 의미론과 국소적 공간 정보를 분리 처리
- NSD 데이터셋에서 기존 모델 대비 우수한 성능 달성
- 시각 피질의 기능적 조직과 모델 간의 인과적 대응 확인
- 최소한의 적응으로 가능한 피험자 간 전이 성능 입증
심층 시각 표현 (deep visual representations)과 인간 시각 시스템 사이의 관계를 이해하는 것은 계산 신경과학 (computational neuroscience)의 근본적인 과제입니다. 현대의 비전 모델들은 이미지 인식에서 강력한 성능을 달성하고 있지만, 인간 시각 피질 (visual cortex)의 계층적 조직과의 대응 관계는 여전히 미해결 과제로 남아 있습니다. 본 연구에서는 이미지-to-fMRI 인코딩을 위한 새로운 계층적 2단계 프레임워크인 CHASMBrain을 제안합니다. 우리의 아키텍처는 시각 피질의 기능적 조직에 착안하여, 전역적 의미론적 토큰 (global semantic tokens)과 국소적 공간 패치 (local spatial patches)를 명시적으로 분리하고 처리하기 위해 듀얼 스트림 Mamba 설계를 활용합니다. Coarse-to-fine 전략이 채택되었습니다: 1단계(Stage 1)는 노이즈가 제거된 ROI 수준의 활성화를 예측하며, 2단계(Stage 2)는 Mamba-VAE를 사용하여 이러한 거친 응답을 전체 복셀 수준 (voxel-level) 예측으로 정교화합니다. Natural Scenes Dataset (NSD)에 대한 실험 결과, 우리의 방법은 Pearson 상관계수 0.429와 MSE 0.261을 달성하여 ridge regression 및 DINOv2 linear probes를 포함한 모든 평가된 베이스라인 모델들을 능가했습니다. 예측 성능을 넘어, 인과적 분기 제거 (causal branch-ablation) 실험은 비대칭적 특화를 보여줍니다: 패치 스트림 (patch stream)은 초기 시각 피질 (early visual cortex, 망막 지도 영역)에 구체적으로 고정되어 있는 반면, CLS 스트림은 고차 영역에 더 넓은 의미론적 문맥을 제공합니다. 이는 단순한 상관관계가 아닌 인과적으로 유지되는 대응 관계입니다. 피험자 간 전이 (Cross-subject transfer) 실험은 학습된 백본 (backbone)이 최소한의 피험자별 적응만으로 개인 간에 일반화될 수 있음을 보여주며, 이는 모델이 피험자에 의존하지 않는 공유된 시각적 표현을 포착하고 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기