arXiv논문2026. 06. 05. 13:46

TRIBE v2 데이터 증강을 통한 뇌-이미지 디코딩 (Brain-to-Image Decoding) 성능 향상

요약

TRIBE v2 대규모 인코딩 모델의 합성 데이터를 활용하여 데이터가 부족한 환경에서의 뇌-이미지 디코딩 성능을 개선하는 연구입니다. 실험 결과, 합성 데이터 증강을 통해 이미지 검색 정확도가 최대 68% 향상되었으며 제로샷 디코딩 가능성도 확인되었습니다.

핵심 포인트

TRIBE v2 합성 데이터를 통한 fMRI 데이터 증강 기법 제안
이미지 검색 정확도(Top-10) 최대 68% 향상 달성
데이터 소스에 따른 최적의 증강 데이터 비율 조정 필요성 확인
합성 데이터만으로도 우연 수준 이상의 제로샷 디코딩 가능성 시사

뇌 디코딩 (Brain decoding)은 라벨링된 신경 데이터 (labeled neural data)의 가용성으로 인해 제한적이며, 데이터가 적은 환경 (low-data regimes)에서는 여전히 도전적인 과제로 남아 있습니다. 이 문제를 해결하기 위해, 우리는 자극에 대한 fMRI 반응을 사전 학습한 모델 (pretrained model)이 생성한 합성 데이터 (synthetic data)를 사용하여 작은 fMRI 데이터셋을 증강함으로써 뇌 디코딩 성능을 높일 수 있는지, 그리고 언제 가능한지를 조사합니다. 우리는 비디오, 오디오 및 언어에 대한 1,000시간 이상의 fMRI 반응을 바탕으로 사전 학습된 대규모 인코딩 모델 (encoding model)인 TRIBE v2를 사용합니다. 각 데이터셋에 대해, 우리는 훈련에 사용된 합성 데이터의 양에 따라 이미지 디코더 (image decoders)의 성능이 어떻게 변화하는지를 보여주는 체계적인 그리드 (systematic grids)를 평가합니다. 두 가지 데이터셋 (7T fMRI Natural Scenes Dataset 및 3T fMRI BOLD5000)을 기반으로 한 결과에 따르면, 실제 데이터로만 훈련된 디코더와 비교했을 때 Top-10 이미지 검색 정확도 (image-retrieval accuracy)가 최대 68% 향상됨을 보여줍니다. 중요한 점은, 특정 이미지 디코딩 성능에 도달하기 위해 필요한 증강 데이터 (augmented data)의 비율은 데이터 소스에 따라 조정되어야 한다는 것입니다. 놀랍게도, 합성 fMRI 데이터로만 훈련된 이미지 디코더가 일부 설정에서는 우연 수준 (chance) 이상의 성능을 보일 수 있으며, 이는 TRIBE v2가 제로샷 (zero-shot) 뇌-이미지 디코딩을 지원할 수 있음을 시사합니다. 종합적으로, 이러한 결과는 시각, 청각 및 언어에 대한 fMRI 반응을 다루는 대규모 모델이 이미지 디코딩의 데이터 효율성 (data efficiency)을 개선하기 위한 토대를 제공할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

TRIBE v2 데이터 증강을 통한 뇌-이미지 디코딩 (Brain-to-Image Decoding) 성능 향상

요약

핵심 포인트

댓글