TRIBE의 전역 예측 fMRI 구동 신호는 YouTube 재시청 히트맵을 예측하지 못함
요약
TRIBE 모델의 fMRI 예측 신호가 YouTube 비디오의 재시청 히트맵을 예측할 수 있는지 분석한 연구입니다. 분석 결과, 예측된 신경 신호는 시청자의 재시청 행동과 유의미한 상관관계를 보이지 않았습니다.
핵심 포인트
- TRIBE 모델의 fMRI 예측 신호와 재시청 행동 간 상관관계 부재 확인
- 예측된 전역 장 전력(GFP)은 음량 및 움직임 베이스라인보다 높지 않음
- 음악 비디오의 상관관계는 장르 특유의 아티팩트로 판단됨
- 코드 및 비디오-ID 명세서, 데이터 획득 방법 공개
심층 멀티모달 뇌 인코딩 모델(Deep multimodal brain-encoding models)은 이제 자연스러운 비디오에 대한 fMRI 반응을 높은 정확도로 예측합니다. 이들의 예측된 신경 신호가 행동적 참여(behavioral engagement) 또한 예측할 수 있는지는 알려지지 않았습니다. 우리는 2025 Algonauts 뇌 인코딩 챌린지의 우승 모델인 TRIBE(Llama-3.2 + V-JEPA2 + Wav2Vec-BERT)를 48개의 YouTube 비디오에 실행하고, 예측된 피질 반응(cortical response)을 초당 참여 곡선인 전역 장 전력(global field power)으로 축소했습니다. 시청자가 어느 순간으로 돌아가는지를 나타내는 수동 수집 대리 지표인 각 비디오의 "가장 많이 재시청된(most replayed)" 히트맵과 상관관계를 분석한 결과, 해당 곡선은 재시청 행동을 예측한다는 증거를 보여주지 않았습니다. 위치 제어된 통합 부분 상관관계(pooled position-controlled partial correlation)는 +0.058 (95% CI [-0.04, 0.15]; one-sample t(47)=1.21, p=0.23)로, 0과 구별할 수 없으며 단순한 음량(loudness) 및 움직임(motion) 베이스라인(음량 +0.04, paired p=0.74)보다 유의미하게 높지 않았습니다. 원시 상관관계(raw correlation) 또한 0에 가깝습니다. 음악 비디오에서 보고된 중간 정도의 값은 콘텐츠 예측이라기보다 장르 특유의 도입부/시작 재시청 아티팩트(intro/onset-replay artifact)를 반영하며, 일반화되지 않습니다. 이 귀무 가설(null)은 6개의 피질 네트워크 판독값(cortical-network readouts)과 자기상관을 보존하는 순열 검정(autocorrelation-preserving permutation test) 하에서도 유지됩니다. 우리는 코드, 비디오-ID 명세서, 그리고 YouTube의 SABR 전용 스트리밍에도 작동하는 데이터 획득 방법을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기