TRIBE의 전역 예측 fMRI 구동 신호는 YouTube 재시청 히트맵을 예측하지 못함

심층 멀티모달 뇌 인코딩 모델(Deep multimodal brain-encoding models)은 이제 자연스러운 비디오에 대한 fMRI 반응을 높은 정확도로 예측합니다. 이들의 예측된 신경 신호가 행동적 참여(behavioral engagement) 또한 예측할 수 있는지는 알려지지 않았습니다. 우리는 2025 Algonauts 뇌 인코딩 챌린지의 우승 모델인 TRIBE(Llama-3.2 + V-JEPA2 + Wav2Vec-BERT)를 48개의 YouTube 비디오에 실행하고, 예측된 피질 반응(cortical response)을 초당 참여 곡선인 전역 장 전력(global field power)으로 축소했습니다. 시청자가 어느 순간으로 돌아가는지를 나타내는 수동 수집 대리 지표인 각 비디오의 "가장 많이 재시청된(most replayed)" 히트맵과 상관관계를 분석한 결과, 해당 곡선은 재시청 행동을 예측한다는 증거를 보여주지 않았습니다. 위치 제어된 통합 부분 상관관계(pooled position-controlled partial correlation)는 +0.058 (95% CI [-0.04, 0.15]; one-sample t(47)=1.21, p=0.23)로, 0과 구별할 수 없으며 단순한 음량(loudness) 및 움직임(motion) 베이스라인(음량 +0.04, paired p=0.74)보다 유의미하게 높지 않았습니다. 원시 상관관계(raw correlation) 또한 0에 가깝습니다. 음악 비디오에서 보고된 중간 정도의 값은 콘텐츠 예측이라기보다 장르 특유의 도입부/시작 재시청 아티팩트(intro/onset-replay artifact)를 반영하며, 일반화되지 않습니다. 이 귀무 가설(null)은 6개의 피질 네트워크 판독값(cortical-network readouts)과 자기상관을 보존하는 순열 검정(autocorrelation-preserving permutation test) 하에서도 유지됩니다. 우리는 코드, 비디오-ID 명세서, 그리고 YouTube의 SABR 전용 스트리밍에도 작동하는 데이터 획득 방법을 공개합니다.

Insights

TRIBE의 전역 예측 fMRI 구동 신호는 YouTube 재시청 히트맵을 예측하지 못함

요약

핵심 포인트

댓글

SkillFuzz: 오픈 스킬 마켓플레이스 내 암시적 의도 발견을 위한 스킬 조합 퍼징 (Fuzzing)

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

출처를 파악하라: 미디어 배경 조사(Media Background Checks)를 위한 공개 지식 저장소

월드 와이드 모델: 문화적 AI를 위한 문학적 도구

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

출처를 파악하라: 미디어 배경 조사(Media Background Checks)를 위한 공개 지식 저장소

월드 와이드 모델: 문화적 AI를 위한 문학적 도구