arXiv논문2026. 06. 08. 10:34

언어 모델의 희소 특징(Sparse Features)을 이용한 언어에 대한 뇌 반응 해석

요약

본 연구는 Sparse Autoencoder(SAE)를 활용하여 언어 모델의 은닉 상태를 해석 가능한 희소 특징으로 변환하고, 이를 인간의 뇌 반응(fMRI)과 연결하는 프레임워크를 제안합니다. 연구 결과, 뇌의 언어 네트워크는 언어 모델이 인코딩하는 일반적인 정보와 유의미한 대응 관계를 보임을 입증했습니다.

핵심 포인트

SAE를 이용해 밀집된 LM 은닉 상태를 해석 가능한 희소 특징으로 대체
7T fMRI 데이터를 통해 모델-뇌 정렬의 유효성 검증
뇌 반응은 LM의 임의적 특징이 아닌 일반적인 정보 특징에 의해 설명됨
전두엽 지역은 LM 특징 없이 Surprisal만으로도 비교적 잘 설명됨

인지 신경과학(Cognitive neuroscience)의 핵심 목표는 인간의 언어 피질(Language cortex)에 의해 표현되는 특징들을 규명하는 것입니다. 인공 언어 모델(Language Models, LMs)은 이 과제를 해결하기 위한 강력한 도구로 부상했지만, 생물학적 표현과 인공적 표현을 연결하는 연구들은 종종 하나의 블랙박스를 다른 블랙박스에 연결하는 것이라는 비판을 받습니다. 본 연구에서는 Surprisal(놀라움 정도)을 예측 인자로 명시적으로 포함하면서, 밀집된(Dense) LM 은닉 상태(Hidden states)를 계층적으로 조직된 희소 오토인코더(Sparse Autoencoder, SAE) 특징으로 대체하는 인코딩 프레임워크인 Augmented Sparse Encoding Models를 소개합니다. 이 접근 방식을 사용하여, 우리는 (i) 신경 반응에 대한 해석을 생성하고 (ii) 모델-뇌 정렬(Model-brain alignment)이 LM 표현의 일차적 변이(Primary variation)를 반영하는지 아니면 특이적 변이(Idiosyncratic variation)를 반영하는지 테스트합니다. 200개의 언어적으로 다양한 문장을 듣는 8명의 참가자를 대상으로 한 고자기장 7T fMRI 데이터셋을 사용하여, 우리는 먼저 처리 난이도(Processing difficulty)와 의미 추상성(Meaning abstractness)에 맞춰 조정된 복셀 집단(Voxel populations)에 대한 이전의 해석들을 복구함으로써 우리의 모델링 프레임워크를 검증합니다. 그런 다음, 이전에 특성화되지 않았던(그러나 신뢰할 수 있는) 복셀 집단을 해석하여 그것이 사람과 관련된 콘텐츠(People-related content)에 맞춰 조정되어 있음을 발견합니다. 다음으로, 우리는 인간의 전두-측두 언어 네트워크(Fronto-temporal human language network)가 구성 지역 전체에 걸친 공통된 특징 집합에 의해 예측됨을 보여주지만, 전두엽 지역은 LM 기반 특징이 없는 상황에서도 Surprisal만으로 비교적 잘 설명된다는 것을 발견합니다. 마지막으로, 우리는 언어 처리 중의 뇌 반응이 단순히 임의의 LM 특징 집합으로부터 예측 가능한 것이 아님을 보여줍니다. 오히려, 뇌 반응은 LM 표현에 인코딩된 가장 일반적인 정보를 포착하는 경향이 있는 특징들에 의해 가장 잘 설명되며, 이는 뇌와 LM 언어 표현 사이에 사소하지 않은 대응 관계(Nontrivial correspondence)가 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델의 희소 특징(Sparse Features)을 이용한 언어에 대한 뇌 반응 해석

요약

핵심 포인트

댓글