arXiv논문2026. 06. 15. 08:07

강건한 추론을 위한 뇌 유도 언어 모델을 통한 표현 정렬 그 이상

요약

LLM의 내부 표현과 인간의 뇌 신경 신호 간의 대응 관계를 분석하고, 뇌 유도 프레임워크를 통해 모델의 추론 능력을 향상시키는 연구입니다. fMRI 신호를 활용해 모델 표현을 조종함으로써 다양한 LLM에서 추론 정확도를 크게 개선했습니다.

핵심 포인트

LLM의 내부 표현과 인간의 추론 관련 뇌 활성도 간의 정렬 확인
뇌 유도 프레임워크를 통한 모델 표현 조종 및 미세 조정 제안
10개의 LLM에서 언어 전용 학습과는 다른 독립적인 성능 향상 입증
추론 유형 간 전이 효과 및 최대 13%의 절대 정확도 향상 달성

대규모 언어 모델 (LLMs)과 인간의 고차원 인지 (higher-order cognition)를 뒷받침하는 신경 메커니즘 사이의 대응 관계는 여전히 충분히 규명되지 않았습니다. 인간의 뇌에서 언어와 추론이 분리 가능한 것으로 보이기에, LLM이 추론 관련 영역의 신경 신호와 정렬되는지, 그리고 그러한 신호가 LLM을 개선할 수 있는지는 미해결 과제로 남아 있습니다. 본 연구에서는 연역적 추론 (deductive reasoning)에 초점을 맞추어, LLM의 내부 표현 (internal representations)이 과업 관련 fMRI 활성도와 부분적으로 정렬될 뿐만 아니라, 이러한 신호에 의해 직접적으로 향상될 수 있음을 보여줍니다. 신경 예측성 (neural-predictivity) 지표를 사용하여, 우리는 LLM이 집합적 수준에서 추론 관련 영역의 설명 가능한 분산 (explainable variance) 중 상당 부분을 설명한다는 것을 발견했습니다. 반면 특정 추론 유형 내에서의 예측성은 더 낮게 나타났으며, 이는 정렬과 발산이 동시에 존재함을 나타냅니다. 이를 바탕으로 우리는 뇌 유도 프레임워크 (brain-guided framework)를 제안합니다. 우리는 모델과 뇌 표현의 결합된 구조에 의해 유도된 방향을 따라 모델 표현을 조종 (steer)하며, 추론 시에는 개입 (intervention)을 적용하고 학습 중에는 미세 조정 (fine-tuning)을 수행합니다. 우리는 과업 유발 뇌 신호가 LLM의 추론을 직접적으로 향상할 수 있음을 입증하였으며, 10개의 LLM (1.5B-72B)에 대해 언어 전용 지도 학습 (language-only supervision)과는 직교하는(orthogonal) 이득을 얻었으며, 추론 유형 간의 전이와 최대 13%의 절대 정확도 향상을 달성했습니다. 우리의 결과는 LLM-뇌 대응 관계를 상관관계에서 가이드(guidance) 단계로 발전시키며, 더욱 강건하고 인지적으로 정렬된 AI를 향한 뇌 신호 기반의 경로를 구축합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강건한 추론을 위한 뇌 유도 언어 모델을 통한 표현 정렬 그 이상

요약

핵심 포인트

댓글