NeuroCogMap: 대규모 언어 모델(LLM)의 인지적 조직 구조를 밝히다
요약
NeuroCogMap은 LLM의 내부 표현을 기능적 구획으로 조직하여 인지 신경과학과 연결하는 새로운 프레임워크입니다. 이 연구는 모델의 내부 구조를 통해 환각, 편향 등 주요 실패 사례를 탐지하고 인간의 피질 반응을 예측하는 방법을 제시합니다.
핵심 포인트
- LLM의 내부 특징을 기능적 구획으로 조직하는 NeuroCogMap 프레임워크 제안
- 환각, 편향, 아첨 등 LLM의 주요 실패 사례에 대한 내부 시그니처 식별
- 모델의 내부 표현과 인간의 고차 연합 피질 반응 간의 대응 관계 확인
- 인공 시스템의 기능적 조직을 매핑하고 인간 인지와 연결하는 시스템 수준의 접근법
인공 시스템 내에서 복잡한 인지 기능이 어떻게 조직되는지 이해하는 것은 대규모 언어 모델(LLMs)을 해석하고 이를 생물학적 인지(biological cognition)와 연결하는 데 핵심적입니다. LLMs가 광범위한 인지 유사 행동을 보임에도 불구하고, 이들의 내부 표현(internal representations)이 행동, 실패, 그리고 인간 인지와의 연결성을 설명할 수 있는 재현 가능한 기능적 시스템을 형성하는지는 여전히 불분명합니다. 본 연구에서는 LLMs의 내부 특징을 기능적 구획(functional parcels)으로 조직하고, 이를 해석 가능한 기능, 인지 능력 및 인지 계층(cognitive hierarchy)과 연결하는 인지 신경과학(cognitive neuroscience) 기반 프레임워크인 NeuroCogMap을 제시합니다. 이러한 구획들은 모델 간에 부분적으로 보존되며 모델 출력과 기능적으로 연결된, 안정적이고 의미론적으로 일관된 조직을 형성합니다. 이 조직 내에서 환각(hallucination), 편향(bias), 거부 실패(refusal failure) 및 아첨(sycophancy)을 포함한 주요 LLM 실패 사례들은 표현 및 행동 제어 시스템(representational and behavioural-control systems)의 뚜렷한 교란에 대응하며, 이는 메커니즘 기반 탐지 및 표적 개입을 위한 내부 시그니처(internal signatures)를 제공합니다. 모델의 행동을 넘어, NeuroCogMap은 자연스러운 언어 이해 과정 중 인간의 피질 반응(cortical responses)에 대한 예측력을 향상시키며, 특히 고차 연합 피질(higher-order association cortex)에서 가장 강력한 대응 관계를 보입니다. 인지 수준에서, NeuroCogMap의 내부 시그니처는 인간 의사결정의 고전적 모델을 정교화하는 데 가이드가 되는 잠재적 전략을 드러냅니다. 종합적으로, 이러한 발견은 NeuroCogMap을 인공 시스템의 기능적 조직을 매핑하고, 이 조직을 인간의 피질 기능 및 인지 행동과 연결하기 위한 시스템 수준의 프레임워크로 확립합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기