NeuroCogMap: 대규모 언어 모델(LLM)의 인지적 조직 구조를 밝히다

인공 시스템 내에서 복잡한 인지 기능이 어떻게 조직되는지 이해하는 것은 대규모 언어 모델(LLMs)을 해석하고 이를 생물학적 인지(biological cognition)와 연결하는 데 핵심적입니다. LLMs가 광범위한 인지 유사 행동을 보임에도 불구하고, 이들의 내부 표현(internal representations)이 행동, 실패, 그리고 인간 인지와의 연결성을 설명할 수 있는 재현 가능한 기능적 시스템을 형성하는지는 여전히 불분명합니다. 본 연구에서는 LLMs의 내부 특징을 기능적 구획(functional parcels)으로 조직하고, 이를 해석 가능한 기능, 인지 능력 및 인지 계층(cognitive hierarchy)과 연결하는 인지 신경과학(cognitive neuroscience) 기반 프레임워크인 NeuroCogMap을 제시합니다. 이러한 구획들은 모델 간에 부분적으로 보존되며 모델 출력과 기능적으로 연결된, 안정적이고 의미론적으로 일관된 조직을 형성합니다. 이 조직 내에서 환각(hallucination), 편향(bias), 거부 실패(refusal failure) 및 아첨(sycophancy)을 포함한 주요 LLM 실패 사례들은 표현 및 행동 제어 시스템(representational and behavioural-control systems)의 뚜렷한 교란에 대응하며, 이는 메커니즘 기반 탐지 및 표적 개입을 위한 내부 시그니처(internal signatures)를 제공합니다. 모델의 행동을 넘어, NeuroCogMap은 자연스러운 언어 이해 과정 중 인간의 피질 반응(cortical responses)에 대한 예측력을 향상시키며, 특히 고차 연합 피질(higher-order association cortex)에서 가장 강력한 대응 관계를 보입니다. 인지 수준에서, NeuroCogMap의 내부 시그니처는 인간 의사결정의 고전적 모델을 정교화하는 데 가이드가 되는 잠재적 전략을 드러냅니다. 종합적으로, 이러한 발견은 NeuroCogMap을 인공 시스템의 기능적 조직을 매핑하고, 이 조직을 인간의 피질 기능 및 인지 행동과 연결하기 위한 시스템 수준의 프레임워크로 확립합니다.

Insights

NeuroCogMap: 대규모 언어 모델(LLM)의 인지적 조직 구조를 밝히다

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화