우주 속의 이야기: 개념적 신념 공간에서의 인컨텍스트 학습 (In-Context Learning) 궤적
요약
본 연구는 대규모 언어 모델(LLMs)의 인컨텍스트 학습(in-context learning) 과정을 단순한 추론이 아닌, 저차원의 '개념적 신념 공간'을 따라 이동하는 궤적으로 해석합니다. LLMs가 문맥에 따라 자신의 지식을 업데이트하는 과정은 이 기하학적 공간에서의 신념 변화를 의미하며, 이는 베이지안 추론의 한 형태로 간주됩니다. 연구진은 행동 분석과 내부 표현 분석을 결합하여 이러한 신념 궤적을 규명하고, 이를 조작함으로써 LLMs의 작동 원리에 대한 새로운 기하학적 이해를 제시합니다.
핵심 포인트
- LLMs의 인컨텍스트 학습은 개념적 신념 공간(conceptual belief space)에서의 궤적으로 설명될 수 있다.
- 신념 업데이트는 저차원의 구조화된 매니폴드(manifolds) 상에서 발생하며, 이는 모델의 행동과 내부 표현 모두에 일관되게 반영된다.
- 내부 표현에 대한 개입을 통해 신념 궤적을 인과적으로 조종할 수 있으며, 그 효과는 개념적 공간의 기하학으로부터 예측 가능하다.
- 본 연구는 LLMs의 베이지안 해석을 구조화된 개념적 표현에 기반한 기하학적 틀로 제시한다.
대규모 언어 모델 (LLMs)은 문맥 내에서 자신의 행동을 업데이트하며, 이는 베이지안 추론 (Bayesian inference)의 한 형태로 볼 수 있습니다. 그러나 이러한 추론이 작동하는 잠재적 가설 공간 (latent hypothesis space)의 구조는 여전히 불분명합니다. 본 연구에서 우리는 LLMs가 저차원의 기하학적 공간, 즉 개념적 신념 공간 (conceptual belief space)에 대한 신념을 할당하며, 인컨텍스트 학습 (in-context learning)이 시간이 지남에 따라 신념이 업데이트됨에 따라 이 공간을 통과하는 궤적 (trajectory)에 해당한다고 제안합니다. 동적인 신념 업데이트를 위한 자연스러운 환경으로 이야기 이해 (story understanding)를 사용하여, 우리는 이러한 궤적을 연구하기 위해 행동적 분석과 표현 분석 (representational analyses)을 결합합니다. 우리는 다음을 발견했습니다: (1) 신념 업데이트는 저차원의 구조화된 매니폴드 (manifolds) 상의 궤적으로 잘 설명됩니다; (2) 이러한 구조는 모델의 행동과 내부 표현 (internal representations) 모두에 일관되게 반영되며, 단순한 선형 프로브 (linear probes)를 통해 디코딩하여 행동을 예측할 수 있습니다; (3) 이러한 표현에 대한 개입 (interventions)은 신념 궤적을 인과적으로 조종하며, 그 효과는 개념적 공간의 기하학으로부터 예측될 수 있습니다. 종합적으로, 우리의 결과는 LLMs의 신념 역학 (belief dynamics)에 대한 기하학적 설명을 제공하며, 인컨텍스트 학습의 베이지안 해석을 구조화된 개념적 표현에 근거하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기