본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 16:35

트랜스포머의 이중적 추론 모드가 작업 벡터 기하학을 기반으로 함

요약

본 논문은 트랜스포머 모델이 컨텍스트에 따라 두 가지 추론 모드(In-Distribution 및 Out-of-Distribution)를 가질 수 있음을 보여줍니다. 내부 표현을 분석한 결과, 학습된 작업 벡터 기하학이 이 두 모드를 지배함을 밝혀냈습니다. 구체적으로, 분포 내 행동은 기존 작업 벡터의 볼록 결합으로 구현되는 베이즈적 검색에 의해 발생하며, 분포 밖 일반화는 작업 벡터 공간과 직교하는 새로운 서브스페이스를 차지하는 추측성 학습을 통해 이루어집니다.

핵심 포인트

  • 트랜스포머 모델은 컨텍스트 기반으로 두 가지 상이한 추론 모드(In-Distribution 및 Out-of-Distribution)를 가질 수 있다.
  • 분포 내 행동(ID)은 학습된 작업 벡터의 볼록 결합을 통한 베이즈적 작업 검색(Bayesian task retrieval)에 의해 지배된다.
  • 분포 밖 일반화(OOD)는 기존 작업 공간과 직교하는 서브스페이스를 차지하며, 추측성 작업 학습(extrapolative task learning)을 통해 발생한다.
  • 작업 벡터 기하학은 모델의 일반화 행동 및 훈련 분포와 밀접하게 연결되어 있다.

트랜스포머는 컨텍스트를 통해 학습 과정에서 본 작업인지, 새로운 작업에 적응하는지 두 가지 추론 모드로 잠재 작업을 추론할 수 있습니다. 최근 해석 가능성 연구들은 모델의 중간 레퍼런스를 통해 특정 작업에 대한 방향성 (task-specific directions) 또는 작업 벡터 (task vectors) 를 식별했습니다. 그러나 내부 표현을 외부 모델 행동과 연결하는 데는 엄밀한 기초가 부족하여 기존 작업은 학습 분포에 의해 작업 벡터 기하학이 어떻게 형성되는지를 설명하지 못하며, 분포 밖 (Out-of-Distribution, OOD) 일반화가 어떤 기하학을 가능하게 하는지 알 수 없습니다. 본 논문에서는 작은 트랜스포머를 잠재 작업 시퀀스 분포에서부터 훈련하여 통제된 합성 환경에서 이러한 질문을 연구합니다. 이는 원칙적인 수학적 특성을 부여할 수 있습니다. 우리는 단일 모델 내에서 두 추론 모드가 공존할 수 있음을 보여줍니다. 분포 내 (In-Distribution) 행동은 학습된 작업 벡터의 볼록 결합 (convex combinations) 을 통해 내부적으로 구현된 베이즈적 작업 검색 (Bayesian task retrieval) 으로 지배됩니다. 반면, 분포 밖 (Out-of-Distribution, OOD) 행동은 작업 벡터 공간에 거의 직교하는 서브스페이스를 차지하는 추측성 작업 학습 (extrapolative task learning) 을 통해 발생합니다. 종합적으로, 우리의 결과는 작업 벡터 기하학, 훈련 분포, 일반화 행동이 밀접하게 관련되어 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0