트랜스포머에서의 기하학적 사실 회상 (Geometric Factual Recall in Transformers)
요약
본 논문은 트랜스포머 모델이 사실적 연관 관계를 어떻게 기억하는지에 대한 대안적인 관점을 제시합니다. 기존의 가중치 행렬 기반 암기 방식 대신, 임베딩 자체가 관계 구조를 직접 인코딩하고 MLP가 관계 조건부 선택기 역할을 하는 '기하학적' 암기 방식을 제안합니다. 연구진은 이 기하학적 접근법이 단일 레이어에서 로그 스케일의 차원만으로도 충분함을 증명했으며, 이를 다중 홉 추론과 연결하여 용량-깊이 트레이드오프를 분석했습니다.
핵심 포인트
- 트랜스포머의 사실 기억은 가중치 행렬 기반 암기 외에 '기하학적' 구조 인코딩 방식으로도 가능하다.
- 주체 임베딩은 관련 속성 벡터들의 선형 초포(linear superpositions)로 구성되며, MLP는 관계 조건부 선택기 역할을 수행한다.
- 이 기하학적 접근법은 단일 레이어에서 로그 스케일의 임베딩 차원만으로도 충분함을 이론적으로 증명했다.
- 모델은 특정 사실을 암기하는 것이 아니라 일반적인 '선택 메커니즘'을 학습하여 제로샷 추론 능력을 갖는다.
트랜스포머 언어 모델은 어떻게 사실적 연관 관계를 암기할까요? 일반적인 관점은 내부 가중치 행렬을 임베딩 쌍에 대한 연관 기억으로 간주하며, 이는 사실의 수에 선형적으로 비례하는 매개변수 수를 요구합니다. 우리는 대안적인, 즉 extit{기하학적} 형태의 암기에 대한 이론적 및 경험적 설명을 개발했습니다. 이 방식에서는 학습된 임베딩이 관계 구조를 직접 인코딩하며, MLP는 질적으로 다른 역할을 수행합니다. 단일 레이어 트랜스포머가 주체(subject)에서 공유 속성 집합으로 가는 무작위 전단사 함수(bijections)를 암기해야 하는 통제된 환경에서, 우리는 로그 스케일의 임베딩 차원만 충분함을 증명합니다. 여기서 주체 임베딩은 자신과 관련된 속성 벡터들의 extit{선형 초포(linear superpositions)}를 인코딩하며, 작은 MLP는 연관적 키-값 매핑으로 작동하는 것이 아니라 ReLU 게이팅을 통해 관련 속성을 추출하는 관계 조건부 선택기(relation-conditioned selector) 역할을 합니다. 우리는 이러한 결과를 다중 홉(multi-hop) 설정—예: 'x의 아내의 어머니는 누구인가?'와 같은 관계 질의 체인—으로 확장하여, 생각의 사슬(chain-of-thought) 유무에 따른 구성과 함께 증명 가능한 용량-깊이 트레이드오프를 제공하며, 이는 일치하는 정보 이론적 하한(information-theoretic lower bound)으로 보완됩니다. 경험적으로 볼 때, 경사 하강법(gradient descent)은 정확히 예측된 구조를 가진 해답을 발견합니다.
학습된 후, MLP는 주어 임베딩(subject embeddings)이 적절하게 재초기화될 때 완전히 새로운 전단사(bijections)로 제로샷(zero-shot)을 전달하며, 이는 특정 사실들의 집합을 암기한 것이 아니라 일반적인 선택 메커니즘을 학습했음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기