본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 16:47

Invariant Features in Language Models: Geometric Characterization and Model

요약

본 논문은 언어 모델(LLM) 내부에서 의미 정보가 어떻게 안정적으로 인코딩되는지 탐구하며, 이러한 '불변성'의 구조와 기원을 밝히는 것을 목표로 합니다. 연구진은 잠재 공간에 로컬 기하학적 프레임워크를 제안하여, 의미적으로 동등한 입력들이 특정 불변 부분공간을 형성한다고 가정합니다. 이를 통해 모델이 의미 변화(paraphrastic change) 중에도 핵심적인 의미 동일성을 보존하는 메커니즘을 기하학적으로 특성화하고, 이 불변 표현을 0-shot 모델 귀속에 적용하여 그 효과를 입증했습니다.

핵심 포인트

  • 의미적 불변성은 언어 모델의 잠재 공간 내 로컬 기하학적 속성으로 이해될 수 있다.
  • 연구진은 의미 변화가 발생하는 방향(방해 방향)과 의미 동일성이 보존되는 부분공간을 분리하는 방법을 제시했다.
  • 불변 구조는 특정 깊이 영역에서 나타나며, 이는 모델의 출력에 대한 원인적 역할을 할 수 있음을 시사한다.
  • 제안된 불변 표현은 0-shot 모델 귀속(model attribution) 작업에 성공적으로 적용되어 의미 보존 능력을 입증했다.

언어 모델은 파라프레이징에 대한 강력한 견고성을 보이며, 의미 정보가 안정적인 내부 표현을 통해 인코딩될 수 있음을 시사하지만, 이러한 불변성의 구조와 기원은 여전히 명확하지 않습니다. 우리는 잠재 공간에서 의미적으로 동등한 입력이 구조화된 영역을 차지하며, 파라프래시틱 변화는 방해 방향을 따라, 불변 부분공간에서는 의미적 동일성이 보존되는 것을 가정하는 로컬 기하학적 프레임워크를 제안합니다. 이 관점을 바탕으로 우리는 세 가지 기여를 합니다: (1) 불변 잠재 특징의 기하학적 특성화, (2) 의미 변화를 구분하고 의미 보존 변화를 분리하는 대비 부분공간 발견 방법, 그리고 (3) 불변 표현을 0-shot 모델 귀속에 적용합니다. 모델과 레이어를 가로지르는 경험적 결과는 이러한 기여들을 지지합니다. 불변 구조는 특정 깊이 영역에서 나타납니다, 의미적 이위는 주로 방해 부분공간 밖에 있으며, 표현 수준의 개입은 불변 구성 요소가 모델 출력에 대한 원인과 결과적인 역할을 있음을 시사합니다. 불변 표현은 또한 모델 특유의 기하학적 패턴을 포착하여 정확한 귀속을 가능하게 합니다. 이러한 발견들은 의미적 불변성이 잠재 표현의 로컬 기하학적 속성으로 볼 수 있으며, 언어 모델이 의미를 조직하는 방식을 이해하는 원칙적인 관점을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0