Invariant Features in Language Models: Geometric Characterization and Model

언어 모델은 파라프레이징에 대한 강력한 견고성을 보이며, 의미 정보가 안정적인 내부 표현을 통해 인코딩될 수 있음을 시사하지만, 이러한 불변성의 구조와 기원은 여전히 명확하지 않습니다. 우리는 잠재 공간에서 의미적으로 동등한 입력이 구조화된 영역을 차지하며, 파라프래시틱 변화는 방해 방향을 따라, 불변 부분공간에서는 의미적 동일성이 보존되는 것을 가정하는 로컬 기하학적 프레임워크를 제안합니다. 이 관점을 바탕으로 우리는 세 가지 기여를 합니다: (1) 불변 잠재 특징의 기하학적 특성화, (2) 의미 변화를 구분하고 의미 보존 변화를 분리하는 대비 부분공간 발견 방법, 그리고 (3) 불변 표현을 0-shot 모델 귀속에 적용합니다. 모델과 레이어를 가로지르는 경험적 결과는 이러한 기여들을 지지합니다. 불변 구조는 특정 깊이 영역에서 나타납니다, 의미적 이위는 주로 방해 부분공간 밖에 있으며, 표현 수준의 개입은 불변 구성 요소가 모델 출력에 대한 원인과 결과적인 역할을 있음을 시사합니다. 불변 표현은 또한 모델 특유의 기하학적 패턴을 포착하여 정확한 귀속을 가능하게 합니다. 이러한 발견들은 의미적 불변성이 잠재 표현의 로컬 기하학적 속성으로 볼 수 있으며, 언어 모델이 의미를 조직하는 방식을 이해하는 원칙적인 관점을 제공합니다.

Insights

Invariant Features in Language Models: Geometric Characterization and Model

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유