본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 26. 12:53

Geometric Evolution Maps: Transformer Residual Streams에서 안정적인 Concept Probe 추출하기

요약

Transformer의 잔차 스트림 내 개념 표현이 겪는 방향 회전 현상을 분석하고, 안정적인 개념 프로브를 추출하기 위한 GEMs 방법론을 제안합니다. GEMs는 개념이 정착되는 Handoff Layer를 식별하여 기존 방식보다 정밀한 프로빙을 가능하게 합니다.

핵심 포인트

  • 개념 표현은 조립 단계에서 상당한 방향 회전을 거침
  • GEMs를 통해 개념의 방향 궤적과 Handoff Layer 식별 가능
  • GEMs 프로브가 기존 Peak-layer 방식보다 높은 정밀도 기록
  • MHA 모델에서 Handoff 방식이 특히 효과적임
  • 적응형 Ablation 규칙을 통해 프로브 품질 개선 가능

Transformer Residual Streams (잔차 스트림)에서 추출된 Concept Probes (개념 프로브)는 추출된 레이어의 신뢰도만큼만 신뢰할 수 있습니다. 고정된 후기 레이어 또는 분리 점수 함수 (separation score function)의 정점에서 프로빙을 수행하는 일반적인 관행은 근본적인 구조적 특징을 간과합니다. 즉, 개념 표현 (concept representations)은 조립 단계 (assembly phase) 동안 상당한 방향 회전 (directional rotation)을 거치며, 주요 Concept Allocation Zone (CAZ, 개념 할당 구역) 이후의 특징적인 Handoff Layer (인계 레이어)에 도달하기 전까지는 안정적인 방향으로 정착하지 않습니다.

본 논문에서는 Geometric Evolution Maps (GEMs)를 소개합니다. GEMs는 Residual Stream (잔차 스트림) 활성화를 통해 개념의 전체적인 방향 궤적 (directional trajectory)을 추적하고, 회전이 멈추는 Handoff Layer를 식별하며, 해당 레이어로부터 정착된 Probe Direction (프로브 방향)을 추출합니다. 70M에서 14B 파라미터에 이르는 23개의 아키텍처와 17가지 개념 유형에 걸쳐 실험한 결과, CAZ 내에서의 진입 대비 종료 시점의 Cosine Similarity (코사인 유사도) 평균은 0.233으로 나타났으며, 이는 CAZ 진입 시의 프로브 방향이 종료 시점의 프로브 방향을 안정적으로 예측하지 못함을 보여줍니다.

391개의 개념 x 모델 쌍 (23개 모델 x 17개 개념)에 대한 Ablation (절제) 실험 결과, GEM으로 추출된 프로브는 391회 중 268회(68.5%)에서 Peak-layer (정점 레이어) 프로브만큼 정밀했으며, 259회(66.2%)에서는 이를 엄격히 능가했습니다. 아키텍처별 차이는 뚜렷했습니다. MHA (Multi-Head Attention) 모델은 221회 중 173회(78.3%)에서 Handoff 방식이 유리했습니다. 반면 GQA (Grouped-Query Attention) 모델은 119회 중 56회(47.1%)에서만 Handoff 방식이 유리했습니다. 모델 수준의 Wilcoxon 검정 결과는 W=214, N=23, p=0.010 (단측 검정)입니다.

적응형 Ablation Width (절제 폭) 규칙은 391개 중 79개의 최종 레이어 근접 사례를 대상으로 하며, 트리거된 79개 사례 중 60개(75.9%)에서 프로브 품질을 개선하여 평균 +7.44pp의 이득을 보였습니다. 방향 특이성 (direction-specificity) 대조 실험을 통해 Ablation 효과가 개념 방향에 특이적임을 확인했습니다: 무작위 방향 Ablation 대비 중앙값 377배의 억제율을 기록했습니다 (개념 방향의 99.1%가 10개의 무작위 시드를 모두 이김). 레퍼런스 구현체: rosetta_tools v1.3.1 (doi:10.5281/zenodo.20361433).

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0