본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 19. 13:21

중첩 상태의 표현 매니폴드(Representation Manifolds) 탐색

요약

본 논문은 중첩 상태의 표현 매니폴드를 탐색하기 위한 지도 학습 방법론인 'Manifold Probe'를 제안합니다. 이 방법은 선형 회귀 프로브를 일반화하여 모델의 표현 공간 내에서 해석 가능한 특징 공간을 학습하며, Llama 2-7b 모델을 통해 시간 및 공간 개념을 선형적으로 나타내는 매니폴드를 성공적으로 발견했습니다.

핵심 포인트

  • 중첩 상태의 표현 매니폴드를 발견하기 위한 새로운 지도 학습 방법인 Manifold Probe 소개
  • 선형 회귀 프로브를 일반화하여 개념적 특징을 인코딩하는 방향을 학습
  • Llama 2-7b 모델에서 시간 및 공간에 대한 해석 가능한 매니폴드 추출 성공
  • 매니폴드 스티어링을 통해 모델의 출력(연도 관련 정보 등)을 인과적으로 제어 가능함을 입증

본 논문은 중첩 (superposition) 상태에 있는 표현 매니폴드 (representation manifolds)를 발견하기 위한 지도 학습 방법인 매니폴드 프로브 (Manifold Probe)를 소개합니다. 이 방법은 표현 (representations)으로부터 선형적으로 예측 가능한 개념의 특징 (features) 공간을 학습하고, 이를 인코딩하는 데 사용되는 방향을 학습함으로써 선형 회귀 프로브 (linear regression probes)를 일반화합니다. 우리는 Llama 2-7b의 시간 및 공간 표현에 대해 이 프로브를 시연하였으며, 각 경우에 대해 해석 가능한 특징 세트를 선형적으로 나타내는 매니폴드를 발견했습니다. 시간의 경우, 매니폴드를 따라 스티어링 (steering)함으로써 유명한 노래, 영화, 책이 출시된 연도에 관한 모델의 완성 (completions)에 영향을 미칠 수 있음을 보여주었으며, 이는 매니폴드 프로브가 모델의 동작에 인과적으로 관여하는 매니폴드를 발견할 수 있다는 증거를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0