arXiv논문2026. 05. 19. 13:21

중첩 상태의 표현 매니폴드(Representation Manifolds) 탐색

요약

본 논문은 중첩 상태의 표현 매니폴드를 탐색하기 위한 지도 학습 방법론인 'Manifold Probe'를 제안합니다. 이 방법은 선형 회귀 프로브를 일반화하여 모델의 표현 공간 내에서 해석 가능한 특징 공간을 학습하며, Llama 2-7b 모델을 통해 시간 및 공간 개념을 선형적으로 나타내는 매니폴드를 성공적으로 발견했습니다.

핵심 포인트

중첩 상태의 표현 매니폴드를 발견하기 위한 새로운 지도 학습 방법인 Manifold Probe 소개
선형 회귀 프로브를 일반화하여 개념적 특징을 인코딩하는 방향을 학습
Llama 2-7b 모델에서 시간 및 공간에 대한 해석 가능한 매니폴드 추출 성공
매니폴드 스티어링을 통해 모델의 출력(연도 관련 정보 등)을 인과적으로 제어 가능함을 입증

본 논문은 중첩 (superposition) 상태에 있는 표현 매니폴드 (representation manifolds)를 발견하기 위한 지도 학습 방법인 매니폴드 프로브 (Manifold Probe)를 소개합니다. 이 방법은 표현 (representations)으로부터 선형적으로 예측 가능한 개념의 특징 (features) 공간을 학습하고, 이를 인코딩하는 데 사용되는 방향을 학습함으로써 선형 회귀 프로브 (linear regression probes)를 일반화합니다. 우리는 Llama 2-7b의 시간 및 공간 표현에 대해 이 프로브를 시연하였으며, 각 경우에 대해 해석 가능한 특징 세트를 선형적으로 나타내는 매니폴드를 발견했습니다. 시간의 경우, 매니폴드를 따라 스티어링 (steering)함으로써 유명한 노래, 영화, 책이 출시된 연도에 관한 모델의 완성 (completions)에 영향을 미칠 수 있음을 보여주었으며, 이는 매니폴드 프로브가 모델의 동작에 인과적으로 관여하는 매니폴드를 발견할 수 있다는 증거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

중첩 상태의 표현 매니폴드(Representation Manifolds) 탐색

요약

핵심 포인트

댓글