arXiv논문2026. 05. 07. 17:47

Manifold Steering Reveals the Shared Geometry of Neural Network Representation

요약

본 논문은 신경망 표현(Neural representations)이 지닌 복잡한 기하학적 구조가 실제 행동을 인과적으로 형성하는지 탐구한다. 연구진은 활성화 공간에서 정의된 '매니폴드 스티어링(Manifold Steering)'이라는 방법을 사용하여, 모델의 내부 표현($M_h$)을 특정 행동 매니폴드($M_y$)를 따라 조작함으로써 자연스러운 행동 궤적을 생성함을 입증했다. 이 접근 방식은 기존의 유클리드 기하학 기반 선형 스티어링이 비자연적인 결과를 초래하는 한계를 극복하고, 표현의 기하학이 원칙적인 제어를 가능하게 하는 핵심 요소임을 보여준다.

핵심 포인트

신경망 활성화 공간의 복잡한 기하학적 구조를 활용하여 행동을 인과적으로 조작할 수 있다.
Manifold Steering은 모델의 내부 매니폴드($M_h$)가 목표 행동 매니폴드($M_y$)를 따라 움직이도록 개입하는 방법이다.
기존 선형 스티어링 방식은 기하학적 제약(off-manifold)을 무시하여 비자연스러운 출력을 생성할 수 있다.
표현의 기하학과 행동 간에 양방향 관계가 존재하며, 이는 언어 모델 및 물리 역학 기반 월드 모델 등 다양한 작업에서 검증되었다.

신경 표현 (Neural representations) 은 풍부한 기하학적 구조를 지니고 있지만, 해당 구조가 행동 (behavior) 을 인과적으로 형성하는가? 이 질문에 답하기 위해 우리는 활성화 공간 (activation space) 을 통해 정의된 서로 다른 기하학에 따른 경로를 따라 개입 (intervene) 하고, 그로 인해 유도되는 행동 궤적 (behavioral trajectories) 을 측정합니다. 구체적으로, 우리는 활성화 공간의 기하학을 존중하는 개입이 모델이 자연스럽게 보이는 행동과 유사한 결과를 낳는지 테스트합니다. 구체적으로, 우리는 먼저 표현에 활성화 manifold $M_h$ 를 적합시키고 출력 확률 분포에 행동 manifold $M_y$ 를 적합시킵니다. 그런 다음 우리는 개입을 통해 $M_h \leftrightarrow M_y$ 간의 연결성을 테스트합니다: 우리는 $M_h$ 를 따라 스티어링 (steering) 을 수행하는 것을 발견했는데, 이를 manifold steering(Manifold Steering)이라 부릅니다. 이는 $M_y$ 를 따르는 행동 궤적을 생성하며, 반면 Euclidean 기하학을 가정하는 선형 스티어링 (linear steering) 은 off-manifold 영역을 통과하여 비자연스러운 출력 (unnatural outputs) 을 생성합니다. 또한, 활성화 공간에서 개입을 최적화하여 $M_y$ 를 따라 경로를 생성하면 $M_h$ 의 곡선을 추적하는 활성화 궤적을 복원합니다. 우리는 작업과 모달리티 (modalities) 를 통해 표현의 기하학과 행동 간의 양방향 관계를 증명했습니다. 언어 모델 (language models) 에서는 순환 및 시퀀스 기하학이 있는 추론 과제와 더 복잡한 그래프 기하학이 있는 in-context learning 과제를 사용했습니다. 비디오 월드 모델 (video world model) 에서는 물리 역학에 해당하는 기하학을 가진 과제를 사용했습니다. 전체적으로, 우리의 작업은 신경 표현의 기하학이 단순한 우연이 아니라 내부 개입을 통한 원칙적인 제어 (principled control) 를 가능하게 하는 적절한 대상임을 보여줍니다. 이는 스티어링의 핵심 문제를 올바른 방향 찾기에서 올바른 기하학 찾기로 재정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Manifold Steering Reveals the Shared Geometry of Neural Network Representation

요약

핵심 포인트

댓글