arXiv논문2026. 06. 15. 12:28

LLM 개입에 대한 저차원 부분 공간 분석 (A Low-Rank Subspace Analysis of LLM Interventions)

요약

LLM의 특정 행동을 수정할 때 발생하는 의도치 않은 부작용을 분석하기 위해 저차원 부분 공간(low-rank subspaces) 기반의 진단 프레임워크를 제안합니다. 연구 결과, 모델 내부의 행동들이 표현 공간을 공유하며 개입이 비대칭적으로 전파됨을 확인했습니다.

핵심 포인트

LLM 행동을 활성화 공간 내 저차원 부분 공간으로 모델링
행동 간의 내부 표현 공유로 인한 개입의 비대칭적 전파 발견
부분 공간의 중첩도와 결정 부분 공간과의 각도가 개입 효과를 결정
독립적인 행동 제어가 어려운 기하학적 원인 규명

거절(refusal)이나 아첨(sycophancy)과 같이 LLM의 특정 행동을 수정하기 위해 설계된 개입(Interventions)은 종종 다른 행동에서 의도하지 않은 변화를 일으킵니다. 이러한 정밀한 제어의 부족은 신뢰할 수 있는 안전 제어 장치를 설계하고 구현하는 것을 어렵게 만듭니다. 이러한 부작용을 이해하기 위해, 우리는 LLM 내에서 상호작용하는 행동들을 분석하기 위한 진단 프레임워크를 소개합니다. 우리는 행동을 활성화 공간(activation space) 내의 저차원 부분 공간(low-rank subspaces)으로 모델링하고, 개입이 여러 행동에 걸쳐 어떻게 영향을 미치는지 연구합니다. 여러 지시어 미세 조정(instruction-tuned) 모델(7B-70B)과 거절, 탈옥(jailbreak), 아첨 설정 전반에 걸쳐 연구한 결과, 서로 다른 행동들이 내부 표현(internal representations)을 공유하며, 한 행동에 대한 개입이 다른 행동들을 비대칭적인 방식으로 변화시킨다는 것을 발견했습니다. 어떤 행동들은 개입이 다른 행동들로 광범위하게 전파되는 상류 제어 지점(upstream control points) 역할을 하는 반면, 다른 행동들은 더 고립된 상태로 남아 있습니다. 우리는 이러한 효과를 두 가지 기하학적 양과 연결합니다: (i) 주각(principal angles)의 평균 제곱 코사인으로 측정되는 행동 부분 공간 간의 중첩(overlap), 그리고 (ii) 각 행동 부분 공간과 결정 부분 공간(model의 최종 결정, 예: 거절 vs 순응을 포착) 사이의 각도입니다. 경험적으로, 다른 행동에 미치는 개입 효과는 부분 공간 중첩이 더 높은 행동 쌍과, 부분 공간이 결정 부분 공간에 더 가깝게(더 작은 각도로) 위치한 소스 행동(source behaviors)에서 더 큰 경향을 보입니다. 이러한 발견은 정밀한 행동 제어에 있어 하나의 과제를 강조합니다. 즉, 개입이 공유된 표현과 비대칭적 상호작용을 통해 전파될 수 있기 때문에 행동들을 독립적으로 수정하는 것이 어렵다는 점입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 개입에 대한 저차원 부분 공간 분석 (A Low-Rank Subspace Analysis of LLM Interventions)

요약

핵심 포인트

댓글