본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 12:28

LLM 개입에 대한 저차원 부분 공간 분석 (A Low-Rank Subspace Analysis of LLM Interventions)

요약

LLM의 특정 행동을 수정할 때 발생하는 의도치 않은 부작용을 분석하기 위해 저차원 부분 공간(low-rank subspaces) 기반의 진단 프레임워크를 제안합니다. 연구 결과, 모델 내부의 행동들이 표현 공간을 공유하며 개입이 비대칭적으로 전파됨을 확인했습니다.

핵심 포인트

  • LLM 행동을 활성화 공간 내 저차원 부분 공간으로 모델링
  • 행동 간의 내부 표현 공유로 인한 개입의 비대칭적 전파 발견
  • 부분 공간의 중첩도와 결정 부분 공간과의 각도가 개입 효과를 결정
  • 독립적인 행동 제어가 어려운 기하학적 원인 규명

거절(refusal)이나 아첨(sycophancy)과 같이 LLM의 특정 행동을 수정하기 위해 설계된 개입(Interventions)은 종종 다른 행동에서 의도하지 않은 변화를 일으킵니다. 이러한 정밀한 제어의 부족은 신뢰할 수 있는 안전 제어 장치를 설계하고 구현하는 것을 어렵게 만듭니다. 이러한 부작용을 이해하기 위해, 우리는 LLM 내에서 상호작용하는 행동들을 분석하기 위한 진단 프레임워크를 소개합니다. 우리는 행동을 활성화 공간(activation space) 내의 저차원 부분 공간(low-rank subspaces)으로 모델링하고, 개입이 여러 행동에 걸쳐 어떻게 영향을 미치는지 연구합니다. 여러 지시어 미세 조정(instruction-tuned) 모델(7B-70B)과 거절, 탈옥(jailbreak), 아첨 설정 전반에 걸쳐 연구한 결과, 서로 다른 행동들이 내부 표현(internal representations)을 공유하며, 한 행동에 대한 개입이 다른 행동들을 비대칭적인 방식으로 변화시킨다는 것을 발견했습니다. 어떤 행동들은 개입이 다른 행동들로 광범위하게 전파되는 상류 제어 지점(upstream control points) 역할을 하는 반면, 다른 행동들은 더 고립된 상태로 남아 있습니다. 우리는 이러한 효과를 두 가지 기하학적 양과 연결합니다: (i) 주각(principal angles)의 평균 제곱 코사인으로 측정되는 행동 부분 공간 간의 중첩(overlap), 그리고 (ii) 각 행동 부분 공간과 결정 부분 공간(model의 최종 결정, 예: 거절 vs 순응을 포착) 사이의 각도입니다. 경험적으로, 다른 행동에 미치는 개입 효과는 부분 공간 중첩이 더 높은 행동 쌍과, 부분 공간이 결정 부분 공간에 더 가깝게(더 작은 각도로) 위치한 소스 행동(source behaviors)에서 더 큰 경향을 보입니다. 이러한 발견은 정밀한 행동 제어에 있어 하나의 과제를 강조합니다. 즉, 개입이 공유된 표현과 비대칭적 상호작용을 통해 전파될 수 있기 때문에 행동들을 독립적으로 수정하는 것이 어렵다는 점입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0