본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 16:51

Don't Lose Focus: Activation Steering via Key-Orthogonal Projections

요약

본 논문은 LLM의 행동 제어 기법인 Activation Steering이 종종 추론 및 검색 성능 저하를 초래하는 문제를 다룹니다. 연구진은 이 문제의 원인을 주의 재분배(attention rerouting)로 진단하고, 이를 해결하기 위해 Key-Orthogonal Projections (SKOP)이라는 새로운 방법을 제안합니다. SKOP는 중요한 'focus tokens'의 어텐션 패턴을 보존하면서 덜 중요한 'tail tokens' 간의 재분배만 허용하여, 성능 저하를 크게 줄이면서도 효과적인 행동 제어를 가능하게 합니다.

핵심 포인트

  • Activation Steering은 LLM의 목표 행동 제어에 유용하지만, 주의 재분배(attention rerouting)로 인해 성능 저하가 발생한다.
  • 제안된 SKOP (Steering via Key-Orthogonal Projections)는 핵심 토큰의 어텐션 패턴을 유지하면서 덜 중요한 토큰 간의 재분배만 허용하는 방식으로 작동한다.
  • SKOP는 기존 방식 대비 유틸리티 저하를 5~7배 줄이면서도, 원래의 제어 효과(efficacy)의 95% 이상을 유지하여 최적의 성능 균형점을 제공한다.
  • 특히 긴 컨텍스트 검색 환경에서 SKOP는 주의 재분배를 회피함으로써 기존 방식보다 더 견고한 성능을 보여준다.

Activation steering 는 내부 표현을 개입하여 LLM 의 행동을 목표 행동으로 제어하지만, 종종 추론 및 검색 성능을 저하시킵니다. 우리는 이 트레이드오프의 주요 원인이 attention rerouting(주의 재분배)임을 주장합니다. Steering vectors 는 query-key matching 을 변경하여 주의가 문맥적으로 중요한 토큰에서 정보량이 적은 토큰으로 이동하게 만듭니다. 이를 해결하기 위해, 추론 및 검색에 의존하는 작은 세트의 focus tokens(주요 토큰) 에서 attention pattern 을 보존하면서 덜 중요한 tail tokens(꼬리 토큰) 간 재분배를 허용하는 SKOP (Steering via Key-Orthogonal Projections) 을 제안합니다. 여러 steering benchmarks 를 통해, SKOP 가 utility degradation 을 5-7x 줄이고 vanilla steering efficacy 의 95% 이상을 유지하며 최고의 joint steering-utility trade-off 를 달성함을 보여줍니다. 또한, vanilla steering 접근법이 비효율적인 long-context retrieval settings(긴 컨텍스트 검색 환경) 에서 SKOP 는 attention rerouting 을 피함으로써 견고한 성능을 유지할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0