Don't Lose Focus: Activation Steering via Key-Orthogonal Projections

Activation steering 는 내부 표현을 개입하여 LLM 의 행동을 목표 행동으로 제어하지만, 종종 추론 및 검색 성능을 저하시킵니다. 우리는 이 트레이드오프의 주요 원인이 attention rerouting(주의 재분배)임을 주장합니다. Steering vectors 는 query-key matching 을 변경하여 주의가 문맥적으로 중요한 토큰에서 정보량이 적은 토큰으로 이동하게 만듭니다. 이를 해결하기 위해, 추론 및 검색에 의존하는 작은 세트의 focus tokens(주요 토큰) 에서 attention pattern 을 보존하면서 덜 중요한 tail tokens(꼬리 토큰) 간 재분배를 허용하는 SKOP (Steering via Key-Orthogonal Projections) 을 제안합니다. 여러 steering benchmarks 를 통해, SKOP 가 utility degradation 을 5-7x 줄이고 vanilla steering efficacy 의 95% 이상을 유지하며 최고의 joint steering-utility trade-off 를 달성함을 보여줍니다. 또한, vanilla steering 접근법이 비효율적인 long-context retrieval settings(긴 컨텍스트 검색 환경) 에서 SKOP 는 attention rerouting 을 피함으로써 견고한 성능을 유지할 수 있음을 시사합니다.

Insights

Don't Lose Focus: Activation Steering via Key-Orthogonal Projections

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유