arXiv논문2026. 06. 23. 12:17

ORBIT: 직교 부분 공간 회전을 통한 훈련이 필요 없는 다중 속성 행동 제어

요약

ORBIT은 훈련 없이 언어 모델의 여러 행동 속성을 동시에 제어할 수 있는 새로운 기술입니다. SVD를 활용한 직교 부분 공간 회전 방식을 통해 기존 방식의 노름 불균형과 방향성 상쇄 문제를 해결합니다.

핵심 포인트

SVD 기반의 단일 노름 보존 회전으로 다중 속성 제어
기존 방식 대비 출력 일관성 및 속성 제어 균형 향상
새로운 다중 속성 벤치마크인 TraitFactory 도입
Llama 및 Qwen 모델을 통한 성능 검증 완료

언어 모델(Language models)은 어시스턴트 환경에서 널리 사용되며, 이러한 환경에서는 행동 속성(behavioral attributes)을 제어하는 것이 필수적인 경우가 많습니다. 활성화 스티어링(Activation steering)은 추론 시점에 은닉 상태(hidden-state) 표현을 수정하여, 런타임에 토글할 수 있는 가볍고 훈련이 필요 없는(training-free) 메커니즘을 제공합니다. 그러나 기존 방법들은 주로 한 번에 하나의 속성만을 제어하는 데 집중해 왔습니다. 여러 속성을 동시에 제어해야 할 때, 속성별 스티어링 벡터(steering vectors)를 단순히 합산하는 방식은 노름 불균형(norm imbalance)과 방향성 상쇄(directional cancellation) 문제를 겪으며, 분류기 기반(classifier-based) 접근 방식은 속성 세트가 변경될 때마다 재학습을 요구합니다. 우리는 회전 기반 스티어링을 다중 속성 설정으로 확장한 훈련이 필요 없는 기술인 ORBIT(Orthogonal Rotation-Based Intervention Technique)을 소개합니다. 우리의 방법은 특이값 분해(singular value decomposition, SVD)를 통해 속성별 스티어링 평면으로부터 결합된 부분 공간(joint subspace)을 구축하고, 해당 부분 공간 내에서 결합된 목표 방향을 향해 단일 노름 보존 회전(norm-preserving rotation)을 적용합니다. 적응형 토큰별 게이팅(Adaptive per-token gating)은 각 위치에서 어떤 속성을 수정해야 하는지 식별하며, 선택적인 가산 부스트(additive boost)는 초기 투영(initial projection)이 약한 속성을 강화합니다. 또한 우리는 표면적인 스타일보다는 행동적 성향에 초점을 맞춘 새로운 다중 속성 벤치마크인 TraitFactory를 도입합니다. 우리는 세 가지 모델(Llama-3.2-3B, Qwen-2.5-7B, Llama-3.1-8B)을 대상으로 TraitFactory와 ToneBank에서 여러 속성을 동시에 제어하며 ORBIT를 평가하였으며, ORBIT가 기존의 훈련이 필요 없는 베이스라인(baselines)보다 출력 일관성(output coherence)을 더 잘 유지하면서도 더 강력하고 균형 잡힌 다중 속성 스티어링을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ORBIT: 직교 부분 공간 회전을 통한 훈련이 필요 없는 다중 속성 행동 제어

요약

핵심 포인트

댓글