선형 활성화 스티어링을 넘어: LLM 행동 제어를 위한 가역적 잠재 변환 (Invertible Latent Transformations)
요약
기존 선형 활성화 스티어링의 한계를 극복하기 위해 비선형 가역 잠재 변환을 활용한 INNSteer 프레임워크를 제안합니다. 이 방식은 LLM의 활성화를 제어가 용이한 잠재 공간으로 매핑하여, 생성 유창성을 유지하면서도 정교한 모델 행동 제어를 가능하게 합니다.
핵심 포인트
- 기존 선형 스티어링의 비선형적 매니폴드 대응 한계 해결
- 가역 신경망(INN)을 통한 비선형 및 입력 의존적 개입 구현
- 생성 유창성을 유지하며 모델 제어 성능의 일관된 향상 입증
- 다양한 LLM 규모와 안전성 벤치마크에서 효과 검증
활성화 스티어링 (Activation steering)은 대규모 언어 모델 (LLMs)의 내부 활성화 벡터 (activation vectors)를 원하는 행동 방향으로 수정함으로써, 추론 시점에 모델을 제어할 수 있는 경량화된 메커니즘을 제공합니다. 기존의 대부분의 방법은 평균 차이 (mean differences), 선형 프로브 (linear probes), 또는 임의의 분리 가능성 기준 (separability criteria)을 사용하여 대조적인 예시 쌍으로부터 원래의 활성화 공간 (activation space) 내에서 고정된 스티어링 방향을 계산합니다. 이러한 방법들은 어느 정도 효과적이지만, 행동 제어를 전역적이고 선형적이며 가산적인 오프셋 (additive offset)으로 취급합니다. 즉, 동일한 방향이 모든 입력에 적용되며 행동이 선형적으로 분리 가능하다고 가정합니다. 이는 행동 특징이 활성화 공간 전체에서 비선형적으로 변하거나, 최적의 개입이 입력에 따라 달라질 수 있는 곡선형 및 비등방성 매니폴드 (anisotropic manifolds) 상에 존재하는 경우 제한적일 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 가역적 잠재 변환 (invertible latent transformations)에 기반한 비선형 활성화 스티어링 프레임워크인 INNSteer를 제안합니다. INNSteer는 원래의 표현 공간 (representation space)에서 더 나은 스티어링 벡터를 찾는 대신, LLM의 활성화를 행동 클래스들이 선형 제어에 더 용이한 잠재 공간 (latent space)으로 매핑하는 경량 가역 신경망 (invertible neural network) $φ$를 학습합니다. 추론 시에는 활성화 값이 $φ$를 통해 매핑되고, 잠재 공간에서 스티어링된 후, 정확한 역변환 (inverse transformation)인 $φ^{-1}$를 통해 다시 매핑됩니다. 이를 통해 단순한 잠재 공간 내의 이동 (translation)이 원래의 활성화 공간에서는 비선형적이고 입력 의존적인 개입 (intervention)이 됩니다. 다양한 LLM 제품군, 규모, 행동 특성 및 안전성 벤치마크에 대한 실험 설정 전반에서, INNSteer는 생성 유창성 (generation fluency)을 크게 유지하면서도 선형, 전송 기반 (transport-based) 및 비선형 스티어링 베이스라인 모델들에 비해 일관되게 향상된 모델 제어 성능을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기