arXiv논문2026. 05. 06. 12:52

Steer Like the LLM: 활성화 조작이 프롬프트 조작을 모방하는 방법

요약

본 논문은 대규모 언어 모델(LLM)의 활성화 조작 기법이 기존의 프롬프트 기반 조작 방식과 성능 격차가 있다는 문제를 다룹니다. 연구진은 프롬프트 조작을 활성화 개입의 한 형태로 공식화하고, 이를 모방하도록 훈련된 Prompt Steering Replacement (PSR) 모델을 제안합니다. 실험 결과, PSR 모델은 다양한 언어 모델에 대해 기존 활성화 조작 방법보다 우수한 성능을 보였으며, 특히 일관성 완성 및 페르소나 유도 측면에서 프롬프팅과 비교해도 경쟁력 있는 결과를 입증했습니다.

핵심 포인트

기존의 LLM 활성화 개입(activation interventions)은 프롬프트 기반 조작 방식만큼 효과적이지 않다는 문제점을 지적합니다.
연구진은 프롬프트 조작을 활성화 공간에서 구현하는 새로운 접근법, Prompt Steering Replacement (PSR) 모델을 개발했습니다.
PSR 모델은 토큰별로 정교하게 개입하여 프롬프트 기반의 미묘한 제어 메커니즘을 모방합니다.
다양한 벤치마크(AxBench, persona steering 등)에서 PSR 모델이 기존 활성화 조작 기법보다 우수하거나 프롬프팅과 유사한 성능을 달성함을 입증했습니다.

대규모 언어 모델은 추론 과정에서 프롬프팅 (prompting) 또는 활성화 개입 (activation interventions) 을 통해 유도할 수 있지만, 활성화 조작 방법은 프롬프트 기반 접근법과 비교하여 종종 성능이 떨어집니다. 우리는 프롬프트 조작을 활성화 조작의 한 형태로 공식화하고, 성공적인 프롬프트 조작 행동을 더 단순하고 해석 가능한 모델로 정제 (distilling) 하여 이 격차를 해소할 수 있는지 조사합니다. 우리의 분석은 인기 있는 활성화 조작 방법들이 프롬프트 조작의 메커니즘에 충실하지 않음을 보여줍니다. 프롬프트 조작은 일부 토큰에는 강력한 개입을 가하고 다른 토큰에는 거의 영향을 미치지 않는 방식입니다. 이러한 통찰을 바탕으로, 활성화 자체에서 토큰별 조작 계수를 추정하고 프롬프트 기반 개입을 모방하도록 훈련된 Prompt Steering Replacement (PSR) 모델을 소개합니다. 다수의 언어 모델에 대한 세 가지 유도 벤치마크 실험은 PSR 모델이 기존 활성화 조작 방법을 능가함을 보여줍니다. 특히 고 일관성 완성 (high-coherence completions) 을 제어할 때 더욱 그렇습니다. 또한 AxBench 와 persona steering 에서 프롬프팅과 비교하여 좋은 성과를 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Steer Like the LLM: 활성화 조작이 프롬프트 조작을 모방하는 방법

요약

핵심 포인트

댓글