본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 16:54

언어 모델의 컨텍스트 기반 선형 활성화 스티어링 (Contextual Linear Activation Steering)

요약

본 논문은 컨텍스트 기반 선형 활성화 스티어링(CLAS)이라는 새로운 방법을 제안합니다. CLAS는 입력 컨텍스트에 따라 동적으로 적응하는 스티어링 강도를 적용하여, 기존 방법들이 가졌던 일관성 부족 문제를 해결했습니다. 이 방법은 제한된 라벨링 데이터 환경에서 대규모 언어 모델을 전문화하고 행동을 유도하는 데 매우 효과적이며, 기존의 최신 기술들(ReFT, LoRA 등)과 비교해도 우수한 성능을 보여줍니다.

핵심 포인트

  • CLAS는 컨텍스트 의존적인 스티어링 강도를 동적으로 적용하여 모델 전문화의 정확성을 높입니다.
  • 기존 선형 활성화 스티어링 방법들이 모든 토큰에 고정된 강도를 사용해 발생하는 일관성 문제를 해결했습니다.
  • 제한된 라벨링 데이터 환경에서도 ReFT나 LoRA와 동등하거나 그 이상의 성능을 달성합니다.
  • CLAS는 대규모 언어 모델(LLM)의 전문화 및 행동 유도에 있어 확장 가능하고 해석 가능한 방법론으로 제시됩니다.

선형 활성화 스티어링 (linear activation steering) 은 제한된 라벨링 데이터를 사용하여 대규모 언어 모델 (large language models) 의 능력을 이끌어내고 그 행동을 전문화하는 데 강력한 접근법입니다. 효과적이기는 하지만, 기존 방법들은 종종 모든 토큰에 고정된 스티어링 강도를 적용하여 다양한 입력 프롬프트에 걸쳐 일관성 없는 스티어링 품질을 초래합니다. 본 연구에서는 컨텍스트 기반 선형 활성화 스티어링 (Contextual Linear Activation Steering, CLAS) 을 소개합니다. CLAS 는 컨텍스트 의존적 스티어링 강도에 동적으로 적응하는 선형 활성화 스티어링 방법입니다. 11 개의 스티어링 벤치마크와 4 가지 모델 패밀리에서 CLAS 는 표준 선형 활성화 스티어링을 일관되게 능가하며, 제한된 라벨링 데이터 환경에서는 ReFT 와 LoRA 의 성능과 맞먹거나 이를凌驾합니다. 따라서 우리는 CLAS 를 대규모 언어 모델을 전문화하고 스티어링하기 위한 확장 가능하고 해석 가능하며 정확한 방법으로 제안합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0