arXiv논문2026. 06. 10. 12:15

추론 모델의 미래 행동 예측을 통한 향상된 스티어링 (Steering) 방법론

요약

대규모 추론 모델(LRM)의 출력을 제어할 때 발생하는 품질 저하 문제를 해결하기 위해, 기존의 감지 특징 대신 미래 행동을 예측하는 내부 예측 특징을 활용하는 방법론을 제안합니다. 새로운 FPCG 기법은 출력 품질을 유지하면서도 정교한 스티어링을 가능하게 합니다.

핵심 포인트

기존 스티어링 방식의 한계인 출력 품질 저하 문제 지적
감지 특징과 내부 예측 특징의 차이 규명
미래 행동을 예측하는 활성화 프로브 훈련 및 활용
FPCG 기법을 통한 품질 저하 없는 텍스트 스티어링 구현

배포된 대규모 추론 모델 (LRMs)은 종종 예상치 못한 방식으로 동작합니다. 테스트 시간 스티어링 (Test-time steering)은 은닉 표현 (hidden representations)에 개입하여 LRM의 출력을 제어하지만, 이는 출력 품질을 저하시킬 수 있습니다. 본 연구에서는 기존의 스티어링 연구들이 이미 생성된 텍스트 내의 행동을 감지하는 내부 특징 (internal features)에 암묵적으로 의존하고 있다고 주장합니다. 우리는 이러한 감지 특징 (detection features)이 미래의 행동 결과에 대한 예측력이 낮으며, 따라서 자연스러운 개입 대상이 아니라는 점을 보여줍니다. 대신, 우리는 중간 추론 단계로부터 미래 행동 가능성을 예측하도록 활성화 프로브 (activation probes)를 훈련합니다. 이 프로브들은 64%~91%의 정확도로 가장 가능성 높은 행동을 예측하며, 이는 별개의 유형인 내부 예측 특징 (internal prediction features)이 존재함을 드러냅니다. 이러한 예측 특징을 기반으로, 우리는 텍스트 수준의 스티어링 방법인 미래 프로브 제어 생성 (Future Probe Controlled Generation, FPCG)을 소개합니다. FPCG는 여러 후보 문장을 샘플링하고, 미래 행동 가능성을 예측하는 프로브에 따라 최적의 문장을 선택합니다. 이를 통해 출력 품질 저하를 거의 없이 스티어링을 수행할 수 있습니다. 또한 FPCG는 활성화 스티어링 (activation steering)이 실패하는 여러 평가 환경에서도 스티어링을 가능하게 합니다. 이러한 결과는 감지 특징 (detection features)과 예측 특징 (prediction features)을 구분하는 것이 LRM의 행동을 제어하는 데 있어 더욱 정교한 접근 방식을 가능하게 함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

추론 모델의 미래 행동 예측을 통한 향상된 스티어링 (Steering) 방법론

요약

핵심 포인트

댓글