가치 축(The Value Axis): 언어 모델은 자신이 올바른 경로에 있는지 인코딩하는가
요약
언어 모델이 현재 진행 중인 전략의 성공 가능성을 내부적으로 추적하는지 조사한 연구입니다. Qwen3-8B를 활용해 '가치 축'을 구축하였으며, 모델의 활성화 값이 언어적 자신감과 코드의 정확성을 구별함을 확인했습니다.
핵심 포인트
- 언어 모델은 목표 달성 가능성을 선형적으로 인코딩함
- 가치 축 스티어링을 통해 자기 수정 억제 또는 탐색 유도 가능
- DPO가 특정 행동에 대한 모델의 내부 가치를 높일 수 있음
- 사후 학습 및 미세 조정이 모델의 내부 자신감에 영향을 미침
우리는 언어 모델이 현재 진행 중인 전략이 목표를 달성할 가능성으로 정의되는, 현재 궤적(trajectory)의 가치를 내부적으로 추적하는지 조사합니다. 합성된 인컨텍스트 강화학습 (in-context reinforcement learning) 데이터를 사용하여, 우리는 Qwen3-8B를 위한 "가치 (value)" 축을 구축합니다. 우리는 이 축을 따른 활성화 (activations)가 높은 언어적 자신감 대 낮은 자신감, 백트래킹 (backtracking)이 없는 롤아웃 (rollout) 대 백트래킹이 있는 롤아웃, 그리고 올바른 코드 대 손상된 코드를 구별한다는 것을 발견했습니다. 높은 가치 쪽으로 스티어링 (steering)하면 인과적으로 자기 수정 (self-correction)을 억제하고 설명의 장황함을 줄이는 반면, 낮은 가치 쪽으로 스티어링하면 백트래킹과 탐색 (exploration)을 유도합니다. 우리는 직접 선호 최적화 (Direct Preference Optimization, DPO)가 보상받은 행동(예: 특정 단어 사용)의 내부 가치를 높일 수 있으며, 이로 인해 모델이 해당 행동을 보인 후 더 자신감 있게 행동하게 만든다는 것을 입증합니다. 마지막으로, 우리는 실제 환경 (in-the-wild) 설정을 연구하기 위해 가치 축을 적용합니다. 예를 들어, 우리는 사후 학습 (post-training) 이후 Qwen이 정치적으로 민감한 채팅 질의에 대해 낮은 가치를 할당하며, 지도 미세 조정 (supervised fine-tuning)이 학습 도메인 내에서의 내부 자신감을 증가시킨다는 것을 발견했습니다. 우리의 결과는 언어 모델이 기대되는 목표 성공에 대한 추정치를 선형적으로 인코딩하며, 이것이 방향을 추구하는 과정에서의 자신감을 조절한다는 것을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기