arXiv논문2026. 06. 16. 13:13

가치 축(The Value Axis): 언어 모델은 자신이 올바른 경로에 있는지 인코딩하는가

요약

언어 모델이 현재 진행 중인 전략의 성공 가능성을 내부적으로 추적하는지 조사한 연구입니다. Qwen3-8B를 활용해 '가치 축'을 구축하였으며, 모델의 활성화 값이 언어적 자신감과 코드의 정확성을 구별함을 확인했습니다.

핵심 포인트

언어 모델은 목표 달성 가능성을 선형적으로 인코딩함
가치 축 스티어링을 통해 자기 수정 억제 또는 탐색 유도 가능
DPO가 특정 행동에 대한 모델의 내부 가치를 높일 수 있음
사후 학습 및 미세 조정이 모델의 내부 자신감에 영향을 미침

우리는 언어 모델이 현재 진행 중인 전략이 목표를 달성할 가능성으로 정의되는, 현재 궤적(trajectory)의 가치를 내부적으로 추적하는지 조사합니다. 합성된 인컨텍스트 강화학습 (in-context reinforcement learning) 데이터를 사용하여, 우리는 Qwen3-8B를 위한 "가치 (value)" 축을 구축합니다. 우리는 이 축을 따른 활성화 (activations)가 높은 언어적 자신감 대 낮은 자신감, 백트래킹 (backtracking)이 없는 롤아웃 (rollout) 대 백트래킹이 있는 롤아웃, 그리고 올바른 코드 대 손상된 코드를 구별한다는 것을 발견했습니다. 높은 가치 쪽으로 스티어링 (steering)하면 인과적으로 자기 수정 (self-correction)을 억제하고 설명의 장황함을 줄이는 반면, 낮은 가치 쪽으로 스티어링하면 백트래킹과 탐색 (exploration)을 유도합니다. 우리는 직접 선호 최적화 (Direct Preference Optimization, DPO)가 보상받은 행동(예: 특정 단어 사용)의 내부 가치를 높일 수 있으며, 이로 인해 모델이 해당 행동을 보인 후 더 자신감 있게 행동하게 만든다는 것을 입증합니다. 마지막으로, 우리는 실제 환경 (in-the-wild) 설정을 연구하기 위해 가치 축을 적용합니다. 예를 들어, 우리는 사후 학습 (post-training) 이후 Qwen이 정치적으로 민감한 채팅 질의에 대해 낮은 가치를 할당하며, 지도 미세 조정 (supervised fine-tuning)이 학습 도메인 내에서의 내부 자신감을 증가시킨다는 것을 발견했습니다. 우리의 결과는 언어 모델이 기대되는 목표 성공에 대한 추정치를 선형적으로 인코딩하며, 이것이 방향을 추구하는 과정에서의 자신감을 조절한다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

가치 축(The Value Axis): 언어 모델은 자신이 올바른 경로에 있는지 인코딩하는가

요약

핵심 포인트

댓글