어떻게 되어가고 있나요? 언어 모델의 강화학습은 기능적 복지 축을 동원합니다
요약
강화학습(RL)이 언어 모델의 내부 표현에서 '기능적 복지(functional welfare)' 축을 어떻게 동원하는지 분석한 연구입니다. RL을 통해 형성된 긍정적/부정적 개념 벡터가 모델의 목표 달성 및 감정적 표현과 밀접하게 연관되어 있음을 밝혀냈습니다.
핵심 포인트
- RL은 모델 내부에 기능적 복지 표현을 동원함
- 보상/처벌 벡터는 서로 거의 역평행 상태를 유지함
- 복지 축은 사후 훈련 시 생성되는 것이 아니라 이미 존재함
- 해석 가능성 및 모델 정렬 연구에 중요한 시사점 제공
강화학습 (Reinforcement Learning, RL)은 언어 모델의 내부 표현 (internal representations)을 어떻게 형성할까요? 우리는 RL이 기존에 존재하는 '기능적 복지 (functional welfare)' 표현, 즉 시스템이 자신의 목표와 비교하여 얼마나 잘하고 있는지 또는 잘못하고 있는지에 대한 추정치를 동원한다는 증거를 제시합니다. 우리는 새롭고 의미론적으로 중립적인 미로 환경에서 여러 언어 모델을 훈련시킵니다. 그런 다음 보상을 받은 궤적 (rewarded trajectories)과 처벌을 받은 궤적 (punished trajectories)에 대한 개념 벡터 (concept vectors)를 추출하고, 미로 환경과 관련이 없는 설정에서 해당 벡터들을 평가합니다. 처벌 벡터는 부정적 복지의 표현처럼 동작합니다. 즉, 실패 및 불가능 토큰을 촉진하고, 부정적 감정 개념과 정렬되며, 목표 달성과 음의 상관관계를 보이고, 이 벡터로 스티어링 (steering)을 하면 부정적인 자기 보고 (self-reports), 병리적인 역추적 (backtracking), 거부, 그리고 불확실성을 유도합니다. 긍정적 보상 벡터는 이와 거울 이미지처럼 동작하며, 두 벡터는 거의 역평행 (antiparallel) 상태입니다. 이러한 효과는 타일-보상 매핑, 규모, 지시어 튜닝 (instruct tuning), RL 훈련 알고리즘, 모델 제품군, 그리고 LoRA 대 전체 미세 조정 (full-finetuning)을 통제했을 때도 견고하게 나타나며, RL을 지도 미세 조정 (Supervised Fine-Tuning, SFT)으로 대체하더라도 대부분 유지됩니다. 중요한 점은, 이 벡터들이 미로 훈련을 거치기 전의 모델에서도 효과적이라는 것입니다. 이러한 효과가 사전 학습 전용 (pretrain-only) 모델에서도 나타난다는 관찰 결과와 결합하여, 우리는 이 기능적 복지 축이 사후 훈련 (post-training) 단계에서 생성되는 것이 아니라, 사후 훈련에 의해 동원되는 것이며 사후 훈련 이전에 이미 존재한다고 주장합니다. 우리가 복지의 어떤 경험에 대해 주장하는 것은 아니지만, 이 축은 최소한의 보상 신호가 기존의 복지와 유사한 표현을 동원함으로써 모델의 행동에 광범위하게 영향을 미칠 수 있음을 보여주며, 이는 해석 가능성 (interpretability), 사후 훈련 역학 (post-training dynamics), 그리고 정렬 (alignment) 측면에 시사점을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기