자기 성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습 (Self-Explanation Training)
요약
언어 모델이 자신의 행동을 충실히 설명하도록 만드는 자기 설명 학습(Self-Explanation Training) 연구를 소개합니다. 고정된 반사실적 설명을 사용하더라도 모델의 행동 변화를 추적하며 충실한 자기 성찰을 생성할 수 있음을 발견했습니다.
핵심 포인트
- 고정된 반사실적 설명 데이터로도 모델의 현재 행동을 추적하는 학습 가능
- 설명과 행동 사이의 '자기 성찰적 결합' 현상 확인
- 아첨(sycophancy) 및 거부(refusal) 현상 등 다양한 작업에서 효과 입증
- 레이블 노이즈에 대한 견고함과 확장 가능한 사후 학습 신호 제공
언어 모델(LM)이 자신의 예측에 대한 설명을 생성하도록 학습할 때, 언제 표면적인 모방이 아닌 충실한 자기 성찰(faithful introspection)을 생성하게 될까요? 우리는 모델의 수정된 입력에 대한 반사실적 행동(counterfactual behavior)을 감독(supervision)으로 사용하여, 입력의 어떤 특징이 모델의 행동에 영향을 미쳤는지 설명하도록 학습된 LM을 연구합니다. 놀랍게도, 우리는 모델 자신의 이전 체크포인트나 심지어 행동적으로 유사한 다른 계열의 모델로부터 유도된 고정된 반사실적 설명(counterfactual explanations)으로 학습된 LM이, 학습 대상의 설명보다 자신의 현재 행동에 더 충실한 설명을 빈번하게 생성한다는 것을 발견했습니다. 이러한 LM의 설명과 행동 사이의 "자기 성찰적(introspective)" 결합은, 행동 자체가 변화하더라도 학습 과정 동안 설명이 현재의 행동과 충분히 상관관계를 유지할 때 발생합니다. 또한 우리는 자기 성찰적 결합이 행동의 변화를 추적한다는 것을 보여줍니다. 즉, 설명 학습이 다른 사후 학습(post-training) 목표와 동시에 제공될 때, 설명은 업데이트된 감독 없이도 해당 변화를 추적합니다. 이 현상은 아첨(sycophancy) 및 거부(refusal)를 포함한 여러 작업에서 나타나며, 레이블 노이즈(label noise)에도 견고합니다. 전반적으로, 우리의 결과는 고정된 반사실적 설명 데이터셋조차 자기 성찰을 위한 확장 가능하고 일반화 가능한 사후 학습 신호를 제공할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기