자기 성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습 (Self-Explanation Training)

언어 모델(LM)이 자신의 예측에 대한 설명을 생성하도록 학습할 때, 언제 표면적인 모방이 아닌 충실한 자기 성찰(faithful introspection)을 생성하게 될까요? 우리는 모델의 수정된 입력에 대한 반사실적 행동(counterfactual behavior)을 감독(supervision)으로 사용하여, 입력의 어떤 특징이 모델의 행동에 영향을 미쳤는지 설명하도록 학습된 LM을 연구합니다. 놀랍게도, 우리는 모델 자신의 이전 체크포인트나 심지어 행동적으로 유사한 다른 계열의 모델로부터 유도된 고정된 반사실적 설명(counterfactual explanations)으로 학습된 LM이, 학습 대상의 설명보다 자신의 현재 행동에 더 충실한 설명을 빈번하게 생성한다는 것을 발견했습니다. 이러한 LM의 설명과 행동 사이의 "자기 성찰적(introspective)" 결합은, 행동 자체가 변화하더라도 학습 과정 동안 설명이 현재의 행동과 충분히 상관관계를 유지할 때 발생합니다. 또한 우리는 자기 성찰적 결합이 행동의 변화를 추적한다는 것을 보여줍니다. 즉, 설명 학습이 다른 사후 학습(post-training) 목표와 동시에 제공될 때, 설명은 업데이트된 감독 없이도 해당 변화를 추적합니다. 이 현상은 아첨(sycophancy) 및 거부(refusal)를 포함한 여러 작업에서 나타나며, 레이블 노이즈(label noise)에도 견고합니다. 전반적으로, 우리의 결과는 고정된 반사실적 설명 데이터셋조차 자기 성찰을 위한 확장 가능하고 일반화 가능한 사후 학습 신호를 제공할 수 있음을 보여줍니다.

Insights

자기 성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습 (Self-Explanation Training)

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들