arXiv논문2026. 05. 11. 22:16

취약성(Susceptibilities)을 이용한 강화학습 에이전트 해석

요약

본 기사는 신경망 해석 가능성 기법인 '취약성(Susceptibilities)'을 심층 강화학습(DRL) 분야의 후회(regret) 설정으로 확장하여 그 유용성을 탐구한다. 취약성은 관찰 가능한 값의 사후 기대값이 손실에 대한 섭동에 어떻게 반응하는지를 측정하며, 이를 통해 학습된 정책이 발전하는 과정에서 발생하는 내부적인 모델 특징들을 밝혀낼 수 있다. 연구진은 활성화 스티어링(activation-steering)을 사용하여 이 결과를 검증하고, RLHF 후 훈련에 적용할 프레임워크 확장을 논의한다.

핵심 포인트

취약성(Susceptibilities)은 신경망 해석 가능성을 측정하는 기법으로, 손실 함수에 대한 섭동 반응을 분석한다.
이 기법을 강화학습의 후회(regret) 설정으로 일반화하여 적용함으로써 새로운 통찰력을 얻는다.
취약성은 단순히 정책 발전만을 보는 것이 아니라, 매개변수 공간 내 모델 발전의 내부 특징들을 드러내는 데 유용하다.
활성화 스티어링을 통해 취약성의 효과를 검증하고, RLHF 후 훈련에 적용할 수 있는 프레임워크 확장을 제시한다.

취약성(Susceptibilities)은 관찰 가능한 값의 사후 기대값(posterior expectation values of observables)이 손실(loss)에 대한 섭동(perturbations)에 어떻게 반응하는지를 연구하는 신경망 해석 가능성 기법입니다. 우리는 이 구성을 심층 강화학습(deep reinforcement learning)에서의 후회(regret) 설정으로 일반화하고, 그럼에도 불구하고 자명하지 않은 단계별 발전(non-trivial stagewise development)을 보이는 간단한 그리드월드 모델에서 취약성의 유용성을 조사합니다. 우리는 취약성이 학습된 정책의 발전만을 연구해서는 감지할 수 없는, 매개변수 공간(parameter space) 내에서 모델 발전의 내부 특징들을 드러낸다고 주장합니다. 우리는 활성화 스티어링(activation-steering)으로 이러한 결과를 검증하고, RLHF 후 훈련에 대한 프레임워크 확장을 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

취약성(Susceptibilities)을 이용한 강화학습 에이전트 해석

요약

핵심 포인트

댓글