arXiv논문2026. 06. 12. 11:57

신경 모델 편집을 위한 강화학습

요약

본 논문은 신경 모델 편집 과정을 강화학습(RL) 문제로 공식화한 탐색적 프레임워크를 제시합니다. 이 프레임워크는 에이전트가 보상 피드백을 통해 모델 가중치를 수정하며, 유틸리티 유지와 작업별 목표 달성을 결합합니다. 이를 통해 편향 완화 및 기계적 망각 같은 복잡한 편집 작업을 자동 학습할 수 있음을 입증했습니다.

핵심 포인트

신경 모델 편집을 강화학습 문제로 공식화함.
MaskWorld(곱셈 조정)와 ShiftWorld(가산 업데이트) 환경 제시.
보상 피드백으로 전반적 성능 유지 및 목표 수정 가능.
기계적 망각에서 90% 이상의 정확도 보존 입증.

사전 훈련된 신경망(neural networks)을 편집하려면 특정 목표에 맞춰진 전문 알고리즘이 필요합니다. 이러한 알고리즘을 설계하는 것은 시간이 많이 걸리고 상당한 노력을 요구합니다. 우리는 신경 모델 편집을 강화학습(Reinforcement Learning, RL) 문제로 공식화하는 탐색적 프레임워크를 제시합니다. 이 프레임워크에서는 에이전트들이 보상 피드백(reward feedback)을 사용하여 모델을 수정합니다. 우리는 두 가지 환경을 소개합니다: 에이전트가 가중치(weights)를 곱셈적으로 조정하는 MaskWorld와, 에이전트가 가산적 가중치 업데이트를 적용하는 ShiftWorld입니다. 보상 함수는 유틸리티 보존 목표(utility-preservation objective)와 작업별 편집 목표(task-specific editing objective)를 결합하여, 에이전트들이 전반적인 모델 성능을 유지하면서도 목표화된 수정 사항을 학습할 수 있도록 합니다. 우리는 이 프레임워크를 텍스트 분류에서의 편향 완화(bias mitigation)와 이미지 분류에서의 기계적 망각(machine unlearning)에 대해 평가합니다. 이 두 작업은 전통적으로 전문 알고리즘에 의존해 왔습니다. 우리의 결과는 학습된 정책이 망각 세트 정확도(forget set accuracy)를 거의 0%까지 줄이는 동시에, 망각 작업에서 90% 이상의 유지 세트 정확도(retain set accuracy)를 보존함을 보여줍니다. 편향 완화 설정에서는, 학습된 정책이 일반 분류 유틸리티를 유지하면서도 편향 관련 성능을 5% 이상 향상시킵니다. 우리의 발견은 신경 모델 편집이 강화학습 문제로 구성될 수 있음을 보여주며, 이를 통해 편집 정책을 각 작업에 대해 수동으로 설계하는 대신 보상 피드백으로부터 학습할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신경 모델 편집을 위한 강화학습

요약

핵심 포인트

댓글