RLVR 유도 추론을 위한 메커니즘 가이드 선택적 언러닝 (Mechanism-Guided Selective Unlearning)
요약
RLVR 유도 추론을 효과적으로 언러닝하기 위한 새로운 메커니즘 가이드 방식인 MAST를 제안합니다. MAST는 어텐션 투영 텐서를 기반으로 특정 서브셋만 업데이트하여, 기존 방식보다 성능 저하를 최소화하면서 타겟 정보를 선택적으로 망각할 수 있습니다.
핵심 포인트
- MAST 방식은 전체 파라미터 업데이트 대비 부수적 피해를 실질적으로 낮춤
- 어텐션 투영 텐서의 에너지와 업데이트 크기를 기준으로 업데이트 대상 선정
- Qwen 모델 실험 결과, MATH 성능은 망각하면서도 GSM8K 성능은 보존함
- 다양한 시드와 목적 함수(NPO/SimNPO) 환경에서도 재현성 확인
우리는 표준 전체 파라미터 업데이트 (full-parameter updates)보다 부수적 피해 (collateral damage)를 실질적으로 낮추면서, RLVR (Reinforcement Learning from Verifiable Rewards) 유도 추론을 언러닝 (unlearning)하기 위한 메커니즘 가이드 방식인 MAST (Mechanism-Aligned Selective Targeting)를 제안합니다. Qwen2.5-Math-1.5B 및 Qwen3-1.7B-Base의 매칭된 SFT/RLVR 체크포인트에서, SFT에서 RLVR로의 증분은 토큰 수준의 델타 로그 확률 (delta-log-probability) 측면에서 SFT 업데이트와 급격히 다르게 나타나며, 전체 파라미터 경사 상승법 (full-parameter gradient ascent)은 MATH 및 GSM8K 유지 (retain) 성능을 손상시키면서 망각 (forget)을 수행합니다. MAST는 어텐션 투영 텐서 (attention-projection tensors)를 비주성분 에너지 (off-principal energy), 업데이트 크기 (update magnitude), 그리고 망각 경사 결합 크기 (forget-gradient coupling magnitude)에 따라 순위를 매긴 후, 상위 순위의 서브셋 (subset)만을 업데이트합니다. 주요 모델에서 MAST는 통계적으로 유의미한 타겟 망각 (target forgetting)을 유도하는 동시에 (MATH 망각 45/150에서 37/150으로; McNemar p=0.0078), GSM8K (+0.8 pp) 및 MATH 유지 (-0.5 pp) 성능을 보존합니다. 이러한 이점은 다양한 시드 (seeds), NPO/SimNPO 목적 함수 (objectives), 그리고 MAST가 GSM8K를 보존하는 반면 전체 파라미터 언러닝은 이를 붕괴시키는 Qwen3 모델 전반에 걸쳐 재현됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기