지속되는 망각: 회로 귀속 (Circuit Attribution)을 통한 양자화-영구적 언러닝 (Quantization-Permanent
요약
본 논문은 언어 모델의 망각(unlearning) 평가가 양자화 환경을 제대로 반영하지 못하는 문제를 지적하며, 4-bit 사후 훈련 양자화(PTQ)가 머신 언러닝 효과를 되돌릴 수 있음을 밝혀냅니다. 연구진은 유의미한 망각을 달성하는 방법들은 압축 하에서 효과를 상실하고, 양자화에서도 살아남는 방법들은 모델 변화가 미미하다는 '이중 실패' 현상을 발견했습니다. 이에 따라 인과적 회로 귀속(causal circuit attribution) 및 구조적 제약을 결합한 새로운 방법 MANSU를 제안하며, 이를 통해 망각의 네 가지 속성을 모두 만족시키는 최초의 방법을 제시합니다.
핵심 포인트
- 기존 언러닝 평가는 양자화 환경을 고려하지 않아 실제 배포 환경과 괴리가 있습니다.
- 경사하강법 기반 언러닝 방법들은 압축(quantization) 과정에서 망각 효과를 상실하는 '이중 실패' 현상이 관찰됩니다.
- MANSU는 인과적 회로 귀속, 구조적 제약 등을 결합하여 양자화 환경에서도 유의미한 망각을 달성합니다.
- 연구진은 기존 지표로는 구분할 수 없는 구조적 삭제(structural erasure)와 행동 억제(behavioral suppression)를 측정하는 새로운 메커니즘적 검증 지표 CAD를 도입했습니다.
표준적인 언러닝 (unlearning) 평가는 모든 배포된 언어 모델이 먼저 양자화 (quantization)된다는 사실에도 불구하고, 훈련 직후 전체 정밀도 (full precision) 상태에서 행동 억제력을 측정합니다. 최근 연구에 따르면 4-bit 사후 훈련 양자화 (post-training quantization, PTQ)가 머신 언러닝 (machine unlearning)을 되돌릴 수 있음이 밝혀졌습니다. 우리는 이것이 튜닝 과정의 인위적인 결과가 아니라 체계적인 이중 실패 (dual failure)임을 보여줍니다. 즉, 유의미한 망각을 달성하는 경사하강법 (gradient-based) 기반 방법들은 압축 하에서 망각 효과를 상실하는 반면, 양자화에서도 살아남는 방법들은 모델을 거의 변화시키지 못합니다. 두 가지 실패 모두 동일한 근본 원인으로 귀결됩니다. 모든 베이스라인에 걸쳐 파라미터당 업데이트 (per-parameter updates) 값이 NF4 양자화 빈 너비 (bin width)보다 47~828배 낮게 나타납니다. 수십억 개의 파라미터에 분산된 업데이트는 양자화 빈 경계 (quantization bin boundaries)를 넘어서지 못하며, 우리는 이 결과를 희소성-영구성 트레이드오프 (sparsity-permanence tradeoff)로 공식화합니다.
우리는 MANSU (Mechanistic-Aligned Null-Space Unlearning)를 제안합니다. MANSU는 최소 망각 집합 서브그래프 (minimal forget-set subgraph)를 격리하기 위한 인과적 회로 귀속 (causal circuit attribution), 대각 Fisher 유지 경계 (diagonal-Fisher retain bound)를 결합한 회로 제한 영공간 투영 (circuit-restricted null-space projection), 그리고 구조적으로 양자화 생존을 보장하는 파라미터당 크기 하한선 (per-parameter magnitude floor)을 결합하여 두 가지 모드를 모두 해결합니다. 또한, 우리는 기존 지표들이 구분하지 못하는 구조적 삭제 (structural erasure)와 행동 억제 (behavioral suppression)를 구분하는 메커니즘적 검증 지표인 회로 귀속 발산 (Circuit Attribution Divergence, CAD)을 도입합니다. 여러 모델 제품군과 위험 벤치마크 (hazard benchmarks)에 걸쳐, MANSU는 네 가지 속성(유의미한 망각, 유지 보존, 비양수 PTQ 격차, 구조적 삭제)을 모두 여유 있게 동시에 만족하는 최초의 방법이며, 경사하강법 기반 베이스라인들은 압축 하에서 정확도가 최대 +0.05까지 회복되는 현상을 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기