제한된 메모리 언어 모델(LMLM)에서의 망각 감사
요약
제한된 메모리 언어 모델(LMLM)에서 데이터 삭제 후 지식이 잔류하는지 확인하는 인과적 감사 프레임워크를 제안합니다. 연구 결과, 삭제된 정보는 모델 파라미터가 아닌 검색 그래프 내의 잔류물에 의해 재구성됨을 밝혀냈습니다.
핵심 포인트
- LMLM의 언러닝 효과를 측정하는 인과적 감사 프레임워크 제안
- 삭제된 정보는 파라미터 누출보다 검색 아티팩트를 통해 잔류함
- 언러닝의 경계는 모델 자체보다 데이터베이스 관리에 의해 결정됨
- 검색 매개 정확도와 검색 아티팩트 비율 사이의 높은 일치성 확인
제한된 메모리 언어 모델 (Limited Memory Language Models, LMLMs)은 재학습 없이 삭제 기반의 언러닝 (unlearning)을 가능하게 하기 위해 사실적 지식을 데이터베이스로 외부화합니다. 기존의 평가 방식은 삭제 후의 정확도를 총체적으로 측정하며, 삭제된 사실이 잔류 파라미터 메모리 (residual parametric memory), 대안적 검색 경로 (alternative retrieval paths), 또는 근접 이웃 검색 아티팩트 (near-neighbor retrieval artifacts)를 통해 지속되는지 여부를 판별할 수 없습니다. 우리는 모델을 고정시킨 상태에서 추론 시점에 데이터베이스 상태를 세 가지 개입 방식인 FULL, DEL-ON, DEL-OFF로 변화시키는 인과적 감사 (causal auditing) 프레임워크를 제안합니다. 이 프레임워크는 삭제 후의 동작을 파라미터 누출 $L(f)$, 검색 매개 정확도 $R(f)$, 그리고 추론 시점의 검색 트레이스 (retrieval trace)에 기반한 검색 아티팩트 비율 (retrieval artifact rate)로 분해합니다. 우리는 이를 세 가지 도메인에서 구축한 네 가지 적대적 토폴로지 (Base, Alias, Noise, Collision)와 여섯 가지 프롬프트 구성 (prompt formulations)을 포함하여, 13개의 데이터베이스에 걸친 12,228개의 별칭 폐쇄 (alias-closure) 삭제 사례에 적용했습니다. 모든 변형과 모든 프롬프트 스타일에서 파라미터 누출은 0에 가깝습니다. 즉, 검색이 없는 상태에서 모델이 삭제된 정답을 반환하는 경우는 드뭅니다. 살아남은 잔류물은 검색 그래프 (retrieval graph)에 존재합니다. 검색 매개 정확도와 검색 아티팩트 비율은 모든 곳에서 반올림 오차 범위 내에서 일치하며, 따라서 우리의 감사 결과 삭제 후의 정확도는 주로 근접 이웃 검색 (near-neighbor retrieval)으로부터 재구성됩니다. 이 잔류물은 공개된 LMLM 데이터베이스에서는 0.7%에서 가장 적대적인 변형에서는 13.6%까지 나타나며, 프롬프트 구성은 삭제된 사실이 얼마나 살아남는지를 독립적으로 제어하지 못합니다. 이러한 결과는 이 범주의 LMLM 및 삭제 절차의 경우, 언러닝 경계가 모델보다는 주로 데이터베이스 관리자에 의해 결정됨을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기