LACUNA: LLM Unlearning의 국소화 정밀도 평가를 위한 테스트베드
요약
LLM의 민감 정보 삭제를 위한 언러닝(Unlearning) 기술의 국소화 정밀도를 평가하는 새로운 테스트베드 LACUNA를 소개합니다. 기존 방식이 출력 수준의 성능에만 치중하여 재표출 공격에 취약함을 지적하며, 파라미터 수준의 정확한 국소화가 중요함을 입증합니다.
핵심 포인트
- 언러닝의 파라미터 수준 국소화 정밀도를 평가하는 LACUNA 공개
- 기존 SOTA 언러닝 방식이 재표출 공격(resurfacing attack)에 취약함을 발견
- 정확한 국소화가 이루어질 경우 단순 경사 기반 방법으로도 강력한 삭제 가능
- OLMo 1B 및 7B 모델을 활용한 벤치마크 환경 제공
LLM(대규모 언어 모델)은 개인 식별 정보(PII)를 포함한 민감한 학습 데이터를 기억하며, 이로 인해 신뢰할 수 있는 사후 제거(post hoc removal) 방법에 대한 절박한 필요성이 제기되고 있습니다. Unlearning(언러닝)은 유망한 해결책으로 떠올랐으며, 최첨단(SOTA) 방법들은 종종 특정 모델 파라미터를 대상으로 하는 '선 국소화, 후 언러닝(localize-first, unlearn-second)' 패러다임을 따릅니다. 그러나 기존의 벤치마크는 언러닝을 오직 출력 수준(output level)에서만 평가하며, 이는 언러닝이 모델의 파라미터로부터 지식을 실제로 지우는 것인지 아니면 단순히 모호하게 만드는 것인지에 대한 의문을 남깁니다. 이러한 우려는 resurfacing attack(재표출 공격)의 성공으로 인해 더욱 강화되었습니다. 이 격차를 해소하기 위해, 우리는 ground-truth 파라미터 수준의 국소화(localization)를 제공하는 최초의 언러닝 테스트베드인 LACUNA를 소개합니다. LACUNA는 마스크드 연속 사전 학습(masked continual pretraining)을 통해 1B 및 7B OLMo 기반 모델의 사전 정의된 파라미터에 합성된 개인의 PII를 주입함으로써, 언러닝이 지식 저장에 책임이 있는 가중치(weights)를 제대로 타겟팅하는지 직접 평가할 수 있게 합니다. 우리는 LACUNA를 사용하여 현재의 SOTA 언러닝 방법들을 벤치마킹하였으며, 기존 방법들이 강력한 출력 수준의 성능에도 불구하고 매우 부정확하며 resurfacing attack에 취약하다는 것을 발견했습니다. 나아가 우리는 국소화가 성공적일 때, 단순한 경사 기반(gradient-based) 언러닝 방법조차 강력한 삭제 성능과 resurfacing attack에 대한 견고함을 달성함을 보여줌으로써 정밀한 언러닝의 중요성을 강조합니다. 우리는 행동 평가(behavioral evaluations)를 보완하고 견고한 국소화 기반 언러닝의 추가적인 발전을 도모하기 위해 LACUNA를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기