LACUNA: LLM Unlearning의 국소화 정밀도 평가를 위한 테스트베드

LLM(대규모 언어 모델)은 개인 식별 정보(PII)를 포함한 민감한 학습 데이터를 기억하며, 이로 인해 신뢰할 수 있는 사후 제거(post hoc removal) 방법에 대한 절박한 필요성이 제기되고 있습니다. Unlearning(언러닝)은 유망한 해결책으로 떠올랐으며, 최첨단(SOTA) 방법들은 종종 특정 모델 파라미터를 대상으로 하는 '선 국소화, 후 언러닝(localize-first, unlearn-second)' 패러다임을 따릅니다. 그러나 기존의 벤치마크는 언러닝을 오직 출력 수준(output level)에서만 평가하며, 이는 언러닝이 모델의 파라미터로부터 지식을 실제로 지우는 것인지 아니면 단순히 모호하게 만드는 것인지에 대한 의문을 남깁니다. 이러한 우려는 resurfacing attack(재표출 공격)의 성공으로 인해 더욱 강화되었습니다. 이 격차를 해소하기 위해, 우리는 ground-truth 파라미터 수준의 국소화(localization)를 제공하는 최초의 언러닝 테스트베드인 LACUNA를 소개합니다. LACUNA는 마스크드 연속 사전 학습(masked continual pretraining)을 통해 1B 및 7B OLMo 기반 모델의 사전 정의된 파라미터에 합성된 개인의 PII를 주입함으로써, 언러닝이 지식 저장에 책임이 있는 가중치(weights)를 제대로 타겟팅하는지 직접 평가할 수 있게 합니다. 우리는 LACUNA를 사용하여 현재의 SOTA 언러닝 방법들을 벤치마킹하였으며, 기존 방법들이 강력한 출력 수준의 성능에도 불구하고 매우 부정확하며 resurfacing attack에 취약하다는 것을 발견했습니다. 나아가 우리는 국소화가 성공적일 때, 단순한 경사 기반(gradient-based) 언러닝 방법조차 강력한 삭제 성능과 resurfacing attack에 대한 견고함을 달성함을 보여줌으로써 정밀한 언러닝의 중요성을 강조합니다. 우리는 행동 평가(behavioral evaluations)를 보완하고 견고한 국소화 기반 언러닝의 추가적인 발전을 도모하기 위해 LACUNA를 공개합니다.

Insights

LACUNA: LLM Unlearning의 국소화 정밀도 평가를 위한 테스트베드

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때