본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 05. 13:46

무엇을 잊을지 학습하기: 학습된 토큰 수준 중요도를 통한 LLM 언러닝 (Unlearning) 개선

요약

LLM의 특정 지식을 제거하는 머신 언러닝 과정에서 토큰별 중요도를 식별하는 ATWU 프레임워크를 제안합니다. 외부 감독 없이 유지 목적 함수와의 충돌을 이용해 망각 특이적 토큰을 공동 최적화하며, 기존 방식보다 뛰어난 망각-유지 트레이드오프를 달성합니다.

핵심 포인트

  • 토큰별 망각 관련성을 유지 최적성과 충돌하는 정도로 정의
  • 외부 주석 없이 은닉 상태를 활용한 경량 ATWU 프레임워크 제안
  • TOFU 및 RWKU 벤치마크에서 기존 샘플 수준 방식 능가
  • 의미론적으로 유의미한 토큰 수준의 망각 신호 식별 가능

머신 언러닝 (Machine unlearning)은 모델의 일반적인 능력을 보존하면서 학습된 모델로부터 특정 지식을 제거하는 것을 목표로 합니다. 자기회귀 언어 모델 (Autoregressive language models)의 경우, 잊어야 할 샘플 (forget sample) 내의 모든 토큰이 망각에 동일하게 관련되어 있지는 않습니다. 기존의 접근 방식들은 이러한 이질성 (heterogeneity)을 무시하거나, 각 토큰의 망각 관련성을 추정하기 위해 보조 모델 (auxiliary models), 휴리스틱 (heuristics), 또는 외부 주석 (external annotations)에 의존합니다. 우리는 대신 유지 목적 함수 (retain objective)와의 상호작용을 통해 이를 규정합니다. 즉, 특정 토큰에 대한 망각 손실 (forget loss)을 최소화하는 것이 유지 최적성 (retain optimality)과 충돌하지 않는 정도만큼 해당 토큰은 망각 특이적 (forget-specific)입니다. 우리는 이러한 관점을 모델 파라미터 (model parameters)와 토큰 가중치 (token weights)에 대한 공동 최적화 (joint optimization) 문제로 공식화하며, 자연스러운 분리 조건 (natural separation condition) 하에서 결과적인 목적 함수가 오라클 망각 특이적 토큰 서포트 (oracle forget-specific token support)를 복구함을 보여줍니다. 이 공식화에 착안하여, 우리는 외부의 토큰 수준 감독 (token level supervision) 없이 은닉 상태 (hidden states)에 대한 간단한 선형 스코어러 (linear scorer)를 사용하여 언러닝 과정 동안 토큰의 망각 특이성과 모델 파라미터를 공동으로 학습하는 경량 프레임워크인 ATWU (Alternating Token-Weighted Unlearning)를 소개합니다. TOFU 및 RWKU 벤치마크 전반에 걸쳐, ATWU는 샘플 수준 방법 (sample-level methods), 확률 기반 토큰 가중치 휴리스틱 (probability-based token weighting heuristics), 그리고 보조 모델 기반 접근 방식 (auxiliary-model-based approaches)을 능가하며 최첨단 (state of the art) 망각-유지 트레이드오프 (forget-retain trade-offs)를 달성합니다. 또한, 학습된 점수는 실제 망각 특이적 구간 (ground truth forget-specific spans)과 상당히 더 잘 일치하며, 이는 ATWU가 의미론적으로 유의미한 토큰 수준의 망각 신호를 식별함을 나타냅니다. 종합적으로, 우리의 결과는 유지 충돌 (retain conflict)이 언어 모델이 무엇을 잊어야 하는지를 식별하는 효과적인 기준을 제공하며, 최소한의 계산 오버헤드로 모델 표현 (model representations)으로부터 토큰 수준의 망각 특이성을 직접 비지도 학습 (unsupervised learning)할 수 있게 함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0