arXiv논문2026. 05. 04. 20:02

무엇을 잊어야 할지: 언어 모델의 정밀한 학습 소거를 위한 토큰 레벨 귀속

요약

본 논문은 대규모 언어 모델(LLMs)의 프라이버시 및 안전성 문제를 해결하기 위한 '토큰 레벨 귀속' 학습 소거 프레임워크인 TokenUnlearn을 제안합니다. 기존 방법들이 모든 토큰에 균일한 업데이트를 적용하는 한계를 극복하고, 지식 인식 및 엔트로피 인식 신호를 활용하여 중요한 토큰을 정밀하게 식별합니다. 이 프레임워크는 하드 선택과 소프트 가중치 두 가지 전략을 통해 학습 소거의 효과를 높이면서 모델 유틸리티 저하를 최소화함을 입증했습니다.

핵심 포인트

LLMs에서 기계적 학습 소거(Machine Unlearning)는 프라이버시 및 규제 준수에 필수적인 기술입니다.
기존의 균일한 업데이트 방식은 지식이 특정 토큰에만 인코딩된다는 점을 간과하여 비효율적이었습니다.
TokenUnlearn은 지식 인식 및 엔트로피 인식 신호를 결합하여 학습 소거가 필요한 중요 토큰을 정밀하게 식별합니다.
제안된 방법론은 하드 선택(Hard Selection)과 소프트 가중치(Soft Weighting) 두 가지 전략으로, 기존의 시퀀스 레벨 접근법보다 우수한 성능을 보였습니다.

기계적 학습 소거 (Machine Unlearning) 는 대규모 언어 모델 (LLMs) 의 프라이버시, 안전성 및 규제 문제를 해결하는 데 필수적인 능력으로 부상했습니다. 기존 방법들은 모든 토큰에 걸쳐 균일한 업데이트를 적용하지만, 제거 대상 지식은 일부 토큰만 인코딩한다는 점을 간과합니다. 이는 그래디언트 노이즈를 유발하고 유틸리티를 저하시키며 최적의 소거를 방해합니다. 우리는 TokenUnlearn이라는 토큰 레벨 귀속 프레임워크를 제안했습니다. 이 프레임워크는 중요한 토큰을 식별하고 선택적으로 표적화합니다. 우리의 접근법은 지식 인식 신호 (knowledge-aware signals) 를 통해 마스킹을 적용하고, 엔트로피 인식 신호 (entropy-aware signals) 를 결합하여 정밀한 토큰 선택을 위한 중요도 점수를 생성합니다. 우리는 두 가지 보완적인 전략을 개발했습니다: 하드 선택 (Hard Selection), 즉 높은 중요도를 가진 토큰에만 학습 소거를 적용하는 것과, 소프트 가중치 (Soft Weighting), 즉 중요도 점수에 기반하여 그래디언트 기여도를 조절하는 것입니다. 이 둘은 기존 방법을 토큰 레벨 변형으로 확장합니다. 이론적 분석은 토큰 레벨 선택이 그래디언트 신호 대 노이즈 비율을 개선함을 보여줍니다. TOFU 와 WMDP 벤치마크에서 세 가지 모델 아키텍처에 대한 실험은 학습 소거 효과와 유틸리티 보존 측면에서 시퀀스 레벨 베이스라인보다 일관된 개선점을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

무엇을 잊어야 할지: 언어 모델의 정밀한 학습 소거를 위한 토큰 레벨 귀속

요약

핵심 포인트

댓글