arXiv논문2026. 06. 01. 12:37

Divergence Decoding: 보조 모델을 통한 추론 시점의 언러닝 (Unlearning)

요약

LLM의 민감 정보 암기 문제를 해결하기 위해 추론 시점에 보조 모델을 활용하는 Divergence Decoding(DD) 기법을 제안합니다. 이 방법은 모델의 유용성 손실을 최소화하면서 특정 데이터를 효과적으로 제거하며, 텍스트를 넘어 이미지 도메인까지 확장 가능합니다.

핵심 포인트

추론 시점에 보조 모델을 사용하여 로짓을 특정 데이터로부터 멀어지게 유도
기존 언러닝 방식 대비 유용성 손실이 적고 복잡한 질의에 효과적임
SOTA 벤치마크 성능을 달성하며 저렴하고 효율적인 솔루션 제공
유도된 분포를 베이스 모델로 증류(Distillation) 가능
텍스트 생성 외에 이미지 도메인으로의 일반화 가능성 확인

대규모 언어 모델 (LLMs)은 민감한 학습 데이터를 빈번하게 암기하며, 이로 인해 심각한 개인정보 보호 및 저작권 위험을 초래합니다. 이러한 위험을 해결하는 것, 즉 기존 모델 체크포인트에서 해당 지식을 제거하는 것은 많은 언러닝 (unlearning) 방법론들이 치명적인 유용성 손실 (catastrophic utility loss)을 일으키거나 복잡한 질의에 효과적이지 못하기 때문에 어려운 과제로 입증되었습니다. 우리는 추론 (inference) 과정에서 작은 보조 모델 (auxiliary models)을 사용하여 LLM의 로짓 (logits)을 특정 데이터로부터 멀어지도록 유도하는 메커니즘인 Divergence Decoding (DD)을 소개합니다. 이러한 모델들을 학습시키는 것은 매우 간단하며, 즉 표준적인 사전 학습 (pre-training) 및 미세 조정 (fine-tuning) 설정을 사용합니다. 우리는 이 방법이 다양한 모델 및 학습 데이터셋 규모에 걸친 언러닝 벤치마크에서 최첨단 (SOTA) 베이스라인들을 결정적으로 능가한다는 것을 발견했으며, 이는 DD가 언러닝을 위한 효과적이고 저렴한 솔루션임을 뒷받침합니다. 그런 다음 우리는 이렇게 유도된 분포 (steered distribution)가 베이스 모델 (base model)로 다시 간단하게 증류 (distilled)될 수 있음을 보여줍니다. 이 방법은 일반적으로 모든 확률 모델 (probabilistic model)에 적용 가능하므로, 우리는 텍스트 생성 이외의 영역에서도 그 효능을 탐색하였으며 이미지 도메인으로의 일반화에 대한 증거를 발견했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Divergence Decoding: 보조 모델을 통한 추론 시점의 언러닝 (Unlearning)

요약

핵심 포인트

댓글