arXiv논문2026. 05. 27. 12:21

ICCU: 패턴 유도 거절 규칙을 통한 인컨텍스트 지속적 언러닝 (In-Context Continual Unlearning)

요약

ICCU는 모델 파라미터를 수정하지 않고 추론 시점에 거절 규칙을 적용하여 특정 데이터를 망각시키는 인컨텍스트 지속적 언러닝 프레임워크입니다. 기존 미세 조정 방식의 비용 문제와 유틸리티 손실, 요청 간 간섭 문제를 해결하며 순차적인 언러닝 요청에 효과적으로 대응합니다.

핵심 포인트

모델 파라미터 수정 없이 시스템 프롬프트로 언러닝 수행
순차적 언러닝 요청 시 발생하는 간섭 및 유틸리티 손실 방지
거절 규칙의 합집합 축적을 통한 구성 가능한 프레임워크
의역 및 교차 언어 질문에 대한 높은 견고성 입증

머신 언러닝 (Machine unlearning)은 학습된 언어 모델 (Language models)로부터 특정 데이터의 영향을 제거하는 것을 목표로 합니다. 실제 배포 환경에서는 언러닝 요청이 종종 순차적으로 발생하며, 이는 기존의 미세 조정 (Fine-tuning) 기반 방식들에 도전 과제를 제기합니다. 각 요청마다 미세 조정을 수행하는 것은 비용이 많이 들고, 유틸리티 손실 (Utility loss)이 누적되며, 요청 간 간섭 (Cross-request interference)을 유발할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 ICCU (In-Context Continual Unlearning)를 제안합니다. ICCU는 언러닝 데이터셋으로부터 읽을 수 있는 거절 규칙 (Refusal rules)을 유도하고, 모델 파라미터 (Model parameters)를 수정하지 않은 채 추론 (Inference) 시점에 필터 또는 시스템 프롬프트 (System prompt)를 통해 이를 적용하는 인컨텍스트 지속적 언러닝 프레임워크입니다. 규칙은 순서에 무관한 합집합 (Order-independent union)으로 축적되기 때문에, ICCU는 구성 가능 (Compositional)하며 요청 간 간섭이 없고, 규칙 유도 후에는 원래의 망각 세트 (Forget-set) 데이터를 폐기할 수 있습니다. 광범위한 실험을 통해 ICCU가 유틸리티를 보존하면서 타겟 지식을 효과적으로 억제하고, 순차적 요청에 따라 확장 가능하며, 의역된 질문(Paraphrased queries) 및 교차 언어 질문 (Cross-lingual queries)에 대해서도 견고함을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ICCU: 패턴 유도 거절 규칙을 통한 인컨텍스트 지속적 언러닝 (In-Context Continual Unlearning)

요약

핵심 포인트

댓글