arXiv논문2026. 05. 27. 12:19

LLM Unlearning에서 반사실적 지식 학습(Counterfactual Knowledge Training)의 숨겨진 비용에 대하여

요약

LLM 언러닝을 위한 반사실적 튜닝(CFT)의 한계와 두 가지 주요 문제점인 지식 충돌 및 환각 확산을 분석합니다. 새로운 벤치마크 RWKU+를 통해 이러한 현상을 진단하고 연구 가이드를 제시합니다.

핵심 포인트

반사실적 튜닝 시 발생하는 지식 충돌과 상충하는 그래디언트 문제 식별
거짓 타겟 학습이 관련 없는 도메인의 환각을 높이는 환각 확산 현상 발견
새로운 트레이드오프 지표와 진단 도구를 포함한 RWKU+ 벤치마크 도입

반사실적 튜닝 (Counterfactual tuning, CFT)은 모델이 원치 않는 콘텐츠 대신 대안적인 허구적 지식을 생성하도록 학습함으로써, 대규모 언어 모델 (Large Language Model, LLM)의 언러닝 (Unlearning)을 위한 유망한 패러다임으로 부상했습니다. 그러나 본 연구에서 우리는 이 패러다임이 여전히 일부 측면에서 다른 패러다임보다 성능이 낮다는 것을 발견하였으며, 이러한 격차의 근저에 있는 이전에 간과되었던 두 가지 함정을 식별했습니다: (1) 지식 충돌 (knowledge conflict), 즉 반사실적 코퍼스 (counterfactual corpora) 내의 상호 불일치가 매개변수 최적화를 방해하는 상충하는 그래디언트 (conflicting gradients)를 유발하는 현상, (2) 환각 확산 (hallucination spillover), 즉 거짓 타겟에 맞추는 과정이 지속적인 조작 편향 (fabrication bias)을 심어주어 관련 없는 도메인에서의 환각 (hallucination) 발생률을 높이는 현상입니다. 이러한 문제들을 체계적으로 진단하기 위해, 우리는 새로운 트레이드오프 지표 (trade-off metrics)와 그래디언트 수준의 진단 도구를 갖춘 확장된 벤치마크인 RWKU+를 도입합니다. 본 연구는 더 나아가 이 패러다임의 한계와 오버헤드 (overhead)를 논의하며, 더욱 엄격한 LLM 언러닝 연구를 위한 통찰력과 실행 가능한 가이드를 제공하는 것을 목표로 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM Unlearning에서 반사실적 지식 학습(Counterfactual Knowledge Training)의 숨겨진 비용에 대하여

요약

핵심 포인트

댓글