arXiv논문2026. 06. 23. 14:25

오염 제거를 위한 불확실성 기반 디바이아싱(Debiasing) 및 언러닝(Unlearning)

요약

데이터 오염이 LLM 성능 평가를 왜곡하는 문제를 해결하기 위해, 불확실성을 활용한 새로운 오염 제거(Decontamination) 프레임워크를 제안합니다. 앙상블 불확실성을 통해 샘플별 암기 정도를 추정하고, 디바이아싱 또는 언러닝을 통해 모델의 출력 분포를 교정하는 방법론을 다룹니다.

핵심 포인트

데이터 오염으로 인한 LLM 성능 부풀리기 문제 지적
분포 거리 지표를 활용한 샘플 수준의 오염 제거 평가 프레임워크 제안
딥 앙상블 불확실성을 이용한 샘플별 암기 추정(UBD) 방법론 소개
디바이아싱 및 언러닝을 통한 모델 출력 분포의 효과적 복구 입증

벤치마크 기반 평가는 거대 언어 모델 (LLM)의 능력을 평가하는 지배적인 패러다임이지만, 데이터 오염(Data contamination)은 보고된 성능을 부풀리고 공정한 비교를 저해합니다. 기존의 오염 제거(Decontamination) 방법들은 오직 총체적인 정확도(Aggregate accuracy)를 통해서만 평가되는데, 이는 샘플별 모델 행동의 상당한 차이를 가릴 수 있으며, 많은 방법이 오염되지 않은 모델(Uncontaminated model)에 대한 접근을 필요로 합니다. 본 논문에서는 정확도 기반 평가를 보완하기 위해 분포 거리 지표(Distributional distance metrics)를 사용하는 샘플 수준의 오염 제거 평가 프레임워크를 제안하며, 이는 오염 제거된 모델이 각 샘플에 대해 오염되지 않은 모델의 출력 분포를 얼마나 밀접하게 복구하는지를 측정합니다. 이 프레임워크를 바탕으로, 우리는 오염되지 않은 모델이나 어떤 샘플이 오염되었는지에 대한 지식 없이도 오염된 모델의 딥 앙상블(Deep ensembles)을 활용하여 샘플별 암기(Memorization)를 추정하는 방법론 군인 불확실성 기반 오염 제거 (Uncertainty-Based Decontamination, UBD)를 소개합니다. UBD는 앙상블 불확실성(Ensemble uncertainty)으로부터 샘플별 교정 스칼라(Correction scalar)를 추정하며, 이는 오염으로 인해 유도된 정답에 대한 부풀려진 확률 질량(Probability mass)을 억제하는 디바이아싱된 타겟 분포(Debiased target distribution)를 구축하는 데 사용됩니다. 이 타겟은 사후 출력 교정(Debiasing) 또는 파라미터 업데이트를 위한 소프트 트레이닝 신호(Soft training signal, Unlearning)로 사용됩니다. 다양한 LLM 백본(Backbone)에 대해 MMLU-Pro 및 MATH-MCQA에서 수행된 실험은 UBD가 오염되지 않은 데이터에 대한 모델 성능을 유지하면서도, 패러프레이징(Paraphrasing)이나 선택지 순열(Choice-permutation) 베이스라인보다 오염되지 않은 모델의 샘플별 출력 분포에 실질적으로 더 가깝게 생성함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오염 제거를 위한 불확실성 기반 디바이아싱(Debiasing) 및 언러닝(Unlearning)

요약

핵심 포인트

댓글