arXiv논문2026. 05. 21. 10:53

교정(Calibration) 대 의사결정: 언러닝된 언어 모델의 신뢰성 역설 재고

요약

머신 언러닝 과정에서 모델의 교정(Calibration) 상태가 양호하더라도, 모델이 가짜 상관관계에 의존하는 '신뢰성 역설'이 발생할 수 있음을 분석한 연구입니다. TOFU 벤치마크를 통해 언러닝 후 모델이 낮은 교정 오차를 유지하면서도 기여도 분석상으로는 지름길(shortcut) 기반의 의사결정에 의존하게 된다는 사실을 입증했습니다.

핵심 포인트

낮은 교정 오차(ECE)가 반드시 신뢰할 수 있는 의사결정 규칙을 보장하지는 않음
언러닝 후 모델은 정확도가 감소하더라도 낮은 교정 오차를 유지할 수 있음
기여도 분석(Integrated Gradients 등) 결과, 언러닝 모델은 상관관계 기반 토큰에 대한 의존도가 증가함
머신 언러닝 환경에서 교정 지표와 실제 의사결정 신뢰성 사이의 격차인 '신뢰성 역설' 확인

머신 언러닝 (Machine unlearning)은 나머지 데이터에 대한 신뢰할 수 있는 동작을 유지하면서 모델에서 특정 학습 데이터의 영향을 제거하는 것을 목표로 하며, 이로 인해 신뢰할 수 있는 예측과 불확실성 추정 (uncertainty estimation)이 평가를 위해 필수적입니다. 교정 (Calibration)은 언어 모델에서 신뢰성의 대리 지표로 흔히 사용되지만, 낮은 교정 오차 (calibration error)가 반드시 신뢰할 수 있는 의사결정 규칙 (decision rules)을 의미하는 것은 아닙니다. 모델이 잘 교정된 상태를 유지하면서도 가짜 상관관계 (spurious correlations)에 의존할 수 있기 때문입니다. 본 연구에서는 TOFU 벤치마크의 객관식 질의응답 (multiple-choice question-answering) 평가 프로토콜을 사용하여 생성형 언어 모델에서의 이러한 격차를 조사하며, 교정 지표 (ECE, MCE, Brier)를 통해 확률적 신뢰성을 측정하고, Integrated Gradients 및 Local Mutual Information을 이용한 기여도 기반 지름길 탐지 (attribution-based shortcut detection)를 통해 의사결정 규칙의 신뢰성을 측정합니다. 연구 결과, 미세 조정 (fine-tuned)된 모델은 사전 학습된 (pretrained) 모델 (ECE > 0.5)에 비해 낮은 교정 오차 (ECE ~ 0.04)를 달성하며, 언러닝 후의 모델은 망각 분할 (forget split)에서의 정확도가 감소했음에도 불구하고 유사하게 낮은 교정 상태를 유지하는 반면, 기여도 분석 (attribution analysis)은 상관관계 기반 토큰에 대한 의존도가 증가했음을 보여줍니다. 이러한 결과는 언러닝 이후에 좋은 교정이 지름길 기반의 의사결정 규칙과 공존할 수 있음을 입증하며, 신뢰성 역설 (reliability paradox)을 머신 언러닝 환경으로 확장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

교정(Calibration) 대 의사결정: 언러닝된 언어 모델의 신뢰성 역설 재고

요약

핵심 포인트

댓글