arXiv논문2026. 06. 30. 10:41

신뢰성, 충실성, 그리고 불투명한 과학적 모델의 사후 설명(Post-hoc Explanations)의 한계

요약

사후 설명(Post-hoc explanation) 방법론이 과학적 머신러닝 모델의 실제 작동 구조를 완벽히 설명하지 못한다는 한계를 지적합니다. 신뢰성과 충실성이 확보되더라도 모델이 실제 현상의 구조와 동일하게 작동하는지는 보장할 수 없음을 강조합니다.

핵심 포인트

사후 설명 방법론은 모델 해석을 위해 널리 사용되나 구조적 한계가 있음
신뢰성은 예측과 결과의 일치를, 충실성은 설명과 모델의 일치를 의미함
신뢰성과 충실성만으로는 모델이 실제 현상의 작동 방식과 일치하는지 증명 불가
사후 설명은 가설을 뒷받침할 뿐 실제 구조에 대한 주장을 직접 증명하지 못함

사후 설명 (Post-hoc explanation) 방법론은 과학적 머신러닝 (Scientific machine learning) 모델을 해석하기 위해 일상적으로 사용되며, 이를 통해 모델이 학습한 현상에 대한 통찰을 얻을 수 있는 것으로 이해됩니다. 모델이 충분히 신뢰할 수 있고(reliable) 설명이 충분히 충실하다면(faithful), 이러한 전환이 확보된 것으로 간주될 수 있습니다. 그러나 우리는 그렇지 않다고 주장합니다. 신뢰성 (Reliability)은 모델의 예측이 현상의 결과와 일치하는지를 확인하고, 충실성 (Faithfulness)은 설명이 모델과 일치하는지를 확인하지만, 두 가지 모두 모델이 현상이 작동하는 방식과 동일하게 작동하는지를 확인하지는 않습니다. 이는 구조에 대한 주장이 요구하는 사항입니다. 이 연쇄 과정은 외부적 확증 하에 후보 가설들을 뒷받침할 수는 있지만, 그 자체만으로는 현상이 실제로 어떻게 구조화되어 있는지에 대한 주장을 뒷받침할 수 없습니다.

AI 자동 생성 콘텐츠

원문 바로가기

신뢰성, 충실성, 그리고 불투명한 과학적 모델의 사후 설명(Post-hoc Explanations)의 한계

요약

핵심 포인트

댓글