신뢰성, 충실성, 그리고 불투명한 과학적 모델의 사후 설명(Post-hoc Explanations)의 한계
요약
사후 설명(Post-hoc explanation) 방법론이 과학적 머신러닝 모델의 실제 작동 구조를 완벽히 설명하지 못한다는 한계를 지적합니다. 신뢰성과 충실성이 확보되더라도 모델이 실제 현상의 구조와 동일하게 작동하는지는 보장할 수 없음을 강조합니다.
핵심 포인트
- 사후 설명 방법론은 모델 해석을 위해 널리 사용되나 구조적 한계가 있음
- 신뢰성은 예측과 결과의 일치를, 충실성은 설명과 모델의 일치를 의미함
- 신뢰성과 충실성만으로는 모델이 실제 현상의 작동 방식과 일치하는지 증명 불가
- 사후 설명은 가설을 뒷받침할 뿐 실제 구조에 대한 주장을 직접 증명하지 못함
사후 설명 (Post-hoc explanation) 방법론은 과학적 머신러닝 (Scientific machine learning) 모델을 해석하기 위해 일상적으로 사용되며, 이를 통해 모델이 학습한 현상에 대한 통찰을 얻을 수 있는 것으로 이해됩니다. 모델이 충분히 신뢰할 수 있고(reliable) 설명이 충분히 충실하다면(faithful), 이러한 전환이 확보된 것으로 간주될 수 있습니다. 그러나 우리는 그렇지 않다고 주장합니다. 신뢰성 (Reliability)은 모델의 예측이 현상의 결과와 일치하는지를 확인하고, 충실성 (Faithfulness)은 설명이 모델과 일치하는지를 확인하지만, 두 가지 모두 모델이 현상이 작동하는 방식과 동일하게 작동하는지를 확인하지는 않습니다. 이는 구조에 대한 주장이 요구하는 사항입니다. 이 연쇄 과정은 외부적 확증 하에 후보 가설들을 뒷받침할 수는 있지만, 그 자체만으로는 현상이 실제로 어떻게 구조화되어 있는지에 대한 주장을 뒷받침할 수 없습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기