본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 18:15

모델 해석(Model Interpretation)에서 간과된 베이스라인(Baseline)

요약

기존 모델 해석 방법론들이 베이스라인을 간과하여 발생하는 오류를 지적하고, 이를 해결하기 위한 새로운 해석 원칙을 제안합니다. 그래디언트 기반 방법과 테일러 전개를 통합하여 베이스라인의 중요성을 입증하고, 기여도 오차를 통한 정밀한 품질 평가 방식을 권장합니다.

핵심 포인트

  • 기존 모델 해석 방법론의 베이스라인 간과 문제 지적
  • 그래디언트 및 테일러 전개를 통한 방법론 간 연결 고리 규명
  • 기여도 오차(Attribution error)를 활용한 정밀한 품질 평가 제안
  • 수정된 Integrated Gradients(IG)를 통한 개선된 해석 결과 도출

우리는 기존의 모델 해석 (Model Interpretation) 방법들이 일반적으로 베이스라인 (Baseline)을 무시하고 있으며, 이러한 간과는 종종 부정확하거나 심지어 잘못된 해석을 초래한다는 점을 관찰했습니다. 본 논문에서는 모델 해석 작업과 모델 해석 결과에 대한 해석 원칙을 재정의하여 베이스라인의 중요성을 입증합니다. 나아가 우리는 그래디언트 기반 방법 (Gradient-based methods), 통합 그래디언트 (Integrated Gradients, IG) 방법, 그리고 테일러 전개 (Taylor expansion)를 통합하여 이들 사이의 연결 고리를 명확히 하고, 각 방법의 베이스라인을 명시적으로 식별합니다. 이를 바탕으로 관련 모델 해석 방법들 (IG, LayerCAM, ODAM, Difference Map)의 결함과 오류를 분석합니다. 우리는 한계 효과 (Marginal-effect)에 기반하거나 완벽한 모델 성능을 가정하는 것과 같은 결함이 있는 평가 방법을 채택하는 대신, 기여도 결과 (Attribution result)와 기여 대상 (Attribution target) 사이의 기여도 오차 (Attribution error)를 통해 모델 해석 결과의 품질을 정밀하게 평가할 것을 권장합니다. 우리는 IG를 수정하고 명확하고 합리적인 베이스라인을 가진 모델 해석 방법을 개발하여 더 나은 결과를 달성했습니다. 우리의 방법은 어떤 레이어 (Layer)의 특징 (Feature)에 기반한 모델 해석도 지원합니다. 서로 다른 레이어의 특징에 기반한 해석은 모두 합리적이며, 이러한 결과들 사이의 차이는 서로 다른 특징 추출 (Feature extraction) 단계에서의 특징 추출 정도를 반영합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0