모델 해석(Model Interpretation)에서 간과된 베이스라인(Baseline)

우리는 기존의 모델 해석 (Model Interpretation) 방법들이 일반적으로 베이스라인 (Baseline)을 무시하고 있으며, 이러한 간과는 종종 부정확하거나 심지어 잘못된 해석을 초래한다는 점을 관찰했습니다. 본 논문에서는 모델 해석 작업과 모델 해석 결과에 대한 해석 원칙을 재정의하여 베이스라인의 중요성을 입증합니다. 나아가 우리는 그래디언트 기반 방법 (Gradient-based methods), 통합 그래디언트 (Integrated Gradients, IG) 방법, 그리고 테일러 전개 (Taylor expansion)를 통합하여 이들 사이의 연결 고리를 명확히 하고, 각 방법의 베이스라인을 명시적으로 식별합니다. 이를 바탕으로 관련 모델 해석 방법들 (IG, LayerCAM, ODAM, Difference Map)의 결함과 오류를 분석합니다. 우리는 한계 효과 (Marginal-effect)에 기반하거나 완벽한 모델 성능을 가정하는 것과 같은 결함이 있는 평가 방법을 채택하는 대신, 기여도 결과 (Attribution result)와 기여 대상 (Attribution target) 사이의 기여도 오차 (Attribution error)를 통해 모델 해석 결과의 품질을 정밀하게 평가할 것을 권장합니다. 우리는 IG를 수정하고 명확하고 합리적인 베이스라인을 가진 모델 해석 방법을 개발하여 더 나은 결과를 달성했습니다. 우리의 방법은 어떤 레이어 (Layer)의 특징 (Feature)에 기반한 모델 해석도 지원합니다. 서로 다른 레이어의 특징에 기반한 해석은 모두 합리적이며, 이러한 결과들 사이의 차이는 서로 다른 특징 추출 (Feature extraction) 단계에서의 특징 추출 정도를 반영합니다.

Insights

모델 해석(Model Interpretation)에서 간과된 베이스라인(Baseline)

요약

핵심 포인트

댓글

첫 분석: AWS, SageMaker HyperPod에서 Amazon Nova용 다중 턴 RL 인프라 출시

다면적 Rasch 측정 및 다중 작업 딥러닝을 통한 구간 변수 구성: 증오 발언 적용

Microsoft의 게임 개발사 인수 전략 변화에 대한 보도

파킨슨병을 위한 적응형 심부 뇌 자극(aDBS)용 뉴로모픽 실리콘 뉴런 컨트롤러

다면적 Rasch 측정 및 다중 작업 딥러닝을 통한 구간 변수 구성: 증오 발언 적용

Microsoft의 게임 개발사 인수 전략 변화에 대한 보도

파킨슨병을 위한 적응형 심부 뇌 자극(aDBS)용 뉴로모픽 실리콘 뉴런 컨트롤러