ShaplEIG: Shapley Value 추정을 위한 베이지안 실험 설계 (Bayesian Experimental Design)
요약
ShaplEIG는 Shapley value 추정 시 발생하는 높은 계산 비용 문제를 해결하기 위해 베이지안 실험 설계를 도입한 새로운 방법론입니다. 가우시안 프로세스 대리 모델과 기대 정보 이득을 활용하여 적응적으로 연합을 선택함으로써 샘플 효율성을 극대화합니다.
핵심 포인트
- 베이지안 실험 설계를 통한 Shapley value 근사 정확도 향상
- 가우시안 프로세스 대리 모델을 이용한 가치 함수 근사
- 기대 정보 이득의 폐쇄형(Closed form) 계산 가능성 입증
- 기본 대칭 다항식을 활용한 계산 복잡도의 다항식 수준 감소
- 저예산 환경에서 기존 SOTA 대비 우수한 샘플 효율성 증명
Shapley value는 해석 가능한 머신러닝 (Interpretable Machine Learning)에서 널리 사용되는 원칙적인 기여도 측정 방식이지만, 정확한 계산 비용이 플레이어 수에 따라 기하급수적으로 증가하기 때문에 샘플링된 연합 (Coalitions)의 가치 함수 (Value function) 평가에 기반한 다양한 근사 방법론들이 연구되어 왔습니다. 이는 이전의 평가 결과를 바탕으로 평가할 연합을 적응적으로 선택함으로써 근사 정확도를 향상시킬 수 있는지에 대한 의문을 제기합니다. 이러한 접근은 재학습 기반의 특성 중요도 (Feature importance), 데이터 가치 평가 (Data valuation), 하이퍼파라미터 중요도 (Hyperparameter importance)와 같이 가치 함수를 계산하는 비용이 높고 평가 횟수가 엄격히 제한된 환경에서 특히 중요합니다. 이를 위해 우리는 가우시안 프로세스 대리 모델 (Gaussian process surrogate)을 사용하여 비용이 많이 드는 가치 함수를 근사하고, Shapley value에 대한 기대 정보 이득 (Expected information gain)을 바탕으로 연합을 적응적으로 선택하는 베이지안 실험 설계 (Bayesian experimental design) 접근 방식인 ShaplEIG를 제안합니다. 가치 함수에 대한 Shapley value의 선형성을 이용하여, 우리는 기대 정보 이득을 폐쇄형 (Closed form)으로 구할 수 있음을 보여줍니다. 나아가, 우리는 기본 대칭 다항식 (Elementary symmetric polynomials)을 통해 복잡도를 플레이어 수에 대해 지수적 (Exponential)인 수준에서 다항식 (Polynomial) 수준으로 줄이는 효율적인 계산 체계를 제안합니다. 다양한 비용 집약적 응용 분야에 걸친 광범위한 실험을 통해, 우리의 방법론은 낮은 예산 (Low-budget) 환경에서 최신 베이스라인 (State-of-the-art baselines) 대비 샘플 효율성 (Sample efficiency)을 일관되게 개선함을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기