본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 10. 11:12

관찰에서 개입으로: Mixture-of-Experts 모델에서 전문가 중요도에 대한 인과적 감사 (Causal Audit)

요약

MoE 모델의 전문가 중요도를 예측할 때 관찰된 통계 지표가 실제 인과적 중요도를 반영하지 못한다는 연구 결과입니다. OLMoE, Qwen, DeepSeek 모델을 대상으로 실험한 결과, 기존의 관찰적 지표들은 전문가의 기능적 중요도를 예측하는 데 실패했습니다.

핵심 포인트

  • 관찰된 라우팅 통계량은 전문가의 인과적 중요도를 예측하지 못함
  • MoE 가지치기 성공은 전문가 식별이 아닌 초기 레이어의 중복성 때문
  • 해석 가능성 연구에서 개입적 감사(Interventional Audit)의 필요성 강조
  • 통계적 검정력을 고려한 토큰 수준의 정밀한 검증 요구

해석 가능성 (Interpretability) 방법론들은 관찰된 모델 동작에 대한 집단 수준의 요약 통계량을 사용하여, 특정 계산에 대한 표적 개입 (targeted interventions)의 효과에 관한 주장을 정당화하곤 합니다. Pearl의 용어를 빌리자면, 이들은 1단계 연관성 (rung-1 associational) 증거가 마치 2단계 개입적 (rung-2 interventional) 결론을 뒷받침하는 것처럼 취급하며, 이러한 방식의 타당성은 거의 검증되지 않았습니다. 우리는 한 가지 구체적인 사례를 조사합니다: Mixture-of-Experts (MoE) 가지치기 (pruning)에서 라우팅 통계량 (routing statistics)을 사용하는 경우로, 여기서 활용률 (utilization rates), 활성화 규범 (activation norms), 그리고 라우팅 가중치 분포 (routing weight distributions)가 기능적 비용 없이 제거할 수 있는 전문가 (experts)를 예측하는 지표로 취급됩니다. 세 가지 고중복 MoE 아키텍처 (OLMoE-1B-7B-0924, Qwen1.5-MoE-A2.7B, DeepSeek-V2-Lite)에 걸친 토큰 수준의 개입적 감사 (interventional audit) 결과, 다중 비교 교정 (multiple-comparison correction)을 적용했을 때 어떤 모델에서도 관찰적 지표가 인과적 전문가 중요도 (causal expert importance)를 예측하지 못하는 것으로 나타났으며, 60개의 지표-레이어 조합 전체에서 효과 크기 (effect sizes)는 Cohen's $d = 0.17$ 미만이었습니다. 토큰당 라우팅 가중치 제어 (per-token routing weight control)를 통해 통계적 검정력 (power) 부족 가능성을 배제한 결과, OLMoE의 마지막 MoE 레이어에서 단 하나의 Bonferroni 유의미한 신호 ($d = +0.231$, $p = 0.0013$)를 회복했습니다. 기존의 가지치기 방법론들이 이 영역에서 성공하는 이유는 불필요한 전문가를 식별해서가 아니라, 초기 레이어의 중복성 (redundancy)으로 인해 대부분의 선택 기준이 서로 교체 가능한 수준이기 때문입니다. 우리의 결과는 집단 수준의 관찰적 요약에서 전문가 중요도에 대한 토큰 수준의 개입적 주장으로 넘어가는 흔한 추론 단계에 대한 명시적인 반례를 제공하며, 개입적 감사가 해석 가능성 주장에 대한 증거 표준을 어떻게 보정할 수 있는지를 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0