arXiv논문2026. 06. 03. 12:13

희소 MoE 언어 모델의 사실적 회상에 대한 전문가 인지적 인과적 추적 (Expert-Aware Causal Tracing)

요약

희소 MoE 모델에서 사실적 회상이 발생하는 메커니즘을 분석하기 위해 '전문가 인지적 인과적 추적' 방법론을 제안합니다. Qwen 및 Mixtral 모델 실험을 통해 특정 전문가가 정보 국지화에 기여하거나 다수 전문가의 연합이 필요함을 입증했습니다.

핵심 포인트

MoE 모델을 위한 전문가 인지적 인과적 추적 방법론 공식화
Qwen 모델에서 특정 레이어와 전문가(L44E069)의 정보 국지화 확인
Mixtral 모델에서는 단일 전문가가 아닌 다수 전문가의 연합 작용 확인
모델 구조와 프로토콜에 따라 전문가 수준의 국지화 양상이 다름을 시사

사실적 회상 (Factual recall)에 대한 인과적 추적 (Causal tracing)은 주로 밀집형 트랜스포머 (Dense transformer) 언어 모델에서 연구되어 왔으며, 여기서 개입 (Interventions)을 통해 정보 흐름을 레이어 (Layer) 또는 피드포워드 (Feed-forward) 모듈로 국지화합니다. 희소 전문가 혼합 (Sparse mixture-of-experts, MoE) 언어 모델은 더 날카로운 질문을 던집니다. 사실적 예측이 라우팅된 (Routed) MoE 블록에 의해 매개될 때, 어떤 라우팅된 전문가 (Expert)의 기여가 중요한가 하는 점입니다. 우리는 희소 MoE 언어 모델을 위한 전문가 인지적 인과적 추적 (Expert-aware causal tracing)을 공식화합니다. CounterFact 사실을 사용하여, 먼저 주어 토큰 임베딩 (Subject-token embeddings)에 노이즈를 추가함으로써 모델의 사실적 선호도를 오염시킨 후, 깨끗한 MoE 블록 출력 또는 깨끗한 전문가 수준의 업데이트가 참(True) 대 가짜(Foil) 로짓 대비 (Logit contrast)를 복구하는지 테스트합니다. Qwen3-30B-A3B-Base의 경우, 레이어 스윕 (Layer sweep)을 통해 레이어 44를 선택하고 검증하며, 전문가 수준의 추적을 통해 L44E069를 식별합니다. 이 전문가는 깨끗한 실행(Clean run)에서 반복적으로 선택되었으며, 해당 전문가의 홀드아웃 패치 (Held-out patch)가 동일 레이어 내 다른 활성 전문가 패치보다 성능이 뛰어난 것으로 나타났습니다. Mixtral-8x7B-v0.1의 경우, 레이어 수준의 추적은 중간 레이어의 신호를 검증하지만, 해당 신호가 선택된 단일 전문가 (Singleton expert)에 국지화되지는 않았습니다. 대신 연합 확인 (Coalition check)을 통해 라우팅된 다중 전문가 업데이트 (Multi-expert updates)로 이를 복구합니다. 이러한 결과는 MoE 사실적 추적이 전문가 인지적으로 이루어질 수 있음을 시사하는 동시에, 전문가 수준의 국지화가 보편적이기보다는 모델 및 프로토콜에 따라 달라진다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

희소 MoE 언어 모델의 사실적 회상에 대한 전문가 인지적 인과적 추적 (Expert-Aware Causal Tracing)

요약

핵심 포인트

댓글