arXiv논문2026. 05. 26. 11:38

RouteScan: 전문가 라우팅 텔레메트리(Expert Routing Telemetry)를 통한 MoE LLM 안전성 감사의 비침습적 접근

요약

MoE 모델의 전문가 라우팅 패턴을 GPU 텔레메트리로 분석하여 유해성을 탐지하는 비침습적 감사 프레임워크 RouteScan을 제안합니다. 이 방식은 프롬프트 내용에 직접 접근하지 않고도 높은 정확도로 악의적 입력을 식별하며 개인정보 보호 성능도 우수합니다.

핵심 포인트

GPU 실행 텔레메트리를 활용한 비침습적 안전성 감사
프롬프트 노출 없이 유해 동작을 탐지하여 개인정보 보호 강화
새로운 탈옥 공격 환경에서 0.96의 높은 AUROC 달성
전문가 라우팅 패턴을 통한 마이크로 아키텍처 지문 활용

Mixture-of-Experts (MoE) 아키텍처는 대규모 언어 모델 (LLMs)의 규모를 확장하기 위한 점점 더 중요한 패러다임이 되었습니다. MoE 모델이 실제 서비스에 점점 더 많이 배포됨에 따라, 이러한 모델이 운영 중에 유해한 동작을 생성하거나 조장하는지 확인하기 위한 안전성 감사 (safety auditing)가 필수적이 되고 있습니다. 그러나 기존의 콘텐츠 기반 감사 방법은 일반적으로 사용자 프롬프트, 모델 입력 또는 생성된 출력에 대한 접근을 요구하며, 이는 잠재적으로 민감한 사용자 정보를 노출시키고 LLM 안전성과 사용자 개인정보 보호 사이의 근본적인 긴장을 유발합니다. 반면, 우리는 MoE 모델에서 희소 전문가 라우팅 (sparse expert routing)이 서로 다른 입력을 서로 다른 전문가 실행 패턴 (expert-execution patterns)으로 매핑하여, 저수준 GPU 실행 텔레메트리 (GPU execution telemetry)에 측정 가능한 흔적을 남긴다는 점을 관찰했습니다. 이러한 관찰에 영감을 받아, 우리는 GPU 수준의 전문가 라우팅 텔레메트리를 통해 유해한 동작을 탐지하는 비침습적 감사 프레임워크인 RouteScan을 제안합니다. 구체적으로, RouteScan은 프리필링 (prefilling) 단계 동안 전문가 모듈에 할당된 활성 GPU 스레드 (active GPU threads)의 수를 차별적인 마이크로 아키텍처 지문 (micro-architectural fingerprint)으로 활용하며, 악의적인 프롬프트를 정밀하게 식별하기 위해 도메인 간 불변 위험 지표 (cross-domain invariant risk indicators)를 격리하는 경량 탐지 파이프라인을 구축합니다. 서로 다른 라우팅 설계를 가진 오픈 소스 MoE LLM에 대한 종합적인 평가 결과, RouteScan은 강력한 일반화 성능을 달성함을 입증하였으며, 학습되지 않은 유해 도메인에서 0.93을 초과하는 AUROC를, 새로운 탈옥 래퍼 (jailbreak wrappers) 환경에서 0.96의 AUROC를 기록했습니다. 또한, 경험적 역전 테스트 (empirical inversion tests)를 통해 수집된 전문가 라우팅 텔레메트리가 프롬프트 재구성 (prompt reconstruction)에 제공하는 정보가 제한적임을 보여주었으며, 이는 콘텐츠 기반 감사 방법보다 실질적인 개인정보 보호 이점이 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RouteScan: 전문가 라우팅 텔레메트리(Expert Routing Telemetry)를 통한 MoE LLM 안전성 감사의 비침습적 접근

요약

핵심 포인트

댓글