arXiv논문2026. 06. 15. 11:20

매개변수 지식 주입을 위한 분리형 전문가 혼합 (Decoupled Mixture-of-Experts)

요약

LLM에 외부 지식을 효율적으로 주입하기 위한 새로운 모듈형 아키텍처인 DMoE를 제안합니다. 전문가와 라우터를 기본 모델에서 분리하여 지식 업데이트의 유연성을 높이고, KV-캐시 재사용을 유지하면서도 답변 품질을 향상시켰습니다.

핵심 포인트

기본 모델과 전문가/라우터를 분리하여 지식 주입의 유연성 확보
불확실성 인식 라우터를 통해 필요한 경우에만 전문가 모듈 활성화
최종 레이어에 전문가를 부착하여 KV-캐시 재사용 및 추론 효율성 보존
RAG 및 어댑터 방식 대비 지식 집약적 벤치마크에서 우수한 성능 증명

지식 주입 (Knowledge injection)은 대규모 언어 모델 (LLMs)에 외부의, 도메인 특화된, 또는 시간에 민감한 지식을 갖추는 것을 목표로 합니다. 기존의 접근 방식들은 일반적으로 유연성과 통합성 사이의 트레이드오프 (trade-off) 문제에 직면합니다. 검색 증강 생성 (Retrieval-augmented generation)은 지식을 모델 외부에 유지하지만 프롬프트 수준의 증강만을 제공하는 반면, 사후 학습 (post-training) 기반 방식은 새로운 지식을 공유 매개변수에 인코딩하지만 치명적 망각 (catastrophic forgetting), 지식 충돌 (knowledge conflict), 그리고 비용이 많이 드는 업데이트를 초래할 수 있습니다. 본 논문에서는 전문가 (experts)와 라우터 (router)를 기본 모델 (base model)로부터 모두 분리하는 매개변수 지식 주입을 위한 모듈형 아키텍처인 분리형 전문가 혼합 (Decoupled Mixture-of-Experts, DMoE)을 제안합니다. DMoE는 외부 지식 코퍼스 (knowledge corpora)를 독립적으로 업데이트 가능한 전문가 모듈로 변환하며, 생성 과정 중 기본 모델에 충분한 지식이 부족할 때만 관련 전문가를 활성화하기 위해 경량화된 불확실성 인식 라우터 (uncertainty-aware router)를 사용합니다. 효율적인 자기 회귀 추론 (auto-regressive inference)을 지원하기 위해, DMoE는 전문가를 최종 레이어의 피드포워드 네트워크 (feed-forward network)에만 부착하여, 매개변수 수준의 지식 증강을 가능하게 하는 동시에 KV-캐시 (KV-cache) 재사용을 보존합니다. 지식 집약적 벤치마크에 대한 실험 결과, DMoE는 검색 기반 및 어댑터 (adapter) 기반 베이스라인 모델들보다 일관되게 향상된 답변 품질을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

매개변수 지식 주입을 위한 분리형 전문가 혼합 (Decoupled Mixture-of-Experts)

요약

핵심 포인트

댓글