재학습이 아닌 선택을 배우기: Hard-Routed Mixtures of Reasoning LoRAs
요약
동결된 LoRA 어댑터들을 효율적으로 결합하기 위한 2단계 프레임워크인 Hard-Routed MoR-LoRA를 제안합니다. 하드 top-1 라우팅을 통해 각 전문가의 특성을 보존하면서도 적은 파라미터로 멀티 도메인 적응 성능을 극대화합니다.
핵심 포인트
- 동결된 LoRA 전문가를 위한 하드 단위 규모 선택 방식 제안
- 강화학습과 증류 기법을 결합한 2단계 훈련 프레임워크
- 소프트 라우팅 대비 적은 파라미터로 전문가 동작 보존
- Straight-Through Estimator를 통한 그래디언트 기반 훈련 가능
독립적으로 훈련된 LoRA 어댑터들을 하나의 거대 언어 모델 (LLM)로 구성하는 것은 멀티 도메인 적응 (multi-domain adaptation)에 유용하며, 특히 원본 훈련 데이터를 공유할 수 없는 경우에 더욱 그러합니다. 일반적인 접근 방식은 LoRA 전문가 (experts)들에 대해 MoE (Mixture-of-Experts) 스타일의 라우팅을 사용하는 것이지만, 동결된 사전 훈련된 어댑터 (frozen pretrained adapters)의 경우, 소프트 가중치 결합 (soft weighted combinations)은 각 LoRA 모듈이 원래 훈련되었던 단위 규모의 가산 업데이트 (unit-scale additive update)를 변화시킬 수 있습니다.
우리는 단위 규모의 하드 선택 (unit-scale hard selection)을 통해 동결된 추론 LoRA 전문가들을 구성하기 위한 2단계 프레임워크인 \textbf{Hard-Routed MoR-LoRA}를 제안합니다. 먼저, 검증 가능한 피드백으로부터의 강화학습 (reinforcement learning from verifiable feedback)을 사용하여 도메인 특화 LoRA 어댑터들을 독립적으로 훈련시켜 추론 전문가 (reasoning experts)를 얻습니다. 그 다음, 모든 전문가를 동결하고, 이들로부터 추론 흔적 (reasoning traces)을 증류 (distill)하며, 통합을 위해 경량화된 공유 라우터 (shared router)와 작은 어텐션 LoRA (attention LoRA)만을 훈련합니다. 라우터는 하드 top-1 라우팅 (hard top-1 routing)을 사용하여 토큰당 정확히 하나의 전문가를 선택하며, Straight-Through Estimator (STE)를 통해 그래디언트 기반 훈련 (gradient-based training)을 가능하게 합니다.
5개의 벤치마크, 다양한 모델 규모 및 추가적인 모델 제품군에 걸친 실험 결과, Hard-Routed MoR-LoRA는 소프트 라우팅 혼합 (soft-routing mixture) 베이스라인보다 훨씬 적은 훈련 가능한 파라미터를 요구하면서도 전문가의 동작을 보존함을 보여줍니다. 우리의 분석은 정규화된 소프트 혼합 (normalized soft mixtures)이 종종 라우팅 질량 (routing mass)의 대부분을 단일 전문가에 집중시킨다는 것을 추가로 보여주며, 이는 하드 단위 규모 라우팅 (hard unit-scale routing)이 동결된 LoRA 전문가 구성에 대해 단순하고 효율적인 추상화를 제공함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기