재학습이 아닌 선택을 배우기: Hard-Routed Mixtures of Reasoning LoRAs

독립적으로 훈련된 LoRA 어댑터들을 하나의 거대 언어 모델 (LLM)로 구성하는 것은 멀티 도메인 적응 (multi-domain adaptation)에 유용하며, 특히 원본 훈련 데이터를 공유할 수 없는 경우에 더욱 그러합니다. 일반적인 접근 방식은 LoRA 전문가 (experts)들에 대해 MoE (Mixture-of-Experts) 스타일의 라우팅을 사용하는 것이지만, 동결된 사전 훈련된 어댑터 (frozen pretrained adapters)의 경우, 소프트 가중치 결합 (soft weighted combinations)은 각 LoRA 모듈이 원래 훈련되었던 단위 규모의 가산 업데이트 (unit-scale additive update)를 변화시킬 수 있습니다.

우리는 단위 규모의 하드 선택 (unit-scale hard selection)을 통해 동결된 추론 LoRA 전문가들을 구성하기 위한 2단계 프레임워크인 \textbf{Hard-Routed MoR-LoRA}를 제안합니다. 먼저, 검증 가능한 피드백으로부터의 강화학습 (reinforcement learning from verifiable feedback)을 사용하여 도메인 특화 LoRA 어댑터들을 독립적으로 훈련시켜 추론 전문가 (reasoning experts)를 얻습니다. 그 다음, 모든 전문가를 동결하고, 이들로부터 추론 흔적 (reasoning traces)을 증류 (distill)하며, 통합을 위해 경량화된 공유 라우터 (shared router)와 작은 어텐션 LoRA (attention LoRA)만을 훈련합니다. 라우터는 하드 top-1 라우팅 (hard top-1 routing)을 사용하여 토큰당 정확히 하나의 전문가를 선택하며, Straight-Through Estimator (STE)를 통해 그래디언트 기반 훈련 (gradient-based training)을 가능하게 합니다.

5개의 벤치마크, 다양한 모델 규모 및 추가적인 모델 제품군에 걸친 실험 결과, Hard-Routed MoR-LoRA는 소프트 라우팅 혼합 (soft-routing mixture) 베이스라인보다 훨씬 적은 훈련 가능한 파라미터를 요구하면서도 전문가의 동작을 보존함을 보여줍니다. 우리의 분석은 정규화된 소프트 혼합 (normalized soft mixtures)이 종종 라우팅 질량 (routing mass)의 대부분을 단일 전문가에 집중시킨다는 것을 추가로 보여주며, 이는 하드 단위 규모 라우팅 (hard unit-scale routing)이 동결된 LoRA 전문가 구성에 대해 단순하고 효율적인 추상화를 제공함을 시사합니다.

Insights

재학습이 아닌 선택을 배우기: Hard-Routed Mixtures of Reasoning LoRAs

요약

핵심 포인트

댓글

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축

박제된 나비(Lepidoptera)의 실용적인 고충실도 신규 시점 합성 (Novel-View Synthesis)

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축