LayerRoute: LoRA 미세 조정(Fine-Tuning)을 통한 에이전트형 언어 모델의 입력 조건부 적응형 레이어 스킵(Layer
요약
에이전트형 언어 모델의 효율성을 높이기 위해 입력 조건에 따라 Transformer 블록을 선택적으로 건너뛰는 LayerRoute 기술을 제안합니다. LoRA와 경량 라우터를 결합하여 백본 가중치를 동결한 채로 매우 적은 파라미터만 사용하여 연산 효율을 극대화했습니다.
핵심 포인트
- 입력 유형(도구 호출 vs 계획)에 따라 연산량을 동적으로 조절
- LoRA와 하드 이진 게이트를 결합한 경량 어댑터 방식
- 도구 호출 시 FLOPs의 15.25%를 절감하며 성능 향상 유지
- 전체 파라미터의 0.22%만 사용하여 매우 효율적인 학습 가능
에이전트형 언어 모델(Agentic language model) 시스템은 구조적으로 구별되는 두 가지 단계 유형을 번갈아 수행합니다: 구조화된 도구 호출(structured tool calls, 짧고 결정론적이며 낮은 perplexity)과 개방형 계획/추론 단계(open-ended planning/reasoning steps, 길고 복잡하며 높은 perplexity)입니다. 이러한 이질성에도 불구하고, 현재의 추론(inference) 시스템은 모든 단계에 동일한 연산량을 적용합니다. 우리는 입력별로 Transformer 블록을 선택적으로 건너뛰는 법을 학습하는 경량 어댑터인 LayerRoute를 소개합니다. LayerRoute는 Qwen2.5-0.5B-Instruct의 24개 Transformer 블록 각각에 다음을 추가하여 보강합니다: (1) straight-through estimator를 통해 하드 이진 게이트(hard binary gate)를 출력하는 레이어별 라우터(per-layer router, 약 897개 파라미터, Linear(896,1)), 그리고 (2) Q/K/V/O 어텐션 투영(attention projections)에 적용된 LoRA 어댑터(rank 8, 약 1.08M 파라미터). 백본(backbone) 가중치는 동결(frozen) 상태로 유지됩니다. 게이트 정규화 항(gate regularisation term)을 포함하여 에이전트 데이터(Hermes, Glaive, GSM8K, Turing)로 단 한 번의 엔드 투 엔드(end-to-end) 학습을 수행함으로써, 시스템이 입력 유형별로 어떤 블록을 건너뛸 수 있는지 발견하도록 강제합니다. 3,000 스텝(A100 40GB에서 6.4분) 이후, LayerRoute는 12.91%의 스킵 차이(skip differential)를 달성했습니다. 즉, 도구 호출은 FLOPs의 15.25%를 건너뛰는 반면 계획 단계는 2.34%만 건너뜁니다. 이때 사용된 학습 가능한 파라미터는 단 1.10M(494M 백본의 0.22%)에 불과합니다. 품질은 LoRA 적응(adaptation) 덕분에 베이스 모델보다 향상되었으며, perplexity 변화량(delta)은 도구 호출에서 -1.29, 계획 단계에서 -1.30을 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기