arXiv논문2026. 05. 28. 12:37

LLM의 Zeroth-Order 미세 조정(Fine-Tuning)은 추론 워크로드(Inference Workload)이다

요약

Zeroth-Order(ZO) 미세 조정이 추론 중심의 워크로드임을 입증하고, 이를 서빙 런타임에서 실행하여 학습 속도를 획기적으로 높이는 연구를 소개합니다. vLLM을 활용해 기존 방식 대비 최대 8.13배의 속도 향상을 달성하며 추론 시점 학습의 가능성을 제시합니다.

핵심 포인트

ZO 미세 조정은 역전파 대신 순전파 스코어링을 사용하는 추론 중심 워크로드임
서빙 런타임을 활용해 기존 학습 루프의 워크로드-런타임 불일치 문제 해결
vLLM 기반 실행 시 OPT-13B 모델에서 최대 8.13배 속도 향상 달성
추론 시점 학습(Inference-time training)을 위한 실질적인 경로 제시

Zeroth-order (ZO) 미세 조정 (Fine-tuning)은 역전파 (Backpropagation)를 순전파 목적 함수 평가 (Forward objective evaluations)로 대체하기 때문에 대규모 언어 모델 (LLM)에 있어 매력적입니다. 그럼에도 불구하고 기존 구현 방식들은 ZO 알고리즘의 주요 작업이 인접한 파라미터 상태에서의 반복적인 스코어링 (Scoring)임에도 불구하고, 이를 기존의 전통적인 학습 루프 (Training loops) 내부에서 실행합니다. 이는 워크로드-런타임 불일치 (Workload-runtime mismatch)를 야기합니다. 즉, 알고리즘은 구조화된 추론 스타일의 스코어링을 요구하지만, 시스템은 파편화된 학습 루프 단계의 시퀀스를 노출합니다. 본 연구에서는 LLM ZO 미세 조정이 추론 중심의 워크로드 (Inference-dominated workload)임을 입증하고, 반복적인 스코어링 단계를 서빙 런타임 (Serving runtime)을 통해 실행합니다. OPT-13B SST-2 실험 결과, 매칭된 LoRA-only 설정 하에서 vLLM 실행 경로는 20k-step LoZO 실행을 공식 LoZO 베이스라인의 4.15시간 대비 0.51 추정 학습 시간 만에 완료하여 8.13배의 속도 향상을 달기했으며, 최종 평가 정확도 0.922 및 최종 전체 검증 (Full-validation) 정확도 0.931을 달성했습니다. OPT-1.3B에서 OPT-13B에 걸친 핵심 단계 스케일링 (Core-step scaling) 실험에서도 동일한 런타임 재구성 (Runtime reorganization)을 통해 2.34배에서 7.72배의 속도 향상을 얻었습니다. MeZO 스타일의 고순위 인수 분해 (High-rank factorized) 실험은 동일한 런타임 패러다임이 MeZO와 유사한 손실 궤적 (Loss trajectory)을 추적하면서도 최대 2.55배 더 빠르게 실행될 수 있음을 보여줍니다. 더 넓게는, ZO 업데이트를 동적 어댑터 상태 (Dynamic adapter states)로 표현하는 것은 경량화된 적응 (Adaptation)을 별도의 학습 작업이 아닌 추론과 유사한 워크로드로 스케줄링할 수 있는 추론 시점 학습 (Inference-time training)을 향한 실질적인 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM의 Zeroth-Order 미세 조정(Fine-Tuning)은 추론 워크로드(Inference Workload)이다

요약

핵심 포인트

댓글