arXiv논문2026. 06. 01. 11:32

UniScale: 모델 라우팅과 테스트 시간 스케일링의 온라인 공동 최적화를 통한 적응형 통합 추론 스케일링

요약

UniScale은 모델 라우팅과 테스트 시간 스케일링(TTS)을 단일 최적화 공간으로 통합한 새로운 추론 프레임워크입니다. LinUCB 알고리즘을 활용해 동적인 환경에서 추론 품질과 계산 비용 사이의 최적의 균형을 온라인으로 학습합니다.

핵심 포인트

모델 라우팅과 TTS의 통합을 통한 추론 스케일링 최적화
문맥적 다중 팔 강도(MAB) 문제로 모델링하여 적응형 정책 학습
LinUCB 기반의 온라인 프레임워크를 통한 효율적인 비용 모델링
기존 방식 대비 미세하고 일관된 품질-비용 트레이드오프 달성

대규모 언어 모델 (LLMs)의 실제 배포 환경에서 추론 품질과 계산 비용 사이의 균형을 맞추는 것은 핵심적인 과제가 되었습니다. 기존의 접근 방식들은 이 트레이드오프 (trade-off)를 크게 두 가지 독립적인 차원에서 다룹니다. 하나는 요청의 복잡도에 맞춰 서로 다른 규모의 모델 사이를 전환하는 모델 라우팅 (model routing)이고, 다른 하나는 미세한 제어를 위해 고정된 모델 내에서 추론 시간의 계산량을 조절하는 테스트 시간 스케일링 (test-time scaling, TTS)입니다. 그러나 이러한 분리된 설계는 본질적인 한계를 초래합니다. 모델 라우팅은 모델 규모의 집합이 희소하기 때문에 거친 입도 (coarse-grained)의 이산적인 성능 변화를 야기하며, 단일 모델 TTS는 종종 용량 한계에 부딪히고 계산량이 증가함에 따라 수익 체감 현상을 보입니다. 더욱이, 두 메커니즘을 별개로 취급하는 것은 동적인 추론 환경에서의 적응성을 제한합니다. 이러한 한계를 극복하기 위해, 우리는 모델 라우팅과 TTS를 단일 최적화 공간으로 통합하는 통합 추론 스케일링 (Unified Inference Scaling, UIS)을 소개합니다. 이 정식화 (formulation)를 바탕으로, 우리는 적응형 UIS를 문맥적 다중 팔 강도 (contextual multi-armed bandit) 문제로 모델링하고 LinUCB를 통해 추론 정책을 학습하는 온라인 프레임워크인 UniScale을 제안합니다. 이 프레임워크는 고차원 행동 공간 (action spaces)에서 안정적이고 확장 가능한 최적화를 보장하기 위해 효율성 인식 학습 (efficiency-aware learning)과 비용 모델링 (cost modeling)을 통합합니다. 평가 결과, UniScale은 UIS 공간에서의 시너지 효과를 효과적으로 활용하여 다양하고 동적인 추론 시나리오 전반에 걸쳐 미세하고 일관되게 더 나은 품질-비용 트레이드오프를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

UniScale: 모델 라우팅과 테스트 시간 스케일링의 온라인 공동 최적화를 통한 적응형 통합 추론 스케일링

요약

핵심 포인트

댓글