분리형 추론(Disaggregated Inference)에서의 무질서 비용(Price of Anarchy)
요약
분리형 추론(Disaggregated Inference) 아키텍처에서 발생하는 자원 경쟁과 무질서 비용(PoA)을 게임 이론으로 분석한 연구입니다. GPU 포화 상태에 따른 지연 시간 변화를 규명하고, 이를 최적화하기 위한 적응형 컨트롤러를 제안합니다.
핵심 포인트
- 분리형 추론을 자원, 캐싱, 혼잡의 세 가지 게임 모델로 분석
- GPU 포화 시 이기적 행동으로 인한 무질서 비용(PoA) 급증 확인
- 포화 상태를 감지하여 라우팅을 조정하는 적응형 컨트롤러 설계
- Llama-3.1 및 Nemotron 모델 실험을 통해 PoA 감소 및 성능 개선 검증
분리형 추론 (Disaggregated inference) 아키텍처는 프리필 (prefill) 단계와 디코드 (decode) 단계를 서로 다른 GPU 풀로 물리적으로 분리하여, 고정된 하드웨어 예산을 공유하는 경쟁적인 "에이전트 (agents)"를 생성합니다. 본 논문에서는 저희가 알고 있는 한, NVIDIA Dynamo를 구체적인 사례 연구로 사용하여 이 아키텍처에 대한 최초의 공식적인 게임 이론적 분석을 제공합니다. 저희는 분리형 서빙 (disaggregated serving)을 세 가지 결합된 게임으로 모델링합니다: 프리필 풀과 디코드 풀 사이의 2인 자원 게임 (two-player resource game), 계층적 KV 캐시 (hierarchical KV cache)에 대한 이기적 캐싱 게임 (selfish caching game), 그리고 요청 라우팅 (request routing)에 대해 양의 외부효과 (positive externalities)를 갖는 혼잡 게임 (congestion game)입니다. 저희는 후자의 두 게임을 경험적으로 검증하였으며, P/D 자원 게임은 분석적으로 처리하였습니다 (섹션 9.2). 저희는 GPU 포화 (saturation)가 게임의 보상 구조를 변화시키는 체제 전환 (regime transitions)을 어떻게 유도하는지 규명합니다: 포화 상태 미만에서는 이기적 행동의 무질서 비용 (Price of Anarchy, PoA)이 제한적이지만, 포화 상태에서는 초선형적 지연 시간 (superlinear latency)과 캐시 외부효과가 저희의 경험적 추정치인 $\widehat{PoA}$ (섹션 6.4에서 정의됨)를 상승시킵니다. 이 분석을 바탕으로, 저희는 포화 전환을 실시간으로 감지하고 그에 따라 라우팅 파라미터를 조정하여, 캐시 친화성 (cache-affinity) 활용에서 부하 분산형 혼잡 회피 (load-balanced congestion avoidance)로 전환하는 적응형 컨트롤러 (adaptive controller)를 설계합니다. 저희는 Nemotron-4-340B (TP=8, cross-InfiniBand KV 전송을 포함한 풀 노드 워커)와 Llama-3.1-70B (TP=4) 두 모델을 사용하여 Dynamo를 실행하는 3-노드 NVIDIA B200 클러스터에서 저희의 프레임워크를 구현하였으며, 두 모델 모두에서 동일한 첫 번째 포스트-니(post-knee) 그리드 지점 (C=128)을 갖는 동일한 세 가지 체제 $\widehat{PoA}$ 구조를 발견했습니다. 적응형 라우팅은 각 모델을 더 나은 동작 지점으로 이동시킵니다. 가장 강력한 결과는 70B 1P/5D 토폴로지에서 나타나는데, 여기서 13%의 처리량 (throughput) 비용으로 포화 단계의 $\widehat{PoA}$가 3.1배 (66.4에서 21.5로) 감소했습니다. 70B 1P/2D의 경우, $\widehat{PoA}$는 2.2배 감소하고 TTFT P99는 7.6배 감소했습니다 (섹션 8.5 참조).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기