arXiv논문2026. 05. 04. 01:39

클라이언트에서의 효율적이고 VRAM 제약이 있는 xLM 추론

요약

본 논문은 고정확도 대형 언어 모델(LLMs)과 비전 언어 모델(VLMs)을 결합한 xLMs의 효율적이고 VRAM 제약이 있는 클라이언트 추론을 목표로 합니다. 이를 위해, 밀집형 및 MoE LLM 모두에 적용 가능한 새로운 CPU-GPU 하이브리드 스케줄링 기술인 '파이프라인 샤딩(pipelined sharding)'을 제시합니다. 이 기술은 서브 레이어 레벨 모델 샤딩, CPU 오프로딩, 파이프라인 복사-계산 등을 조합하여 TTFT 및 TPS를 최적화하며, 기존의 llama.cpp 구현과 결합하여 클라이언트 xLM 추론 성능을 획기적으로 개선합니다.

핵심 포인트

xLMs(LLM+VLM)의 효율적인 클라이언트 측 추론이 핵심 목표이며, VRAM 제약 문제를 해결하는 데 중점을 두었습니다.
새로운 기술인 '파이프라인 샤딩(pipelined sharding)'을 도입하여 CPU-GPU 하이브리드 스케줄링을 구현했습니다.
서브 레이어 레벨 모델 샤딩, CPU 오프로딩, 파이프라인 복사-계산 등의 기법을 조합하여 성능과 메모리 효율성을 극대화합니다.
실험 결과, 인터랙티브 사용 시 LLM의 TTFT가 최대 6.7배, TPS가 최대 30배 개선되었으며, VRAM 요구량은 1/10로 감소했습니다.

다음 단계의 클라이언트 AI 혁신을 맞이하기 위해, 고정확도 대형 언어 모델 (LLMs) 과 비전 언어 모델 (VLMs) 을 합쳐서 xLMs 라고 부르는 것들의 효율적이고 손실 없는 추론을 클라이언트 시스템에서 가능하게 하는 것이 시급합니다. 이를 해결하기 위해, 우리는 밀집형과 전문가 혼합 (MoE) LLM 에 모두 대해 효율적이고 VRAM 제약이 있는 추론을 달성하는 새로운 벤치마크 프로파일 가이드 기반 CPU-GPU 하이브리드 스케줄링 기술인 파이프라인 샤딩 (pipelined sharding) 을 제시합니다. 서브 레이어 레벨의 모델 샤딩, CPU 오프로딩, 파이프라인 복사-계산, 그리고 VRAM 내 우선순위 텐서 배치의 조합을 사용하여, 이 기술은 첫 토큰까지의 시간 (TTFT) 과 초당 토큰 수 (TPS) 지표를 최적화하면서도 시스템 및 추론 조건에 유연하게 적응합니다. 효율적이고 고정확도의 VLM 추론을 위해, 우리는 파이프라인 샤딩과 세 가지 잘 알려진 이전 아이디어 (함께 VLMOpt 라고 불림) 의 llama.cpp 구현을 결합합니다. 이 아이디어들은 비전 텐서 CPU 오프로딩, 플래시 어텐션, 그리고 비전 및 언어 모델 VRAM 오버랩 회피입니다. 이러한 개선 사항은 향후 NVIDIA 제품 두 가지의 출시에서 클라이언트 xLM 추론 개선을 목표로 합니다. 즉, 인게임 인퍼런싱 소프트웨어 개발 키트 (IGI SDK) 와 코스모스-리즌1 (CR1) 물리적 AI 추론 VLM 입니다. 우리 엄격한 평가에서 도출된 하이라이트는 여러 모델과 클라이언트 시스템을 아우르며, 인터랙티브 사용의 경우 LLM 에 대해 TTFT 가 최대 6.7 배 개선되고 TPS 가 최대 30 배 개선되며, CR1 추론의 VRAM 요구량은 10 분의 1 로 감소하고, 배치 모드에서는 처리량이 최대 8.2 배 개선됩니다. 이는 모두 각각의 공격적인 베이스라인과 비교한 결과입니다. 이 논문은 2026 년 제 9 회 MLSys 컨퍼런스 (산업 트랙) 에 수락되었습니다. 코드와 아티팩트는 다음에서 이용 가능합니다: https://github.com/deepshnv/pipeshard-mlsys26-ae

AI 자동 생성 콘텐츠

원문 바로가기

클라이언트에서의 효율적이고 VRAM 제약이 있는 xLM 추론

요약

핵심 포인트

댓글