aerlabsAI/ai-inference-resources
요약
LLM 추론 시스템 최적화를 위한 핵심 리소스를 큐레이션한 자료입니다. 서빙 엔진 비교, GPU 커널, 양자화, MoE 모델 분석 및 비용 절감 전략 등 엔지니어링 관점의 심도 있는 주제들을 다룹니다.
핵심 포인트
- vLLM, TGI 등 다양한 LLM 서빙 엔진의 트레이드오프 분석
- MoE 모델과 Dense 모델의 추론 효율성 및 비용 비교
- 결정론적(Deterministic) 추론을 위한 기술적 접근법
- LLM 추론 비용 절감 및 스케일링 법칙에 대한 통찰
AI 추론 (Inference) 시스템을 다루는 엔지니어들을 위해 큐레이션된 리소스 모음입니다 — LLM 서빙 (Serving), GPU 커널 프로그래밍 (Kernel Programming), 어텐션 메커니즘 (Attention Mechanisms), 양자화 (Quantization)
11 Production LLM Serving Engines: vLLM vs TGI vs Ollama - TechLatest. 다양한 배포 시나리오에 따른 트레이드오프 (Trade-off) 분석을 포함한 11가지 프로덕션 LLM 서빙 엔진 (Serving Engines)에 대한 비교 조사.
How Fast Can We Perform a Forward Pass? - Bounded Regret. kipply의 Transformer 추론 산술 (Transformer Inference Arithmetic)을 보완하는, 트랜스포머 (Transformer) 순전파 (Forward Pass) 속도에 대한 이론적 및 실질적 한계 분석.
How Do MoE Models Compare to Dense Models in Inference? - Epoch AI. 추론 비용, 효율성 및 디코딩 역학 (Decoding Dynamics)에 초점을 맞춘 전문가 혼합 (Mixture-of-Experts, MoE) 모델과 밀집 (Dense) 모델의 비교.
LLM Routing - Xunzhuo Liu. 작업 특성에 따라 요청을 최적의 모델로 유도하기 위한 LLM 라우팅 (Routing) 전략 개요.
How LLM Inference Works - Arpit Bhayani. 토큰화 (Tokenization), 임베딩 (Embedding), 자기회귀 생성 (Autoregressive Generation)을 아우르는 프롬프트 (Prompt)부터 응답까지의 LLM 추론 (Inference) 과정에 대한 엔드 투 엔드 (End-to-end) 설명.
Defeating Nondeterminism in LLM Inference - Thinking Machines Lab. LLM 추론이 왜 재현 불가능한 결과를 생성하는지 탐구하고, 결정론적 (Deterministic) 출력을 달성하기 위한 기술들을 조사.
Densing Law of LLMs - Nature Machine Intelligence. LLM을 평가하기 위한 지표로서 "능력 밀도" (Capability Density, 파라미터당 능력)를 소개하며, 모델 효율성에 대한 경험적 스케일링 법칙 (Scaling Law)을 밝힘.
Enabling Deterministic Inference for SGLang - LMSYS Org. 재현 가능한 추론 결과를 가능하게 하기 위해 SGLang에 배치 불변 커널 (Batch-invariant Kernels)을 통합한 상세 내용.
The Next 1000x Cost Saving of LLM - Ralph Mao. LLM의 토큰당 비용이 약 1000배 감소한 방식과 스택 전반에 걸쳐 다음 비용 절감의 물결이 어디에서 올 것인지에 대한 분석.
Rethinking Thinking Tokens: LLMs as Improvement Operators - arXiv. 컨텍스트 길이 (Context Length)와 토큰 비용을 늘리지 않고 모델이 메타인지 (Metacognition)를 활용하여 더 나은 추론을 제공할 수 있는지에 대한 탐구.
-
Pretraining vs RL이 학습하는 방식에 대한 고찰 (Thinking Through How Pretraining vs RL Learn) - Dwarkesh Patel. 사전 학습 (Pretraining)과 강화학습 (Reinforcement Learning, RL)이 학습 역학 (Learning Dynamics) 측면에서 어떻게 다른지 분석하며, 이는 RLVR (Reinforcement Learning from Verifiable Rewards)의 발전에도 시사점을 제공함.
AI 추론의 에너지 사용: 효율성 경로와 테스트 시간 연산 (Energy Use of AI Inference: Efficiency Pathways and Test-Time Compute) - arXiv. 스케일링이 수십억 건의 쿼리에 도달함에 따라 AI 추론 시 쿼리당 에너지 사용량을 분석하며, 용량 계획, 탄소 배출량 산정 및 효율성 우선순위 결정을 위한 추정치를 제공함.
더 넓게 혹은 더 깊게? 적응형 병렬 추론을 통한 LLM 추론 시간 연산 스케일링 (Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Parallel Reasoning) - OpenReview. 반복적인 샘플링 (Sampling)과 적응형 병렬 추론 (Adaptive Parallel Reasoning)을 통해 추론 시간 연산 (Inference-time Computation)을 늘리는 것이 어떻게 LLM의 추론 능력을 향상시키는지 분석함.
Souper Model: 단순 산술 연산이 어떻게 최첨단 LLM 성능을 끌어내는가 (Souper Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance) - Meta AI. 단순한 모델 병합 (Model Merging) 산술 연산이 어떻게 최첨단 (State-of-the-art) LLM 성능을 달성하는지에 대한 연구.
-
Hyperparameters가 전부다: 최적의 확산 스케줄을 위한 5단계 추론 사용 (Hyperparameters are all you need: Using five-step inference for an optimal diffusion schedule) - Zenodo. 확산 (Diffusion) ODE/SDE 솔버의 절단 오차 (Truncation Error) 분석 및 최소한의 하이퍼파라미터 (Hyperparameter) 튜닝을 통한 최적의 추론 스케줄링 분석.
LLM 추론 엔진의 이해: Nano-vLLM 내부 살펴보기 (Part 1) (Understanding LLM Inference Engines: Inside Nano-vLLM (Part 1)) - Neutree. 최소 기능의 vLLM 재구현을 통해 스케줄링 (Scheduling), 배치 (Batching), 메모리 관리 (Memory Management)를 다루며 LLM 추론 엔진의 내부 구조를 교육적으로 설명함.
vLLM 아키텍처 심층 분석 (vLLM Architectural Deep Dive) - Ayush Satyam (Modus Labs). vLLM의 아키텍처, 고처리량 서빙 (High-throughput Serving) 설계 및 주요 구현 결정 사항을 다루는 발표.
vLLM vs SGLang 벤치마크 보고서 (vLLM vs SGLang Benchmark Report) - Cloud-Linuxer. Qwen-8B 모델을 대상으로 vLLM과 SGLang 추론 엔진의 성능을 나란히 비교함.
vLLM의 부상: 오픈 소스 LLM 추론 엔진 구축하기 (The Rise of vLLM: Building an Open Source LLM Inference Engine) - Anyscale. vLLM이 연구 프로젝트에서 지배적인 오픈 소스 LLM 추론 엔진으로 진화한 과정을 다룬 영상.
SGLang - SGLang. RadixAttention과 구조화된 생성 (Structured Generation)을 지원하며 대규모 언어 및 시각 모델을 위한 빠른 서빙 프레임워크인 SGLang의 공식 사이트.
SGLang: An Efficient Open-Source Framework for Large-Scale LLM Serving - Anyscale. 대규모 LLM 서빙 (Serving)을 위한 SGLang의 아키텍처 및 성능 최적화에 관한 비디오 발표.
SGLang Cookbook - SGLang. 프로덕션 환경에서 SGLang을 사용하기 위한 실용적인 레시피와 패턴을 담은 공식 쿡북 (Cookbook).
mini-sglang - SGLang Project. 교육적 목적을 위한 SGLang의 최소 구현체로, 핵심 엔진 설계를 이해하는 데 유용함.
vLLM-Style Fast Inference Engine: Building from Scratch on CPU - Al Amin Ibrahim. PagedAttention과 연속 배치 (Continuous Batching)를 처음부터 구현하는 실습 가이드로, vLLM의 핵심 혁신 기술을 파헤침.
Disaggregated Inference at Scale with PyTorch and vLLM - PyTorch Blog. 대규모 환경에서 자원 활용도를 높이기 위해 분리된 추론 (Disaggregated Inference)이 어떻게 프리필 (Prefill) 단계와 디코드 (Decode) 단계를 분리하는지 설명함.
Ray Serve: Reduce LLM Inference Latency by 60% with Custom Request Routing - Anyscale. 다회차 (Multi-turn) LLM 대화에서 지연 시간 (Latency)을 크게 줄이기 위해 Ray Serve에서 프리픽스 캐싱 (Prefix Caching) 및 캐시 인식 라우팅 (Cache-aware Routing)을 사용하는 방법을 보여줌.
vLLM Concurrency Demo - Regan Milne. 서빙 성능 벤치마킹에 유용한 RTX 4090 기반의 Prometheus/Grafana 모니터링을 포함한 단일 GPU vLLM 동시성 (Concurrency) 테스트 설정.
vLLM - Why Requests Take Hours Under Load - dotieuthien. 과부하 상황에서 왜 vLLM 요청이 2~3시간씩 걸릴 수 있는지에 대한 분석으로, KV 캐시 블록 고갈 및 큐 기아 (Queue Starvation) 현상을 진단함.
vLLM Semantic Router v0.1 Iris - vLLM Blog. 모델 선택, 안전 필터링 (Safety Filtering), 시맨틱 캐싱 (Semantic Caching) 및 지능형 요청 라우팅을 결합한 Mixture-of-Models 라우팅을 위한 시스템 수준의 지능형 도구.
vLLM KV Offloading Connector - vLLM Blog. 추론 처리량 (Throughput) 향상을 위한 호스트-장치 간 처리량 최적화를 다루며, vLLM 0.11.0의 CPU DRAM으로의 KV 캐시 오프로딩 (Offloading)에 대해 심층 분석함.
vLLM-Omni v0.12.0rc1 - vLLM Project. 45명의 기여자가 187개의 커밋을 통해 멀티모달 (Multi-modal) 추론 기능에 집중하여 진행한 주요 릴리스.
vLLM Metal: Apple Silicon Plugin - vLLM Project. Apple Silicon GPU에서 vLLM을 사용할 수 있게 해주는 커뮤니티 유지 관리 하드웨어 플러그인 (Hardware Plugin).
vLLM Daily - vLLM Project. vLLM 저장소(Repository)에 병합된 PR(Pull Request)들을 매일 요약하며, 개발 속도와 기능을 추적하는 데 유용함.
MiMo-V2-Flash: Efficient Reasoning and Agentic Foundation Model - Xiaomi. vLLM 레시피를 활용한 효율적인 추론 (Reasoning), 코딩, 그리고 에이전트 기반 파운데이션 모델 (Agentic Foundation Model).
SGLang: Enable Return Routed Experts (PR #12162) - ocss884. MiMo의 R3 프로토콜을 기반으로, 강화학습 (RL) 훈련 통합을 위해 순전파 (Forward Pass) 과정 중 라우팅된 전문가 (Routed Experts)를 반환할 수 있도록 SGLang에 기능을 추가함.
optillm: Optimizing Inference Proxy for LLMs - Algorithmic Superintelligence. 처리량 (Throughput)과 비용 효율성을 개선하기 위해 클라이언트와 LLM 엔드포인트 (Endpoint) 사이에 위치하는 추론 최적화 프록시 (Inference Proxy).
SGLang Diffusion: Accelerating Video and Image Generation - LMSYS Org. 이미지 및 비디오 생성을 위한 디퓨전 모델 (Diffusion Model) 추론에 SGLang의 최첨단 서빙 (Serving) 성능을 도입함.
Turbocharging LinkedIn's Recommendation Systems with SGLang - LinkedIn Engineering. LinkedIn이 대규모 추천 시스템을 가속화하기 위해 SGLang을 어떻게 통합했는지에 대한 내용.
Advancing Low-Bit Quantization for LLMs: AutoRound x LLM Compressor - vLLM Blog. Intel의 AutoRound와 LLM Compressor 통합을 통해 더 빠르고 효율적인 LLM 서빙을 달성함.
Token-Level Truth: Real-Time Hallucination Detection (HaluGate) - vLLM Blog. 프로덕션 LLM 시스템을 위해 토큰 레벨 (Token-level)에서 실시간 외재적 환각 (Extrinsic Hallucination)을 탐지함.
NVIDIA Nemotron 3 Nano on vLLM - vLLM Blog. vLLM에서 NVIDIA Nemotron 3 Nano를 사용하여 매우 효율적이고 정확한 AI 에이전트 (AI Agents)를 실행함.
AMD x vLLM Semantic Router - vLLM Blog. LLM 라우팅 (Routing)을 위한 시스템 레벨의 지능을 구축하기 위한 AMD와 vLLM의 협업.
vLLM Large Scale Serving: DeepSeek @ 2.2k tok/s/H200 with Wide-EP - vLLM Blog. 랙 규모 (Rack scale)에서 Wide 전문가 병렬화 (Wide Expert Parallelism)를 통해 H200 GPU당 2,200 토큰/초 (tokens/s)의 속도로 DeepSeek를 서빙함.
vLLM Semantic Router + NVIDIA Dynamo Integration Demo - Abdallah Samara. 지능형 추론 라우팅 (inference routing)을 위해 NVIDIA Dynamo와 통합된 vLLM Semantic Router의 엔드 투 엔드 (end-to-end) 데모.
Intelligent LLM Inferencing via vLLM Semantic Router + LLM-D - AI Cloud Clarity. 지능형 대규모 LLM 추론을 위해 vLLM Semantic Router와 LLM-D를 결합하는 방법에 관한 영상.
vLLM Router - vLLM Project. vLLM 대규모 배포를 위한 고성능, 경량 라우터 (router).
vLLM-Omni Diffusion Acceleration - vLLM. vLLM-Omni를 사용하여 디퓨전 모델 (diffusion model) 추론을 가속화하는 가이드.
Awesome vLLM Plugins - Bud Ecosystem. 확장된 기능을 위해 vLLM을 기반으로 구축된 플러그인 (plugins) 큐레이션 목록.
PowerInfer: High-Speed LLM Serving for Local Deployment - SJTU IPADS. 뉴런 인식 희소 계산 (neuron-aware sparse computation)을 통해 소비자급 GPU에 최적화된 빠른 LLM 추론 엔진.
Tokenflood: Load Testing for LLMs - twerkmeister. 지시어 미세 조정된 (instruction-tuned) LLM에 임의의 부하를 시뮬레이션하기 위한 부하 테스트 (load testing) 프레임워크.
LMCache: Efficient KV Cache Layer for Enterprise-Scale Inference - arXiv. 기업 규모에서 교차 쿼리 (cross-query) 및 교차 엔진 캐시 재사용을 위해 KV 캐시 (KV caches)를 GPU 장치 외부로 이동.
Optimizing Inference with NVFP4 KV Cache - Eduardo Alvarez, NVIDIA. 긴 컨텍스트 (long context) 및 대규모 배치 (large batch) 추론을 위한 메모리 사용량 감소를 위해 KV 캐시에 FP4 양자화 (quantization) 사용.
Tensor Parallel (NanoVLLM) - Liyuan. NanoVLLM에서 커널 퓨전 (kernel fusion)을 사용한 텐서 병렬 (Tensor parallel) 구현으로, 모델 가중치 (model weights)와 KV 캐시를 GPU 간에 분산.
Prompt Caching - ngrok. LLM 애플리케이션에서 지연 시간 (latency)과 비용을 줄이기 위한 프롬프트 캐싱 (prompt caching) 구현 실무 가이드.
vLLM-Omni: Omni-Modality Model Serving - vLLM Project. 옴니-모달리티 (omni-modality) 모델을 위한 고처리량 및 메모리 효율적 추론 및 서빙 엔진.
Announcing vLLM-Omni: Easy, Fast, and Cheap Omni-Modality Model Serving - vLLM Blog. 차세대 옴니-모달리티 모델을 위한 vLLM 생태계의 주요 확장인 vLLM-Omni의 공식 발표.
FriendliAI, Qwen3 235B 추론 속도 3배 향상 달성 - FriendliAI. 최적화된 MoE 인식 (MoE-aware) 인프라를 통해 표준 vLLM 대비 최대 3배 빠른 Qwen3-235B 추론 성능을 입증하는 벤치마크.
Together AI, 주요 오픈 소스 모델에 대해 가장 빠른 추론 제공 - Together AI. NVIDIA Blackwell에서 GPU 최적화, 추측적 디코딩 (Speculative Decoding), 그리고 FP4 양자화 (Quantization)를 통해 Qwen, DeepSeek, Kimi에 대해 최대 2배 빠른 추론 달성.
vLLM Gaudi 문서 - vLLM. Intel Gaudi 가속기에서 vLLM을 실행하기 위한 문서.
vLLM v0.12.0 릴리스 - vLLM Project. PyTorch 2.9.0 업그레이드, CUDA 12.9, 그리고 V0 지원 중단 (Deprecation)을 포함하여 213명의 기여자로부터 474개의 커밋이 반영된 주요 릴리스.
vLLM에서 DeepSeek-V3 사용 팁 - vLLM. vLLM으로 DeepSeek-V3를 서빙하기 위한 실질적인 사용 팁.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub ML Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기