SemiAnalysisAI/InferenceX

요약

InferenceX는 주요 AI 모델과 오픈 소스 추론 프레임워크의 성능을 실시간으로 분석하고 벤치마킹하는 연구 플랫폼입니다. NVIDIA Blackwell, AMD, Hopper 등 하드웨어와 최신 LLM의 추론 성능 지표를 대시보드를 통해 무료로 제공합니다.

핵심 포인트

오픈 소스 추론 프레임워크의 실시간 성능 추적 및 벤치마킹
최신 LLM(DeepSeek, Qwen, MiniMax 등)의 실시간 대시보드 운영
NVIDIA, AMD 등 하드웨어별 추론 성능 비교 분석 제공
공식 InferenceX 저장소를 통한 데이터 신뢰성 확보 강조

OpenAI, Meta, Microsoft, Oracle 등 조 단위 토큰 팩토리(Token Factories) 운영자들과 PyTorch Foundation, vLLM, SGLang, Tri Dao와 같은 ML 커뮤니티가 신뢰합니다.

**[2026/06]**🔥 MiniMax M3: Day 0부터 실시간 벤치마크 대시보드(dashboard) 운영 중
**[2026/04]**🔥 DeepSeek V4 Pro 1.6T: Day 0부터 실시간 벤치마크 아티클(article) 및 대시보드(dashboard) 운영 중
**[2026/03]**🔥 Qwen3.5 397B: Day 0부터 실시간 벤치마크 대시보드(dashboard) 운영 중
**[2026/03]**Kimi K2.5 (Kimi 2.7-Code와 동일한 아키텍처), GLM5 (GLM5.1과 동일한 아키텍처), MiniMax M2.5 (MiniMax M2.7와 동일한 아키텍처) 대시보드(dashboard) 추가
**[2026/02]**GB300 NVL72: InferenceX에 추가되었으며 SGLang 메인테이너(Maintainer) Lmsys 블로그(Blog)를 통해 지속적으로 벤치마크 수행 중
**[2026/02]**🔥 InferenceX v2 출시 — NVIDIA Blackwell vs AMD vs Hopper 아티클(article)
**[2025/10]**🔥 InferenceX (이전 명칭 InferenceMAX) v1 출시 아티클(article)

InferenceX™ (이전 명칭 InferenceMAX)는 주요 토큰 팩토리(token factories)와 모델들이 사용하는 세계에서 가장 인기 있는 오픈 소스 추론 프레임워크(inference frameworks)를 지속적으로 분석 및 벤치마킹하여 실제 성능을 실시간으로 추적하는 데 전념하는 추론 성능 연구 플랫폼입니다. 이러한 소프트웨어 스택(software stacks)이 개선됨에 따라, InferenceX™는 그 진보를 거의 실시간으로 포착하여 추론 성능 발전의 실시간 지표를 제공합니다. 오픈 소스로 공개된 실시간 대시보드(live dashboard)는 https://inferencex.com/ 에서 누구나 무료로 이용할 수 있습니다.

중요 사항

오직 SemiAnalysisAI/InferenceX 저장소(repo)만이 공식 InferenceX™ 결과를 포함하며, 다른 모든 포크(forks) 및 저장소(repos)는 비공식(Unofficial)입니다. 비공식 저장소의 벤치마크 설정 및 머신/클라우드(machines/clouds)의 품질은 다를 수 있으며, 이로 인해 수준 미달의 벤치마킹이 발생할 수 있습니다. 비공식(Unofficial)은 반드시 명시적으로 비공식이라고 표기되어야 합니다. 포크(Forks)라 할지라도 이 면책 조항을 제거해서는 안 됩니다.

InferenceX DeepSeekv4 MXFP4 Performance Curve

Apache2 라이선스 하의 오픈 소스이며, 소프트웨어 생태계 자체의 빠른 속도에 맞춰 움직이도록 설계된 자동화된 벤치마크인 InferenceX™는 이러한 과제를 해결하기 위해 구축되었습니다.

LLM 추론 (Inference) 성능은 하드웨어와 소프트웨어라는 두 가지 기둥에 의해 결정됩니다. 하드웨어 혁신이 새로운 GPU/XPU 및 새로운 시스템의 출시를 통해 매년 성능의 비약적인 도약을 이끌어내는 동안, 소프트웨어는 매일 진화하며 이러한 비약적 도약 위에서 지속적인 성능 향상을 제공합니다. 속도가 곧 해자 (Moat)입니다 🚀

SGLang, vLLM, TensorRT-LLM, CUDA, ROCm과 같은 AI 소프트웨어는 커널 수준의 최적화 (kernel-level optimizations), 분산 추론 전략 (distributed inference strategies), 그리고 불과 며칠 간격으로 이루어지는 점진적 릴리스를 통해 성능의 파레토 프런티어 (pareto frontier)를 확장하는 스케줄링 혁신을 통해 이러한 지속적인 성능 개선을 달성합니다.

이러한 소프트웨어 발전 속도는 하나의 과제를 만들어냅니다. 특정 시점에 수행된 벤치마크는 빠르게 구식이 되어, 최신 소프트웨어 패키지를 통해 달성할 수 있는 성능을 제대로 나타내지 못하게 됩니다.

SKU	상태
GB300 NVL72	✅
...

이 무료 오픈 소스 프로젝트를 위해 MI355X 및 CDNA3 GPU를 제공해 주신 Lisa Su와 Anush Elangovan에게 감사드립니다. 또한 AMD GPU 전반에 걸쳐 신속하게 대응하고 디버깅, 최적화 및 성능 검증을 수행해 준 수많은 AMD 기여자들에게 감사를 표합니다. 아울러 (OCI를 통해) GB200 NVL72 랙과 B200 GPU에 대한 접근 권한을 제공하여 이 오픈 소스를 지원해 준 Jensen Huang과 Ian Buck에게도 감사드립니다. NVIDIA 추론 팀과 NVIDIA Dynamo 팀의 수많은 NVIDIA 기여자들에게도 감사를 전합니다.

또한 세계적인 수준의 소프트웨어 스택을 구축하고 이를 전 세계에 오픈 소스로 공개해 준 SGLang, vLLM, TensorRT-LLM 유지 관리자들에게도 감사를 표하고 싶습니다. 마지막으로, 컴퓨팅 자원을 통해 오픈 소스 혁신을 지원하여 이를 가능하게 해준 Crusoe, CoreWeave, Nebius, TensorWave, Oracle 및 TogetherAI에 감사드립니다.

후원자 및 인용구 전체 목록: https://inferencex.semianalysis.com/quotes

AI 자동 생성 콘텐츠

원문 바로가기

SemiAnalysisAI/InferenceX

요약

핵심 포인트

댓글