본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 04. 26. 08:40

YiRage: 멀티 백엔드 지원 LLM 추론 최적화 엔진

요약

chenxingqiang/YiRage 는 C++ 기반의 고성능 LLM 추론 최적화 라이브러리로, 기존 Mirage 를 확장하여 CUDA, MPS, CPU, Triton, NKI, cuDNN, MKL 등 다양한 하드웨어 및 소프트웨어 백엔드를 통합 지원합니다. 개발자는 특정 GPU 아키텍처나 환경에 제한받지 않고 유연하게 모델을 배포할 수 있으며, 멀티플랫폼 추론 성능을 극대화할 수 있습니다.

핵심 포인트

  • YiRage 는 CUDA, MPS, CPU, Triton, NKI, cuDNN, MKL 등 7 가지 이상의 백엔드를 통합 지원합니다.
  • 기존 Mirage 라이브러리의 기능을 확장하여 더 넓은 범위의 하드웨어 환경에서 LLM 추론을 가능하게 합니다.
  • C++ 로 작성되어 고성능 및 낮은 지연 시간을 요구하는 프로덕션 환경에 적합합니다.

chenxingqiang/YiRage

Repository Overview

  • Repository: chenxingqiang/YiRage
  • Language: C++
  • Stars: 136
  • Forks: 9

Description

YiRage (Yield Revolutionary AGile Engine) 는 멀티 백엔드 LLM 추론 최적화를 위한 오픈소스 라이브러리입니다. 이 프로젝트는 기존 Mirage 를 확장하여 다음과 같은 다양한 백엔드를 종합적으로 지원합니다:

  • CUDA: NVIDIA GPU 기반 고성능 추론
  • MPS: Apple Silicon (Metal Performance Shaders) 기반 추론
  • CPU: CPU 기반 추론 (다중 코어 활용)
  • Triton: Triton 커널을 활용한 최적화
  • NKI: NVIDIA Kernel Interface 기반 최적화
  • cuDNN: cuDNN 연산 가속기 통합
  • MKL: Intel Math Kernel Library 기반 최적화

이러한 다중 백엔드 지원은 개발자가 특정 하드웨어 제약 없이 유연하게 LLM 모델을 배포하고 추론 성능을 극대화할 수 있게 해줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub ML Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0