Insights

ai-inferencellm-serverwhisper

Willow Inference Server: 오픈소스 로컬 AI 추론 서버

Toverainc가 공개한 Willow Inference Server는 CUDA 기반의 고태성 오픈소스 AI 추론 서버입니다. Whisper, Vicuna, Llama 등 다양한 ASR(STT), TTS, LLM 모델을 WebRTC, REST API, WebSocket 프로토콜을 통해 로컬 환경에서 실행할 수 있습니다. 데이터 프라이버시를 중시하며 온프레미스 배포를 원하는 개발자와 조직에게 최적화된 솔루션입니다.

gemmmatrix-multiplicationc++

행 우선 행렬 곱 (GEMM) 최적화 가이드

tpoisonooo 의 'how-to-optimize-gemm' 레포지토리는 C++ 기반의 행 우선(row-major) 행렬 곱(GEMM) 최적화 기술을 다룹니다. ARM64, ARMv7 아키텍처와 CUDA, Vulkan GPU 가속을 지원하며, int4 정밀도 및 PTX 어셈블리 수준의 저수준 최적화 기법을 제공합니다. 개발자가 다양한 하드웨어 환경에서 행렬 연산 성능을 극대화할 수 있는 구체적인 구현 전략과 코드를 확인하세요.

ZhiLight: C++ 기반 초고속 LLM 추론 엔진

ZhiLight는 Llama 및 그 변형 모델에 특화된 고도로 최적화된 LLM 추론 가속화 엔진입니다. CUDA를 활용하여 PyTorch 기반의 모델 서빙 성능을 극대화하며, DeepSeek-R1 및 GPT 등 다양한 아키텍처를 지원합니다. C++ 로 작성되어 낮은 지연 시간과 높은 처리량을 제공하여 프로덕션 환경의 LLM 서빙 효율성을 획기적으로 높입니다.

llminferencecuda

PyTorch 모델을 주면 자동으로 최적화된 Triton 커널 생성하는 Autokernel

AI 코딩 에이전트 'RightNow-AI/autokernel'이 소개되었습니다. 이 도구는 사용자가 PyTorch 모델만 제공하면, 스스로 연구 (autoresearch) 를 수행하여 해당 모델에 최적화된 Triton 커널을 자동으로 생성합니다. 수동으로 복잡한 CUDA 코드를 작성할 필요 없이, AI 에이전트가 GPU 성능 최적화를 담당하여 개발 생산성을 극대화하는 'vibe coding' 방식의 대표적인 사례입니다.

autokernelpytorchtriton

ai-toolkitgpu-installationpytorch-cuda

NVIDIA RTX 50 시리즈 전용 AI 툴킷 설치 스크립트 공개

GitHub에 'ostris-ai-toolkit-50gpu-installer'라는 새로운 Shell 기반 설치 스크립트가 등장했습니다. 이 도구는 NVIDIA RTX 50 시리즈 GPU를 최적화하여, Python 3.12 가상 환경을 구축하고 PyTorch(CUDA 12.8), Triton 및 모든 필수 의존성을 자동으로 설치합니다. 최신 하드웨어를 빠르게 AI 개발 환경으로 전환하려는 개발자에게 유용한 오픈소스 도구입니다.

4월 25일1

CUDA 코드 자동 최적화 기술 (cuda-optimization-skill)

Python 기반의 오픈소스 프로젝트 'gxinlong/cuda-optimization-skill'은 CUDA 코드를 자동으로 최적화하는 새로운 기술을 제공합니다. 현재 GitHub에서 31개의 스타를 보유하고 있으며, 딥러닝 및 고성능 컴퓨팅 분야에서 GPU 성능을 극대화하고자 하는 개발자들에게 유용한 도구로 주목받고 있습니다.

cudaoptimizationpython

cudagpu-optimizationai-agents

AI 에이전트로 자율적인 GPU 커널 최적화 시스템

CUDA-evolve-oss는 AI 에이전트를 활용하여 GPU 커널을 자동으로 최적화하는 오픈소스 프로젝트입니다. 기존에 수동으로 튜닝해야 했던 복잡한 GPU 코드를 AI가 스스로 분석하고 개선함으로써, 개발자의 시간을 절약하고 하드웨어 성능을 극대화할 수 있습니다.

4월 25일4

NVIDIA/cuda-tile: 텐서 코어 최적화를 위한 CUDA 타일 컴파일러

NVIDIA/cuda-tile 는 MLIR 기반의 중간 표현(IR) 과 컴파일 인프라로, NVIDIA 텐서 코어 유닛을 대상으로 한 타일 기반 계산 패턴 및 최적화에 특화되어 있습니다. C++ 로 작성된 이 오픈소스 프로젝트는 CUDA 커널 성능 향상을 위한 새로운 컴파일링 접근법을 제공합니다.

cudamlircompiler

4월 25일1

cudagpu-optimizationkernel-tuning

CUDA 커널 최적화 툴킷: 성능 검증 및 병목 분석

KernelFlow-ops/cuda-optimized-skill 은 커스텀 GPU 오퍼레이터의 성능을 개선하기 위한 CUDA 커널 최적화 툴킷입니다. 이 프로젝트는 Nsight Compute 프로파일링, 벤치마킹, 병목 현상 분석 및 반복적 튜닝을 지원하여 재현 가능한 워크플로우와 증거 기반의 성능 비교를 가능하게 합니다.

llm-inferencecudacpu-offloading

YiRage: 멀티 백엔드 지원 LLM 추론 최적화 엔진

chenxingqiang/YiRage 는 C++ 기반의 고성능 LLM 추론 최적화 라이브러리로, 기존 Mirage 를 확장하여 CUDA, MPS, CPU, Triton, NKI, cuDNN, MKL 등 다양한 하드웨어 및 소프트웨어 백엔드를 통합 지원합니다. 개발자는 특정 GPU 아키텍처나 환경에 제한받지 않고 유연하게 모델을 배포할 수 있으며, 멀티플랫폼 추론 성능을 극대화할 수 있습니다.

NVIDIA CUDA-Q Academic: 하이브리드 양자 알고리즘 최적화 가이드

NVIDIA의 CUDA-Q Academic 레포지토리는 양자 컴퓨팅 초보자를 위한 자습용 Jupyter 노트북 모ジュール을 제공합니다. 이 자료는 CUDA-Q를 사용하여 고전 컴퓨터와 양자 프로세서를 결합한 하이브리드 알고리즘을 구축하고 최적화하는 방법을 단계별로 설명합니다. 양자 화학 및 오류 정정 등 실제 응용 사례를 통해 HPC(고성능 컴퓨팅) 환경에서의 병렬 프로그래밍 기술을 습득할 수 있습니다.

quantumcuda-qnvidia

gaussian-splatting3d-reconstructioncomputer-graphics

LichtFeld-Studio: 단일 앱으로 3D 가우시안 스플래팅 완전 제어

MrNeRF/LichtFeld-Studio 는 C++ 로 작성된 단일 네이티브 애플리케이션으로, 3D Gaussian Splatting 씬을 훈련 (Train), 검사 (Inspect), 편집 (Edit), 자동화 (Automate), 그리고 내보내기 (Export) 할 수 있는 통합 솔루션입니다. CUDA 와 최적화 기술을 활용하여 컴퓨터 그래픽스 및 비전 분야에서 고품질 3D 재현 작업을 효율적으로 수행할 수 있습니다.

llm-serverllama-cpplocal-ai

raketenkater/llm-server: 로컬 LLM 추론을 위한 지능형 오토메이터

raketenkater/llm-server 는 llama.cpp 와 ik_llama.cpp 를 실행할 때 GPU 자동 감지, MoE 모델 배치 최적화, 충돌 복구 기능을 제공하는 스마트 런처입니다. Apple Silicon(Metal) 및 CUDA 환경 모두 지원하며, 복잡한 설정 없이 로컬 AI 추론 환경을 즉시 구축하고 안정적으로 운영할 수 있습니다.

NVIDIA/TensorRT-LLM: GPU 기반 LLM 추론 최적화 프레임워크

TensorRT-LLM은 NVIDIA GPU에서 대규모 언어 모델(LLM) 추론을 효율적으로 수행하기 위한 파이썬 API를 제공합니다. 최신 최적화 기법을 지원하며, 성능 높은 추론 실행을 오케스트레이션하는 파이썬 및 C++ 런타임 컴포넌트를 포함합니다.

llmnvidiatensorrt