Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
GitHub ML Hardware 70건필터 해제
triton-inference-server/model_navigator
Triton Model Navigator는 NVIDIA GPU 환경에서 딥러닝 모델을 효율적으로 최적화하고 배포하기 위해 설계된 전문적인 추론(Inference) 툴킷입니다. 이 도구는 복잡한 딥러닝 모델의 성능 향상과 실제 서비스 환경에서의 안정적인 운영에 초점을 맞추고 있습니다.
NVIDIA/DALI
NVIDIA/DALI는 심층 학습 훈련 및 추론 애플리케이션의 성능을 극대화하기 위해 설계된 GPU 가속 데이터 처리 라이브러리입니다. 이 라이브러리는 고도로 최적화된 빌딩 블록과 실행 엔진을 제공하여, 이미지 증강(data-augmentation)부터 오디오/데이터 전처리 파이프라인까지 전체 데이터 처리를 가속합니다. 이를 통해 개발자는 GPU의 잠재력을 최대한 활용하여 빠르고 효율적인 머신러닝 워크플로우를 구축할 수 있습니다.
turboderp-org/exllamav3
exllamav3는 현대 소비자급 GPU 환경에서 대규모 언어 모델(LLM)을 효율적으로 로컬 구동할 수 있도록 설계된 최적화된 양자화 및 추론 라이브러리입니다. 이 라이브러리는 LLM의 실행 성능을 극대화하는 데 초점을 맞추고 있으며, 사용자가 고성능 하드웨어 없이도 강력한 AI 기능을 경험할 수 있게 돕습니다.
meta-pytorch/MSLK
MSLK(Meta Superintelligence Labs Kernels)는 생성형 AI 학습 및 추론에 특화되어 설계된 PyTorch GPU 오퍼레이터 라이브러리 모음입니다. 이 라이브러리는 FP8 행렬별 양자화, 집합 통신 등 최첨단 기술을 지원하며, 고성능 컴퓨팅 환경에서 대규모 언어 모델(LLM)의 효율적인 구동을 목표로 합니다.
Geekgineer/ros2_yolos_cpp
이 프로젝트는 ROS2 환경에서 사용 가능한 C++ 기반의 범용 추론 엔진을 제공합니다. YOLO 모델(v5부터 v12까지, YOLO26 포함)에 대한 통합 API를 통해 객체 탐지, 분할, 자세 추정 등 다양한 기능을 지원하며, ONNX Runtime과 OpenCV를 기반으로 구축되었습니다.
Geekgineer/YOLOs-CPP
YOLO 모델(v5-v12, YOLO26)을 활용할 수 있도록 설계된 크로스 플랫폼 C++ 추론 엔진입니다. 이 엔진은 검출, 분할, 포즈 추정, OBB, 분류 등 다양한 컴퓨터 비전 작업을 위한 통합 API를 제공하며, ONNX Runtime과 OpenCV를 기반으로 합니다. CPU/GPU 최적화 및 양자화 지원을 통해 프로덕션 환경에 적합한 고성능 추론이 가능합니다.
intel/auto-round
이 기술 기사는 고정밀도 저비트 LLM 추론을 위한 최첨단(SOTA) 양자화 알고리즘에 관한 것입니다. 이 알고리즘은 CPU, XPU, CUDA 등 다양한 하드웨어 환경에서 원활하게 최적화될 수 있으며, 다중 데이터 타입을 지원합니다. 특히 vLLM, SGLang, Transformers와 같은 주요 LLM 추론 프레임워크와의 완벽한 호환성을 제공하여 효율적인 저비트 LLM 배포를 가능하게 합니다.
Enigmatisms/cuda-pt
본 프로젝트는 분석 기반 최적화(Analysis-Driven Optimization) 기법을 활용하여 처음부터 CUDA 소프트웨어 레이 트레이싱 렌더러를 구현한 것입니다. 이 렌더러는 파이썬 환경에서 쉽게 가져와 사용할 수 있도록 설계된 분산 병렬 렌더링 솔루션입니다.
ma921/SOBER
SOBER은 GPU 병렬 가속을 활용하여 임의의 도메인에 대한 베이즈 최적화(Bayesian Optimization), 적분(Quadrature), 추론(Inference)을 빠르게 수행할 수 있도록 설계된 라이브러리입니다. 이 도구는 특히 복잡한 블랙박스 함수를 다루거나, 신약 개발 및 전역 최적화가 필요한 분야에서 강력한 성능을 발휘합니다. 사용자가 정의하는 임의의 도메인 위에서 효율적인 샘플링과 추론이 가능하며, 이는 기존 방법으로는 어려웠던 복잡하고 고차원적인 문제 해결에 도움을 줍니다.
CUDA 알고리즘 최적화 가이드: LLM 성능 극대화
LLM 및 CUDA 기반 애플리케이션의 성능을 높이기 위한 핵심 알고리즘 최적화 기법을 정리한 오픈소스 레포지토리입니다. 메모리 최적화, 커널 튜닝, 병렬 처리 전략 등 실제 개발자가 적용할 수 있는 구체적인 방법론과 코드를 제공합니다.
CUDA 120 일 챌린지: 병렬 프로그래밍 마스터링 로드맵
GPU 병렬 프로그래밍과 메모리 관리, 성능 최적화를 위한 120 일 CUDA 학습 계획입니다. 매일의 개념 설명, 연습 문제, 주의점 및 참고 문헌을 포함하며, 'Programming Massively Parallel Processors' 같은 핵심 교재를 활용합니다. 총 6 개의 캡스톤 프로젝트를 통해 실력을 다지고자 합니다.
ICCV 2025: 3DGS-LM, 가우시안 스플래팅 최적화 가속화
lukasHoel/3DGS-LM은 ICCV 2025 논문으로 발표된 오픈소스 프로젝트로, 3D Gaussian Splatting (3DGS) 렌더링 파이프라인의 핵심인 최적화 단계를 획기적으로 가속화합니다. 기존에 널리 쓰이던 ADAM 옵티마이저를 Levenberg-Marquardt 알고리즘으로 대체하여 수렴 속도를 높이고, CUDA 기반 고성능 연산을 통해 3D 재구성 작업의 효율성을 극대화합니다.
erkkimon/vllama
TL;DR: erkkimon/vllama 는 Ollama 의 간편한 모델 관리 기능과 vLLM 의 초고속 GPU 추론 성능을 하나로 통합한 오픈소스 하이브리드 서버입니다. OpenAI 호환 API 를 제공하므로 기존 클라이언트 코드 변경 없이 최적화된 성능으로 LLM 을 실행할 수 있습니다.
CUDA 최적화된 비트코인 퍼즐용 반디 검색 도구 VanitySearch-Bitcrack
FixedPaul의 VanitySearch-Bitcrack은 비트코인 퍼즐 풀이를 위한 고태성 GPU 가속 툴입니다. C 언어로 작성된 이 프로젝트는 CUDA 최적화를 통해 기존 CPU 기반 솔루션보다 훨씬 빠른 속도로 반디 주소를 탐색하고 해시 충돌을 찾습니다. 65개의 스타를 보유한 이 오픈소스는 하드웨어 마이닝 및 퍼즐 풀이 작업을 수행하는 개발자와 엔지니어에게 유용한 참조 코드입니다.
비선형 최적화를 위한 희소 대칭 양정치 행렬 직접 솔버 BASPACHO
BASPACHO 는 비선형 최적화 문제를 해결하기 위해 설계된 C++ 기반 라이브러리로, 희소 대칭 양정치 (SPD) 행렬에 특화된 직접 솔버입니다. 이 프로젝트는 계산 효율성을 극대화하기 위해 슈퍼노달 콜레스키 분해 알고리즘을 구현했으며, 가속화를 위해 NVIDIA CUDA 를 통한 GPU 지원도 제공합니다. 대규모 최적화 문제를 다루는 엔지니어와 연구자에게 유용한 도구입니다.
기하대수(GA) 표현식 최적화 컴파일러 Gaalop 소개
기하대수 (Geometric Algebra, GA) 알고리즘을 C++, OpenCL, CUDA 등 다양한 플랫폼의 고품질 코드로 변환하고 최적화하는 오픈소스 도구인 Gaalop 를 소개합니다. Christian Perwass 의 CLUCalc 로 작성된 복잡한 기하대수 표현식을 컴파일러가 자동으로 단순화하여 하드웨어 가속 (AMP) 이나 병렬 처리에 적합한 형태로 변환해 줍니다.
강화학습으로 CUDA 최적화 개선: CUDA-L1 프로젝트 소개
CUDA-L1 는 강화학습 (Reinforcement Learning) 을 활용해 CUDA 코드의 성능을 극대화하는 오픈소스 프로젝트입니다. 기존 수동 튜닝의 한계를 넘어, 대조적 강화학습 기법을 통해 자동으로 최적화된 커널을 생성합니다. Python 기반이며 현재 GitHub 에서 298 개의 스타를 받으며 주목받고 있습니다.
GPU 가속 트리 기반 진화계산 라이브러리 evogp 소개
evogp 는 PyTorch 와 커스텀 CUDA 커널을 활용하여 고성능 트리 기반 진화계산 (Evolutionary Computation) 을 제공하는 GPU 가속 라이브러리입니다. 기호 회귀, 분류, 정책 최적화 등 다양한 작업을 지원하며, 다중 출력 트리 및 벤치마크 도구 같은 고급 기능을 갖추고 있어 대규모 데이터셋과 복잡한 모델 구조를 다루는 연구자와 개발자들에게 유용합니다.
GPU 커널 최적화를 위한 오픈소스 툴 'KernelTuner' 소개
CUDA 및 OpenCL 기반 GPU 컴퓨팅 성능을 극대화하기 위한 자동 튜닝 도구인 KernelTuner를 소개합니다. Python으로 작성된 이 프로젝트는 C/C++ 코드를 통해 구현된 GPU 커널의 파라미터를 자동으로 최적화하여, 개발자가 수동으로 시행착오를 겪지 않고도 최고의 성능을 끌어낼 수 있도록 지원합니다.
NVIDIA/nccl
NVIDIA의 NCCL(Non-blocking Collective Communication Library) 는 고성능 컴퓨팅(HPC) 및 딥러닝 훈련에 필수적인 다중 GPU 간 집단 통신을 위한 최적화된 기본 연산들을 제공합니다. C++ 로 작성된 이 오픈소스 라이브러리는 CUDA 기반의 비동기적 통신 원시 함수(primitives) 를 포함하며, 데이터 병목 현상을 줄이고 대규모 모델 학습 속도를 극대화하는 데 핵심적인 역할을 합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.