Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
GitHub ML Hardware 55건필터 해제
AI-Hypercomputer/JetStream
JetStream은 대규모 언어 모델(LLM)의 추론 과정에 특화된 고성능 최적화 엔진입니다. 이 엔진은 XLA 디바이스, 특히 TPU 환경에서 LLM을 구동할 때 처리량과 메모리 사용량을 극대화하도록 설계되었습니다. 향후 GPU 지원도 계획되어 있어 다양한 하드웨어 환경에서의 효율적인 모델 서빙이 가능합니다.
psmarter/CUDA-Practice
이 프로젝트는 CUDA를 활용하여 고성능 컴퓨팅(HPC)에 필요한 다양한 핵심 알고리즘과 기술들을 연습하고 구현하는 것을 목표로 합니다. GEMM, FlashAttention, Tensor Cores와 같은 주요 연산부터 양자화 및 KV 캐시 관리까지 포함하며, CUTLASS 라이브러리와 NCCL을 사용하여 최적의 성능을 달성할 수 있는 손실 없는 CUDA 커널과 성능 최적화 기법들을 다룹니다.
jkanalakis/deep-recall
deep-recall은 LLM(대규모 언어 모델)을 위한 엔터프라이즈급 메모리 프레임워크입니다. 이 프레임워크는 GPU 최적화 추론, 벡터 저장소, 자동 확장을 특징으로 하며, 효율적인 컨텍스트 검색 기능을 제공합니다. 이를 통해 사용자 개개인에게 초개인화된 고품질의 응답을 생성할 수 있도록 돕습니다.
bytedance/ByteTransformer
ByteDance에서 개발한 ByteTransformer는 BERT 트랜스포머 모델의 추론(inference) 속도를 최적화하는 라이브러리입니다. 이 도구는 NVIDIA GPU 환경에 특화되어 있어, 대규모 언어 모델을 실제 서비스 환경에서 효율적으로 구동할 수 있도록 설계되었습니다. 관련 연구 논문(arXiv:2210.03052)의 내용을 기반으로 성능 향상을 목표로 합니다.
hpcaitech/FastFold
FastFold는 GPU 클러스터 환경에서 AlphaFold의 학습 및 추론 과정을 최적화하는 프로젝트입니다. 이 도구는 특히 CUDA와 같은 병렬 컴퓨팅 기술을 활용하여 대규모 단백질 구조 예측 모델인 AlphaFold의 성능을 극대화합니다. 이를 통해 연구자들이 효율적으로 단백질 접힘 문제를 해결하고 관련 생명과학 연구를 진행할 수 있도록 지원합니다.
triton-inference-server/model_navigator
Triton Model Navigator는 NVIDIA GPU 환경에서 딥러닝 모델을 효율적으로 최적화하고 배포하기 위해 설계된 전문적인 추론(Inference) 툴킷입니다. 이 도구는 복잡한 딥러닝 모델의 성능 향상과 실제 서비스 환경에서의 안정적인 운영에 초점을 맞추고 있습니다.
NVIDIA/DALI
NVIDIA/DALI는 심층 학습 훈련 및 추론 애플리케이션의 성능을 극대화하기 위해 설계된 GPU 가속 데이터 처리 라이브러리입니다. 이 라이브러리는 고도로 최적화된 빌딩 블록과 실행 엔진을 제공하여, 이미지 증강(data-augmentation)부터 오디오/데이터 전처리 파이프라인까지 전체 데이터 처리를 가속합니다. 이를 통해 개발자는 GPU의 잠재력을 최대한 활용하여 빠르고 효율적인 머신러닝 워크플로우를 구축할 수 있습니다.
turboderp-org/exllamav3
exllamav3는 현대 소비자급 GPU 환경에서 대규모 언어 모델(LLM)을 효율적으로 로컬 구동할 수 있도록 설계된 최적화된 양자화 및 추론 라이브러리입니다. 이 라이브러리는 LLM의 실행 성능을 극대화하는 데 초점을 맞추고 있으며, 사용자가 고성능 하드웨어 없이도 강력한 AI 기능을 경험할 수 있게 돕습니다.
meta-pytorch/MSLK
MSLK(Meta Superintelligence Labs Kernels)는 생성형 AI 학습 및 추론에 특화되어 설계된 PyTorch GPU 오퍼레이터 라이브러리 모음입니다. 이 라이브러리는 FP8 행렬별 양자화, 집합 통신 등 최첨단 기술을 지원하며, 고성능 컴퓨팅 환경에서 대규모 언어 모델(LLM)의 효율적인 구동을 목표로 합니다.
Geekgineer/ros2_yolos_cpp
이 프로젝트는 ROS2 환경에서 사용 가능한 C++ 기반의 범용 추론 엔진을 제공합니다. YOLO 모델(v5부터 v12까지, YOLO26 포함)에 대한 통합 API를 통해 객체 탐지, 분할, 자세 추정 등 다양한 기능을 지원하며, ONNX Runtime과 OpenCV를 기반으로 구축되었습니다.
Geekgineer/YOLOs-CPP
YOLO 모델(v5-v12, YOLO26)을 활용할 수 있도록 설계된 크로스 플랫폼 C++ 추론 엔진입니다. 이 엔진은 검출, 분할, 포즈 추정, OBB, 분류 등 다양한 컴퓨터 비전 작업을 위한 통합 API를 제공하며, ONNX Runtime과 OpenCV를 기반으로 합니다. CPU/GPU 최적화 및 양자화 지원을 통해 프로덕션 환경에 적합한 고성능 추론이 가능합니다.
intel/auto-round
이 기술 기사는 고정밀도 저비트 LLM 추론을 위한 최첨단(SOTA) 양자화 알고리즘에 관한 것입니다. 이 알고리즘은 CPU, XPU, CUDA 등 다양한 하드웨어 환경에서 원활하게 최적화될 수 있으며, 다중 데이터 타입을 지원합니다. 특히 vLLM, SGLang, Transformers와 같은 주요 LLM 추론 프레임워크와의 완벽한 호환성을 제공하여 효율적인 저비트 LLM 배포를 가능하게 합니다.
Enigmatisms/cuda-pt
본 프로젝트는 분석 기반 최적화(Analysis-Driven Optimization) 기법을 활용하여 처음부터 CUDA 소프트웨어 레이 트레이싱 렌더러를 구현한 것입니다. 이 렌더러는 파이썬 환경에서 쉽게 가져와 사용할 수 있도록 설계된 분산 병렬 렌더링 솔루션입니다.
ma921/SOBER
SOBER은 GPU 병렬 가속을 활용하여 임의의 도메인에 대한 베이즈 최적화(Bayesian Optimization), 적분(Quadrature), 추론(Inference)을 빠르게 수행할 수 있도록 설계된 라이브러리입니다. 이 도구는 특히 복잡한 블랙박스 함수를 다루거나, 신약 개발 및 전역 최적화가 필요한 분야에서 강력한 성능을 발휘합니다. 사용자가 정의하는 임의의 도메인 위에서 효율적인 샘플링과 추론이 가능하며, 이는 기존 방법으로는 어려웠던 복잡하고 고차원적인 문제 해결에 도움을 줍니다.
CUDA 알고리즘 최적화 가이드: LLM 성능 극대화
LLM 및 CUDA 기반 애플리케이션의 성능을 높이기 위한 핵심 알고리즘 최적화 기법을 정리한 오픈소스 레포지토리입니다. 메모리 최적화, 커널 튜닝, 병렬 처리 전략 등 실제 개발자가 적용할 수 있는 구체적인 방법론과 코드를 제공합니다.
CUDA 120 일 챌린지: 병렬 프로그래밍 마스터링 로드맵
GPU 병렬 프로그래밍과 메모리 관리, 성능 최적화를 위한 120 일 CUDA 학습 계획입니다. 매일의 개념 설명, 연습 문제, 주의점 및 참고 문헌을 포함하며, 'Programming Massively Parallel Processors' 같은 핵심 교재를 활용합니다. 총 6 개의 캡스톤 프로젝트를 통해 실력을 다지고자 합니다.
ICCV 2025: 3DGS-LM, 가우시안 스플래팅 최적화 가속화
lukasHoel/3DGS-LM은 ICCV 2025 논문으로 발표된 오픈소스 프로젝트로, 3D Gaussian Splatting (3DGS) 렌더링 파이프라인의 핵심인 최적화 단계를 획기적으로 가속화합니다. 기존에 널리 쓰이던 ADAM 옵티마이저를 Levenberg-Marquardt 알고리즘으로 대체하여 수렴 속도를 높이고, CUDA 기반 고성능 연산을 통해 3D 재구성 작업의 효율성을 극대화합니다.
vllama: Ollama 관리와 vLLM 속도를 결합한 하이브리드 서버
TL;DR: erkkimon/vllama 는 Ollama 의 간편한 모델 관리 기능과 vLLM 의 초고속 GPU 추론 성능을 하나로 통합한 오픈소스 하이브리드 서버입니다. OpenAI 호환 API 를 제공하므로 기존 클라이언트 코드 변경 없이 최적화된 성능으로 LLM 을 실행할 수 있습니다.
CUDA 최적화된 비트코인 퍼즐용 반디 검색 도구 VanitySearch-Bitcrack
FixedPaul의 VanitySearch-Bitcrack은 비트코인 퍼즐 풀이를 위한 고태성 GPU 가속 툴입니다. C 언어로 작성된 이 프로젝트는 CUDA 최적화를 통해 기존 CPU 기반 솔루션보다 훨씬 빠른 속도로 반디 주소를 탐색하고 해시 충돌을 찾습니다. 65개의 스타를 보유한 이 오픈소스는 하드웨어 마이닝 및 퍼즐 풀이 작업을 수행하는 개발자와 엔지니어에게 유용한 참조 코드입니다.
비선형 최적화를 위한 희소 대칭 양정치 행렬 직접 솔버 BASPACHO
BASPACHO 는 비선형 최적화 문제를 해결하기 위해 설계된 C++ 기반 라이브러리로, 희소 대칭 양정치 (SPD) 행렬에 특화된 직접 솔버입니다. 이 프로젝트는 계산 효율성을 극대화하기 위해 슈퍼노달 콜레스키 분해 알고리즘을 구현했으며, 가속화를 위해 NVIDIA CUDA 를 통한 GPU 지원도 제공합니다. 대규모 최적화 문제를 다루는 엔지니어와 연구자에게 유용한 도구입니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.