Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
GitHub ML Hardware 55건필터 해제
기하대수(GA) 표현식 최적화 컴파일러 Gaalop 소개
기하대수 (Geometric Algebra, GA) 알고리즘을 C++, OpenCL, CUDA 등 다양한 플랫폼의 고품질 코드로 변환하고 최적화하는 오픈소스 도구인 Gaalop 를 소개합니다. Christian Perwass 의 CLUCalc 로 작성된 복잡한 기하대수 표현식을 컴파일러가 자동으로 단순화하여 하드웨어 가속 (AMP) 이나 병렬 처리에 적합한 형태로 변환해 줍니다.
강화학습으로 CUDA 최적화 개선: CUDA-L1 프로젝트 소개
CUDA-L1 는 강화학습 (Reinforcement Learning) 을 활용해 CUDA 코드의 성능을 극대화하는 오픈소스 프로젝트입니다. 기존 수동 튜닝의 한계를 넘어, 대조적 강화학습 기법을 통해 자동으로 최적화된 커널을 생성합니다. Python 기반이며 현재 GitHub 에서 298 개의 스타를 받으며 주목받고 있습니다.
GPU 가속 트리 기반 진화계산 라이브러리 evogp 소개
evogp 는 PyTorch 와 커스텀 CUDA 커널을 활용하여 고성능 트리 기반 진화계산 (Evolutionary Computation) 을 제공하는 GPU 가속 라이브러리입니다. 기호 회귀, 분류, 정책 최적화 등 다양한 작업을 지원하며, 다중 출력 트리 및 벤치마크 도구 같은 고급 기능을 갖추고 있어 대규모 데이터셋과 복잡한 모델 구조를 다루는 연구자와 개발자들에게 유용합니다.
GPU 커널 최적화를 위한 오픈소스 툴 'KernelTuner' 소개
CUDA 및 OpenCL 기반 GPU 컴퓨팅 성능을 극대화하기 위한 자동 튜닝 도구인 KernelTuner를 소개합니다. Python으로 작성된 이 프로젝트는 C/C++ 코드를 통해 구현된 GPU 커널의 파라미터를 자동으로 최적화하여, 개발자가 수동으로 시행착오를 겪지 않고도 최고의 성능을 끌어낼 수 있도록 지원합니다.
NVIDIA NCCL: 다중 GPU 통신 최적화 라이브러리
NVIDIA의 NCCL(Non-blocking Collective Communication Library) 는 고성능 컴퓨팅(HPC) 및 딥러닝 훈련에 필수적인 다중 GPU 간 집단 통신을 위한 최적화된 기본 연산들을 제공합니다. C++ 로 작성된 이 오픈소스 라이브러리는 CUDA 기반의 비동기적 통신 원시 함수(primitives) 를 포함하며, 데이터 병목 현상을 줄이고 대규모 모델 학습 속도를 극대화하는 데 핵심적인 역할을 합니다.
NVIDIA cuopt: GPU 가속화된 의사결정 최적화 라이브러리
NVIDIA cuopt 는 CUDA 를 기반으로 한 고성능 최적화 라이브러리로, 선형 계획법 및 기타 의사결정 문제를 GPU 에서 병렬 처리하여 기존 CPU 기반 솔버보다 수백 배 빠른 속도를 제공합니다. C++ 및 Python 인터페이스를 지원하며, 대규모 데이터셋과 복잡한 제약 조건을 가진 실시간 최적화 문제에 적합합니다.
하드웨어 지연 시간 없애는 '비타민' CUDA 커널 학습 경로
CUDA 프로그래밍을 통해 GPU 성능 최적화를 배우고 싶다면 이 레포지토리가 완벽한 시작점입니다. 기초부터 최상위 성능까지 다양한 커널 예제를 제공하며, PyTorch C++ 확장으로 바로 적용해볼 수 있습니다. 매일 하나씩 커널을 구현하며 하드웨어 지연 시간을 줄이는 '하루에 한 커널' 철학을 실천하세요.
대규모 역균질화 문제용 고성능 오픈소스 GPU 솔버 'homo3d' 출시
C++ 기반의 오픈소스 GPU 솔버 'homo3d'가 공개되었습니다. 이 도구는 대규모 역균질화(inverse homogenization) 문제를 해결하기 위해 최적화되어 있으며, CUDA 가속을 통해 고성능 연산이 가능합니다. 미세 구조(microstructure) 분석 및 최적화 작업에 필요한 고품질 솔루션을 제공합니다.
[오픈소스] CUDA 기반 탄성 동역학 시뮬레이션 튜토리얼
phys-sim-book/solid-sim-tutorial-gpu 는 CUDA 를 활용한 최적화 기반 탄성 동역학 접촉 시뮬레이션의 핵심 예제들을 모은 오픈소스 프로젝트입니다. 침투 없는(inversion-free) 및 투과 없는(penetration-free) 조건을 만족하는 알고리즘 수렴성을 강조하며, GPU 프로그래밍 초보자가 효율적인 고체 시뮬레이션 코드를 작성하는 방법을 읽기 쉬운 C++ 예제를 통해 배울 수 있습니다.
NVIDIA Turing GPU용 SGEMM 커널 최적화 레포지토리
GitHub에 공개된 'yzhaiustc/Optimizing-SGEMM-on-NVIDIA-Turing-GPUs' 레포지토리는 NVIDIA Turing 아키텍처 기반 GPU에서 단일 정밀도 행렬 곱셈(SGEMM) 연산의 성능을 극대화하는 C++/CUDA 코드를 제공합니다. cuBLAS 라이브러리의 성능에 근접한 최적화된 커널 구현을 포함하며, CUDA 프로그래밍과 하드웨어 수준의 최적화에 관심 있는 엔지니어를 위한 참고 자료입니다.
CUDA 프로그래밍 마스터링을 위한 필수 리소스 모음
GPU 가속 애플리케이션 개발을 위한 CUDA 프로그래밍 학습 경로에 최적화된 리소스 모음입니다. 초보자부터 고급 최적화까지 필요한 튜토리얼, 실전 예제, 참고 자료를 한곳에서 확인할 수 있습니다.
NVIDIA GPU 에서 Stable Diffusion 추론 최적화 프레임워크 'stable-fast' 소개
HuggingFace Diffusers 기반의 이미지/비디오 생성 모델 (Stable Diffusion 등) 을 NVIDIA GPU 에서 실행할 때 최대 성능을 끌어올리는 오픈소스 프레임워크입니다. CUDA, PyTorch, OpenAI Triton 등을 활용해 메모리 사용량과 추론 속도를 극대화하며, wavespeed.ai 에서 제공하는 최적화된 솔루션으로 주목받고 있습니다.
Antares: 멀티플랫폼 커널 자동 생성 및 최적화 엔진
Microsoft Antares는 CPU, CUDA, ROCm 등 다양한 하드웨어 백엔드를 지원하는 자동화된 커널 생성 및 최적화 엔진입니다. C++로 작성된 이 오픈소스는 개발자가 특정 플랫폼에 종속되지 않고 범용적인 GPU/CPU 코드를 효율적으로 생성하고 튜닝할 수 있도록 도와줍니다.
LLM 추론 속도를 위한 Decoding Attention 최적화 라이브러리
Bruce-Lee-LY/decoding_attention 은 LLM 추론의 디코딩 단계를 극대화하기 위해 MHA, MQA, GQA, MLA 등 다양한 주의 메커니즘을 CUDA 코어 기반으로 특별히 최적화된 C++ 라이브러리입니다. Flash-Attention 및 관련 기술과 호환되며, NVIDIA GPU 환경에서 대규모 언어 모델의 성능을 높이는 데 중점을 둡니다.
GPU 기반 컨볼루션 연산 최적화 프로젝트 소개
Qwesh157/conv_op_optimization은 CUDA를 활용한 GPU 상의 컨볼루션 연산 최적화에 초점을 맞춘 C++ 프로젝트입니다. 특히 GEMM 기반의 임플리시트 컨볼루션 (Implicit GEMM) 기법을 포함하여, 딥러닝 추론 및 학습 속도를 높이는 저수준 최적화 기술을 제공합니다.
[오픈소스] CUDA 와 HIP 로 GPU 프로그래밍 마스터하기
GPU 프로그래밍 입문부터 고급 최적화까지 C++ 기반의 종합 실습 프로젝트입니다. CUDA 와 AMD 의 HIP 를 모두 다루며 병렬 처리, 성능 프로파일링 등 핵심 개념을 익힐 수 있습니다. 학습용으로 적합합니다.
OpenAI 호환 TTS 서버: Microsoft VibeVoice-Realtime-0.5B
marhensa/vibevoice-realtime-openai-api 는 Microsoft 의 VibeVoice-Realtime-0.5B 모델을 기반으로 한 OpenAI API 호환 텍스트 음성 변환 (TTS) 서버입니다. Docker 또는 Python 가상환경으로 쉽게 배포 가능하며, CUDA 최적화를 통해 고성능 추론을 지원합니다. 다양한 목소리를 제공하며 OpenAI의 기존 API 와 호환되는 별칭(alias) 을 사용하여 기존 워크플로우에 원활하게 통합할 수 있습니다.
C++ 로 작성된 최소한의 딥러닝 라이브러리: NAIVE CUDACPP
AI 도우미 없이 순수하게 C++ 로 구현된 초경량 딥러닝 라이브러리 'NAIVE'를 소개합니다. 24 개의 기본 연산, 자동 미분 엔진, Python API, 텐서 추상화, 계산 그래프 시각화 등 핵심 기능을 모두 포함했습니다. NumPy 와 유사한 다차원 슬라이싱과 복잡한 인덱싱을 지원하며, 가중치 초기화, 옵티마이저, 파라미터 저장/불러내기 기능도 갖췄습니다. 이 프로젝트는 AI 도구를 사용하지 않고 수동으로 작성되었기에 학습 및 오픈소스 기여에 적합합니다.
Obsidian-Memory-Transformer: CUDA 기반 새로운 LLM 아키텍처
sahibzada-allahyar/Obsidian-Memory-Transformer 레포지토리는 대규모 컨텍스트 윈도우를 위한 혁신적인 장기 기억 (LTM) 메커니즘을 갖춘 새로운 LLM 아키텍처입니다. 고성능 저수준 C++ 및 CUDA 로 작성되어 최적화된 성능을 제공합니다.
OpenBMB/CPM.cu: 엣지 디바이스를 위한 고성능 CPM LLM CUDA 구현체
OpenBMB 에서 공개한 CPM.cu 는 LLM 의 엣지 디바이스 추론을 최적화한 경량 고성능 CUDA 구현체입니다. 희소 아키텍처, 가설적 샘플링 (speculative sampling), 양자화 등 최신 기술이 적용되어 모바일 및 로컬 환경에서 효율적인 모델 실행을 가능하게 합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.