본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

GitHub ML Hardware 70필터 해제

GitHub요약

NVIDIA/cuopt

NVIDIA cuopt 는 CUDA 를 기반으로 한 고성능 최적화 라이브러리로, 선형 계획법 및 기타 의사결정 문제를 GPU 에서 병렬 처리하여 기존 CPU 기반 솔버보다 수백 배 빠른 속도를 제공합니다. C++ 및 Python 인터페이스를 지원하며, 대규모 데이터셋과 복잡한 제약 조건을 가진 실시간 최적화 문제에 적합합니다.

4월 26일5
GitHub요약

하드웨어 지연 시간 없애는 '비타민' CUDA 커널 학습 경로

CUDA 프로그래밍을 통해 GPU 성능 최적화를 배우고 싶다면 이 레포지토리가 완벽한 시작점입니다. 기초부터 최상위 성능까지 다양한 커널 예제를 제공하며, PyTorch C++ 확장으로 바로 적용해볼 수 있습니다. 매일 하나씩 커널을 구현하며 하드웨어 지연 시간을 줄이는 '하루에 한 커널' 철학을 실천하세요.

4월 26일7
GitHub요약

대규모 역균질화 문제용 고성능 오픈소스 GPU 솔버 'homo3d' 출시

C++ 기반의 오픈소스 GPU 솔버 'homo3d'가 공개되었습니다. 이 도구는 대규모 역균질화(inverse homogenization) 문제를 해결하기 위해 최적화되어 있으며, CUDA 가속을 통해 고성능 연산이 가능합니다. 미세 구조(microstructure) 분석 및 최적화 작업에 필요한 고품질 솔루션을 제공합니다.

4월 26일5
GitHub요약

[오픈소스] CUDA 기반 탄성 동역학 시뮬레이션 튜토리얼

phys-sim-book/solid-sim-tutorial-gpu 는 CUDA 를 활용한 최적화 기반 탄성 동역학 접촉 시뮬레이션의 핵심 예제들을 모은 오픈소스 프로젝트입니다. 침투 없는(inversion-free) 및 투과 없는(penetration-free) 조건을 만족하는 알고리즘 수렴성을 강조하며, GPU 프로그래밍 초보자가 효율적인 고체 시뮬레이션 코드를 작성하는 방법을 읽기 쉬운 C++ 예제를 통해 배울 수 있습니다.

4월 26일6
GitHub요약

NVIDIA Turing GPU용 SGEMM 커널 최적화 레포지토리

GitHub에 공개된 'yzhaiustc/Optimizing-SGEMM-on-NVIDIA-Turing-GPUs' 레포지토리는 NVIDIA Turing 아키텍처 기반 GPU에서 단일 정밀도 행렬 곱셈(SGEMM) 연산의 성능을 극대화하는 C++/CUDA 코드를 제공합니다. cuBLAS 라이브러리의 성능에 근접한 최적화된 커널 구현을 포함하며, CUDA 프로그래밍과 하드웨어 수준의 최적화에 관심 있는 엔지니어를 위한 참고 자료입니다.

4월 26일6
GitHub요약

CUDA 프로그래밍 마스터링을 위한 필수 리소스 모음

GPU 가속 애플리케이션 개발을 위한 CUDA 프로그래밍 학습 경로에 최적화된 리소스 모음입니다. 초보자부터 고급 최적화까지 필요한 튜토리얼, 실전 예제, 참고 자료를 한곳에서 확인할 수 있습니다.

4월 26일8
GitHub요약

NVIDIA GPU 에서 Stable Diffusion 추론 최적화 프레임워크 'stable-fast' 소개

HuggingFace Diffusers 기반의 이미지/비디오 생성 모델 (Stable Diffusion 등) 을 NVIDIA GPU 에서 실행할 때 최대 성능을 끌어올리는 오픈소스 프레임워크입니다. CUDA, PyTorch, OpenAI Triton 등을 활용해 메모리 사용량과 추론 속도를 극대화하며, wavespeed.ai 에서 제공하는 최적화된 솔루션으로 주목받고 있습니다.

4월 26일4
GitHub요약

Antares: 멀티플랫폼 커널 자동 생성 및 최적화 엔진

Microsoft Antares는 CPU, CUDA, ROCm 등 다양한 하드웨어 백엔드를 지원하는 자동화된 커널 생성 및 최적화 엔진입니다. C++로 작성된 이 오픈소스는 개발자가 특정 플랫폼에 종속되지 않고 범용적인 GPU/CPU 코드를 효율적으로 생성하고 튜닝할 수 있도록 도와줍니다.

4월 26일8
GitHub요약

LLM 추론 속도를 위한 Decoding Attention 최적화 라이브러리

Bruce-Lee-LY/decoding_attention 은 LLM 추론의 디코딩 단계를 극대화하기 위해 MHA, MQA, GQA, MLA 등 다양한 주의 메커니즘을 CUDA 코어 기반으로 특별히 최적화된 C++ 라이브러리입니다. Flash-Attention 및 관련 기술과 호환되며, NVIDIA GPU 환경에서 대규모 언어 모델의 성능을 높이는 데 중점을 둡니다.

4월 25일6
GitHub요약

GPU 기반 컨볼루션 연산 최적화 프로젝트 소개

Qwesh157/conv_op_optimization은 CUDA를 활용한 GPU 상의 컨볼루션 연산 최적화에 초점을 맞춘 C++ 프로젝트입니다. 특히 GEMM 기반의 임플리시트 컨볼루션 (Implicit GEMM) 기법을 포함하여, 딥러닝 추론 및 학습 속도를 높이는 저수준 최적화 기술을 제공합니다.

4월 25일6
GitHub요약

[오픈소스] CUDA 와 HIP 로 GPU 프로그래밍 마스터하기

GPU 프로그래밍 입문부터 고급 최적화까지 C++ 기반의 종합 실습 프로젝트입니다. CUDA 와 AMD 의 HIP 를 모두 다루며 병렬 처리, 성능 프로파일링 등 핵심 개념을 익힐 수 있습니다. 학습용으로 적합합니다.

4월 25일5
GitHub요약

OpenAI 호환 TTS 서버: Microsoft VibeVoice-Realtime-0.5B

marhensa/vibevoice-realtime-openai-api 는 Microsoft 의 VibeVoice-Realtime-0.5B 모델을 기반으로 한 OpenAI API 호환 텍스트 음성 변환 (TTS) 서버입니다. Docker 또는 Python 가상환경으로 쉽게 배포 가능하며, CUDA 최적화를 통해 고성능 추론을 지원합니다. 다양한 목소리를 제공하며 OpenAI의 기존 API 와 호환되는 별칭(alias) 을 사용하여 기존 워크플로우에 원활하게 통합할 수 있습니다.

4월 25일6
GitHub요약

C++ 로 작성된 최소한의 딥러닝 라이브러리: NAIVE CUDACPP

AI 도우미 없이 순수하게 C++ 로 구현된 초경량 딥러닝 라이브러리 'NAIVE'를 소개합니다. 24 개의 기본 연산, 자동 미분 엔진, Python API, 텐서 추상화, 계산 그래프 시각화 등 핵심 기능을 모두 포함했습니다. NumPy 와 유사한 다차원 슬라이싱과 복잡한 인덱싱을 지원하며, 가중치 초기화, 옵티마이저, 파라미터 저장/불러내기 기능도 갖췄습니다. 이 프로젝트는 AI 도구를 사용하지 않고 수동으로 작성되었기에 학습 및 오픈소스 기여에 적합합니다.

4월 25일5
GitHub요약

Obsidian-Memory-Transformer: CUDA 기반 새로운 LLM 아키텍처

sahibzada-allahyar/Obsidian-Memory-Transformer 레포지토리는 대규모 컨텍스트 윈도우를 위한 혁신적인 장기 기억 (LTM) 메커니즘을 갖춘 새로운 LLM 아키텍처입니다. 고성능 저수준 C++ 및 CUDA 로 작성되어 최적화된 성능을 제공합니다.

4월 25일5
GitHub요약

OpenBMB/CPM.cu

OpenBMB 에서 공개한 CPM.cu 는 LLM 의 엣지 디바이스 추론을 최적화한 경량 고성능 CUDA 구현체입니다. 희소 아키텍처, 가설적 샘플링 (speculative sampling), 양자화 등 최신 기술이 적용되어 모바일 및 로컬 환경에서 효율적인 모델 실행을 가능하게 합니다.

4월 25일8
GitHub요약

CUDA 기반 SDP 최적화 솔버 cuADMM 소개

ComputationalRobotics/cuADMM 는 반정방 프로그래밍 (Semi-Definite Programming, SDP) 문제를 해결하기 위한 대안적 방향 승수법 (Alternating Direction Method of Multipliers, ADMM) 알고리즘의 CUDA 기반 구현체입니다. MATLAB 환경에서 널리 사용되던 최적화 솔버를 C++ 와 CUDA 를 통해 가속화하여 고성능 컴퓨팅 환경에서 SDP 문제를 효율적으로 풀 수 있도록 지원합니다.

4월 25일4
GitHub요약

Willow Inference Server: 오픈소스 로컬 AI 추론 서버

Toverainc가 공개한 Willow Inference Server는 CUDA 기반의 고태성 오픈소스 AI 추론 서버입니다. Whisper, Vicuna, Llama 등 다양한 ASR(STT), TTS, LLM 모델을 WebRTC, REST API, WebSocket 프로토콜을 통해 로컬 환경에서 실행할 수 있습니다. 데이터 프라이버시를 중시하며 온프레미스 배포를 원하는 개발자와 조직에게 최적화된 솔루션입니다.

4월 25일5
GitHub요약

행 우선 행렬 곱 (GEMM) 최적화 가이드

tpoisonooo 의 'how-to-optimize-gemm' 레포지토리는 C++ 기반의 행 우선(row-major) 행렬 곱(GEMM) 최적화 기술을 다룹니다. ARM64, ARMv7 아키텍처와 CUDA, Vulkan GPU 가속을 지원하며, int4 정밀도 및 PTX 어셈블리 수준의 저수준 최적화 기법을 제공합니다. 개발자가 다양한 하드웨어 환경에서 행렬 연산 성능을 극대화할 수 있는 구체적인 구현 전략과 코드를 확인하세요.

4월 25일5
GitHub요약

ZhiLight: C++ 기반 초고속 LLM 추론 엔진

ZhiLight는 Llama 및 그 변형 모델에 특화된 고도로 최적화된 LLM 추론 가속화 엔진입니다. CUDA를 활용하여 PyTorch 기반의 모델 서빙 성능을 극대화하며, DeepSeek-R1 및 GPT 등 다양한 아키텍처를 지원합니다. C++ 로 작성되어 낮은 지연 시간과 높은 처리량을 제공하여 프로덕션 환경의 LLM 서빙 효율성을 획기적으로 높입니다.

4월 25일6
GitHub요약

PyTorch 모델을 주면 자동으로 최적화된 Triton 커널 생성하는 Autokernel

AI 코딩 에이전트 'RightNow-AI/autokernel'이 소개되었습니다. 이 도구는 사용자가 PyTorch 모델만 제공하면, 스스로 연구 (autoresearch) 를 수행하여 해당 모델에 최적화된 Triton 커널을 자동으로 생성합니다. 수동으로 복잡한 CUDA 코드를 작성할 필요 없이, AI 에이전트가 GPU 성능 최적화를 담당하여 개발 생산성을 극대화하는 'vibe coding' 방식의 대표적인 사례입니다.

4월 25일6

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.