GitHub요약2026. 04. 27. 21:59

psmarter/CUDA-Practice

요약

이 프로젝트는 CUDA를 활용하여 고성능 컴퓨팅(HPC)에 필요한 다양한 핵심 알고리즘과 기술들을 연습하고 구현하는 것을 목표로 합니다. GEMM, FlashAttention, Tensor Cores와 같은 주요 연산부터 양자화 및 KV 캐시 관리까지 포함하며, CUTLASS 라이브러리와 NCCL을 사용하여 최적의 성능을 달성할 수 있는 손실 없는 CUDA 커널과 성능 최적화 기법들을 다룹니다.

핵심 포인트

CUDA를 이용한 고성능 컴퓨팅(HPC) 핵심 알고리즘 구현 연습 (GEMM, FlashAttention 등)
CUTLASS와 같은 전문 라이브러리를 활용하여 CUDA 커널을 최적화하는 방법 학습
양자화(Quantization), KV 캐시 관리 등 LLM 추론에 필수적인 기술들을 다룸
NCCL 및 프로파일링 도구 사용법을 통해 병렬 컴퓨팅 성능을 측정하고 개선할 수 있음

저장소: psmarter/CUDA-Practice
언어: Cuda
스타: 106
포크: 11
주제: cuda, cuda-kernels, cutlass, flash-attention, gemm, gpu-programming, high-performance-computing, llm-inference, nccl, nsight-compute, parallel-computing, performance-optimization, quantization, roofline-model, tensor-core

설명:
CUDA 프로그래밍 연습 프로젝트 - GEMM, FlashAttention, Tensor Cores, CUTLASS, 양자화 (quantization), KV cache, NCCL, 프로파일링을 다루는 손실 없는 CUDA 커널 및 성능 최적화.

AI 자동 생성 콘텐츠

원문 바로가기

psmarter/CUDA-Practice

요약

핵심 포인트

댓글