본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 04. 27. 21:59

psmarter/CUDA-Practice

요약

이 프로젝트는 CUDA를 활용하여 고성능 컴퓨팅(HPC)에 필요한 다양한 핵심 알고리즘과 기술들을 연습하고 구현하는 것을 목표로 합니다. GEMM, FlashAttention, Tensor Cores와 같은 주요 연산부터 양자화 및 KV 캐시 관리까지 포함하며, CUTLASS 라이브러리와 NCCL을 사용하여 최적의 성능을 달성할 수 있는 손실 없는 CUDA 커널과 성능 최적화 기법들을 다룹니다.

핵심 포인트

  • CUDA를 이용한 고성능 컴퓨팅(HPC) 핵심 알고리즘 구현 연습 (GEMM, FlashAttention 등)
  • CUTLASS와 같은 전문 라이브러리를 활용하여 CUDA 커널을 최적화하는 방법 학습
  • 양자화(Quantization), KV 캐시 관리 등 LLM 추론에 필수적인 기술들을 다룸
  • NCCL 및 프로파일링 도구 사용법을 통해 병렬 컴퓨팅 성능을 측정하고 개선할 수 있음

저장소: psmarter/CUDA-Practice
언어: Cuda
스타: 106
포크: 11
주제: cuda, cuda-kernels, cutlass, flash-attention, gemm, gpu-programming, high-performance-computing, llm-inference, nccl, nsight-compute, parallel-computing, performance-optimization, quantization, roofline-model, tensor-core

설명:
CUDA 프로그래밍 연습 프로젝트 - GEMM, FlashAttention, Tensor Cores, CUTLASS, 양자화 (quantization), KV cache, NCCL, 프로파일링을 다루는 손실 없는 CUDA 커널 및 성능 최적화.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub ML Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0