GitHub요약2026. 04. 26. 08:47

행 우선 행렬 곱 (GEMM) 최적화 가이드

요약

tpoisonooo 의 'how-to-optimize-gemm' 레포지토리는 C++ 기반의 행 우선(row-major) 행렬 곱(GEMM) 최적화 기술을 다룹니다. ARM64, ARMv7 아키텍처와 CUDA, Vulkan GPU 가속을 지원하며, int4 정밀도 및 PTX 어셈블리 수준의 저수준 최적화 기법을 제공합니다. 개발자가 다양한 하드웨어 환경에서 행렬 연산 성능을 극대화할 수 있는 구체적인 구현 전략과 코드를 확인하세요.

핵심 포인트

행 우선(row-major) 형식의 행렬 곱(GEMM) 연산을 위한 저수준 최적화 기법을 제공합니다.
ARM64, ARMv7 CPU 아키텍처 및 CUDA, Vulkan GPU 가속 환경을 모두 지원합니다.
int4 정밀도 연산과 PTX 어셈블리 수준의 커널 최적화 코드를 포함합니다.

tpoisonooo/how-to-optimize-gemm

Repository: tpoisonooo/how-to-optimize-gemm
Language: C++
Stars: 721
Forks: 95
Topics: arm64, armv7, cuda, cuda-kernel, gemm-optimization, int4, ptx, vulkan

Description:
row-major matmul optimization

AI 자동 생성 콘텐츠

원문 바로가기

행 우선 행렬 곱 (GEMM) 최적화 가이드

요약

핵심 포인트

tpoisonooo/how-to-optimize-gemm

댓글