Skip to content

Latest commit

 

History

History
35 lines (21 loc) · 826 Bytes

README.md

File metadata and controls

35 lines (21 loc) · 826 Bytes

StarGemm

实践与比较Cuda平台的高性能矩阵通用乘。

本仓库主要参考reed-lau老师的实现 https://github.com/reed-lau/cute-gemm

过了一遍实现的同时,在原实现的基础上添加了诸多注释,便于初学者理解

使用方法

git clone https://github.com/StarrickLiu/StarGemm.git
git submodule update
make
cd build
./gemm-starrick

未来计划

基于Cutlass实现并比较stream-k等方法在不同规模Gemm上的性能

推荐阅读

如何使用Cute实现高效gemm

https://zhuanlan.zhihu.com/p/675308830

Cutlass3.4 之后参数输入的变化

NVIDIA/cutlass#1345

开发 CUDA 内核将张量核心推向 NVIDIA A100 的绝对极限(ldmatrix等更好的图示)

https://www.nvidia.com/en-us/on-demand/session/gtcsj20-s21745/