Day 04 · CUDA 编程入门 (1)
从 Host 到 Device:理解 kernel 启动、Grid/Block/Thread 线程层级与 Global/Shared Memory 存储模型,动手实现 vector add 与 naive GEMM。
从 Host 到 Device:理解 kernel 启动、Grid/Block/Thread 线程层级与 Global/Shared Memory 存储模型,动手实现 vector add 与 naive GEMM。
用 Shared Memory Tiling 优化矩阵乘:理解 bank conflict 与 coalesced access,实现 tiled GEMM 并用 Nsight Compute 分析性能瓶颈。