Programming | 安橙的博客

Day 04 · CUDA 编程入门 (1)

从 Host 到 Device：理解 kernel 启动、Grid/Block/Thread 线程层级与 Global/Shared Memory 存储模型，动手实现 vector add 与 naive GEMM。

用 Shared Memory Tiling 优化矩阵乘：理解 bank conflict 与 coalesced access，实现 tiled GEMM 并用 Nsight Compute 分析性能瓶颈。