请前往标签设置摘要
矩阵乘法是AI、数值计算等领域的“地基”任务,想要让它在GPU上跑快,得顺着硬件特性一步步拆解优化。最开始的基础实现很直接:每个线程分配计算输出矩阵的一个元素,CPU负责把矩阵数据从自身内存传到GPU显存,等GPU线...