矩阵的优化
矩阵的优化(GPU矩阵乘法优化榨干硬件潜力的路径)

矩阵的优化(GPU矩阵乘法优化榨干硬件潜力的路径)

矩阵乘法是AI、数值计算等领域的“地基”任务,想要让它在GPU上跑快,得顺着硬件特性一步步拆解优化。最开始的基础实现很直接:每个线程分配计算输出矩阵的一个元素,CPU负责把矩阵数据从自身内存传到GPU显存,等GPU线...

  • 1
  • 共 1 页