Sprite Lab Tutorials - 搜索 News

Edit and raw actions

在初级系列中我们已经实现了一个简单的矩阵乘法的 kernel，并使用共享内存和一维线程块来优化了矩阵乘法的性能。在 GEMM 优化专栏里面，我们将会继续优化矩阵乘法的性能，这一节我们将会使用二维线程块来优化矩阵乘法的性能。 1. 一维 Thread Tile 在介绍二维 ...

一些您可能无法访问的结果已被隐去。