4.7 本章总结

本章我们使用了一些著名的数据并行算法,将其使用OpenCL实现。直方图的例子展示了如何使用局部内存,并在执行阶段使用了适当的同步。旋转和卷积例子使用了图像对象和采样器。卷积例子中使用了C++ API,并将卷积核放置到常量内存中。生产者-消费者例子中,使用管道为两个内核传递所需的数据,并使用了多设备的方式实现。

虽然,这些OpenCL例子都是正确的,不过其性能还可以进一步提高——有些例子可以有很大的提升。在对应硬件平台上的性能优化,将是后面章节讨论的核心。