数据局部性：打破内存带宽限制，提升流式处理性能

Linux

2024-03-11 14:18:31

数据局部性：超越内存带宽限制

作为一名经验丰富的程序员，我亲身见证了数据局部性如何为流式处理循环带来显著的性能提升。在本文中，我将深入探讨这一现象，揭示它如何在特定情况下将有效带宽推高至超过系统内存带宽。

什么是数据局部性？

数据局部性是一个衡量程序如何访问内存中数据的概念。当程序频繁访问相邻内存位置的数据时，则具有较高的局部性。这可以极大地提高性能，因为处理器可以从高速缓存中更快地获取数据，从而减少访问内存的延迟。

流式处理与数据局部性

流式处理涉及连续处理数据，而不是一次性加载到内存中。当流式处理的数据具有良好的局部性时，循环可以有效地利用缓存。这使得处理器可以快速访问所需的数据，从而大幅提升性能。

实验与结果

在我们的实验中，我们测量了不同数组大小的 SAXPY 循环的有效带宽。SAXPY 循环是一种向量加法操作，它通过将向量 x 中的每个元素乘以常量 a，然后将其添加到向量 y 中的相应元素，来执行向量加法。

令人惊讶的是，对于较小的数组大小（例如 n=1000000），有效带宽可以达到约 75 GiB/s，而系统内存带宽仅为 37 GiB/s。

揭示数据局部性的影响

这种现象可以通过数据局部性来解释。当数组大小较小时，数据可以完全驻留在高速缓存中。这导致处理器可以快速访问数据，从而提高了循环的有效带宽。随着数组大小的增加，数据不再完全驻留在高速缓存中，导致处理器必须从内存中获取数据，从而降低了有效带宽。

代码示例

void saxpy(const float& a, const float* vec_x, float* vec_y, const std::size_t& n)
{
    #pragma omp parallel for schedule(static)
    for (auto ii = std::size_t{}; ii < n; ++ii)
    {
        vec_y[ii] += vec_x[ii] * a; // fp_count: 2, traffic: 2+1
    }
}