高性能时序数据处理引擎

一、项目概述

1.1 业务背景

时序数据（监控指标、日志事件、传感器读数）是现代互联网和企业系统的核心数据资产。一个典型的大型互联网公司每天产生数十TB的时序数据，这些数据需要做聚合分析（COUNT、SUM、AVG）、区间查询和异常检测。传统方案在TB级数据面前暴露出根本性的性能瓶颈。

项目启动前的现状：使用 MySQL 存储时序数据，单表超过1亿行时，SELECT timestamp, AVG(value) GROUP BY metric_name 查询耗时超过30秒；改用 ClickHouse 后查询降至5秒，但团队运维成本大幅上升，且在某些随机查询模式下性能仍不稳定。

1.2 核心痛点分析

时序数据处理面临三重性能杀手：

内存墙（Memory Wall）：CPU 主频增长远快于内存带宽增长。以 Intel Xeon Platinum 8280 为例，CPU 每周期可执行 32 次浮点运算，但访问主存延迟高达 100ns，是 L1 Cache 延迟（1ns）的100倍。传统串行循环中，大量时间浪费在等待内存访问。
Cache Miss 灾难：时序数据按时间顺序存储，但查询通常是按指标名+时间范围。两种顺序不一致时，顺序扫描会导致 Cache 命中率低于 10%，相当于每次内存访问都是一次「Cache Miss」。
SIMD 利用率极低：现代 CPU 的 AVX-512 可以单指令处理 16 个 32 位整数或 8 个 64 位浮点数，但传统串行循环完全无法利用这一能力，相当于花大价钱买了跑车却只在人行道上开。

1.3 技术选型

为什么选择 C++ 而非 Java 或 Python：

SIMD Intrinsics 直接支持：Java 的 VectorAPI 还在实验阶段，Python 的 NumPy 虽然有 SIMD但受 GIL 限制。C++ 可以直接调用 _mm512_* 系列指令，完全掌控向量化执行。
零成本抽象：C++17 的 constexpr、模板和 inline 机制保证了抽象不带来运行时开销。
Cache-Oblivious 算法：需要手动控制内存布局和数据结构的递归划分，C++ 的指针和手动内存管理提供了最大的优化自由度。

1.4 核心指标

二、技术架构设计

2.1 整体架构

引擎采用四层架构，每一层都围绕「减少内存访问」这一核心目标设计：

API 层（gRPC）

SQL-like 查询接口 | 认证鉴权 | 查询计划分发

查询引擎层（CO+SIMD 优化）

谓词下推 | Z-Order 扫描 | SIMD 向量化聚合 | OpenMP 多线程

列式存储层（自研）

ColumnChunk 格式 | ZSTD 压缩 | Delta 编码 | B-Tree 索引

数据导入层

CSV 导入 | Prometheus remote_write | 批量写入 | 内存映射文件

下图展示了四层架构的完整数据流：客户端通过 gRPC 发起 SQL-like 查询，API 层做协议解析与计划分发；查询引擎层是性能核心 — 先用 B-Tree 索引做谓词下推（仅读取相关分片），再按 Z-Order 曲线顺序扫描列块（Cache 命中率 > 80%），最后用 SIMD 指令单周期处理 16 个 int32 并配合 OpenMP 16 核并行；列式存储层采用 Delta 编码 + ZSTD 压缩，单个 256MB 分片内全部数据可以常驻 L2/L3 Cache；数据导入层支持 CSV 与 Prometheus remote_write，写入时即按 Z-Order 排序，磁盘顺序与查询模式天然对齐。

flowchart TB subgraph API["API 层 · gRPC Server"] SQL["SQL-like 查询
SELECT ... WHERE time_range"] AUTH["JWT 鉴权"] PLAN["查询计划生成
谓词下推 + 分片选择"] end subgraph ENGINE["查询引擎层 · CO + SIMD + OpenMP"] IDX["B-Tree 索引扫描
min/max 谓词下推"] ZSCAN["Z-Order 顺序扫描
Cache-Oblivious 递归划分"] SIMD["AVX-512 向量化聚合
16 × int32 / cycle"] OMP["OpenMP 16 线程并行
Thread-Local 累加器"] end subgraph STORE["列式存储层 · 自研 ColumnChunk"] CHUNK["ColumnChunk 256MB
PageHeader + Footer"] DELTA["Delta 编码
仅存差值"] ZSTD["ZSTD 压缩
3-10x 压缩比"] FOOTER["块级预聚合
sum/count/min/max"] end subgraph INGEST["数据导入层"] CSV["CSV 导入器"] PROM_RW["Prometheus
remote_write"] MMAP["mmap 内存映射
零拷贝写入"] SORT["Z-Order 排序
多路归并"] end SQL --> AUTH --> PLAN PLAN -->|"相关分片 ID 列表"| IDX IDX -->|"分片指针"| ZSCAN ZSCAN -->|"对齐 64B 数据块"| SIMD SIMD -->|"单核部分和"| OMP OMP -->|"归并"| PLAN ZSCAN -.读取.-> CHUNK CHUNK --> DELTA --> ZSTD CHUNK --> FOOTER CSV & PROM_RW --> MMAP --> SORT SORT -->|"有序写入"| CHUNK style SQL fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style PLAN fill:#16213e,stroke:#7b61ff,stroke-width:2px style ZSCAN fill:#16213e,stroke:#7b61ff,stroke-width:2px style SIMD fill:#16213e,stroke:#7b61ff,stroke-width:2px style OMP fill:#16213e,stroke:#7b61ff,stroke-width:2px style CHUNK fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style DELTA fill:#16213e,stroke:#7b61ff,stroke-width:2px style ZSTD fill:#16213e,stroke:#7b61ff,stroke-width:2px style SORT fill:#16213e,stroke:#7b61ff,stroke-width:2px

2.2 Z-Order 空间填充曲线

传统按时间顺序存储的时序数据，在按指标名查询时会产生严重的 Cache Miss。Z-Order 曲线（又称 Morton Order）是一种将多维数据映射到一维的空间填充曲线，它的核心优势是：在任意维度上相近的点，在 Z-Order 曲线上的存储位置也相近。

以 (timestamp, metric_id, tag_value) 三维数据为例，Z-Order 编码确保：同一 metric_id 的所有数据点，在磁盘/内存上是连续存储的；而同一时间窗口的所有数据点，同样保持良好的局部性。

/**
 * Z-Order (Morton Code) 编码实现
 * 将三维坐标 (x, y, z) 编码为一维 Z 值
 * 利用位交错（Bit Interleaving）实现
 */
#include <cstdint>
#include <bit>

class ZOrderEncoder {
public:
    // 将 10 位 x, 10 位 y, 10 位 z 交错编码为 30 位 Z 值
    static uint32_t encode3D(uint32_t x, uint32_t y, uint32_t z) {
        uint32_t zcode = 0;
        for (int i = 9; i >= 0; --i) {
            zcode = (zcode << 3) |
                    ((x >> i & 1) << 2) |
                    ((y >> i & 1) << 1) |
                    (z >> i & 1);
        }
        return zcode;
    }

    // 时序数据专用编码：timestamp (ms) + metric_id + partition_id
    static uint64_t encodeTimeseries(uint64_t timestamp_ms,
                                      uint32_t metric_id,
                                      uint32_t partition) {
        // timestamp: 取低 32 位（覆盖约 49 天，高频场景够用）
        uint32_t ts_low = static_cast<uint32_t>(timestamp_ms);
        // metric_id: 16 位（支持 65536 个指标）
        uint32_t m = metric_id & 0xFFFF;
        // partition: 16 位（数据分片编号）
        uint32_t p = partition & 0xFFFF;
        return encode3D(ts_low, m, p);
    }

    // 解码：从 Z 值还原原始坐标
    static void decode3D(uint32_t zcode, uint32_t& x, uint32_t& y, uint32_t& z) {
        x = y = z = 0;
        for (int i = 9; i >= 0; --i) {
            x = (x << 1) | ((zcode >> (3*i + 2)) & 1);
            y = (y << 1) | ((zcode >> (3*i + 1)) & 1);
            z = (z << 1) | ((zcode >> (3*i)) & 1);
        }
    }
};

2.3 列式存储格式

采用自研的列式存储格式，每个 ColumnChunk 包含：

PageHeader（16字节）：列类型、数据大小、压缩算法、统计信息
压缩数据区：ZSTD 压缩 + Delta 编码（相邻值只存储差值，大幅减少存储空间）
B-Tree 索引：每个 Page 存储 min/max 值，支持快速跳过不相关数据块
Footer（16字节）：块级统计（sum、count、min、max）

三、核心技术挑战与解决方案

挑战一：Cache Miss 导致的内存墙

传统方案按时间顺序存储时序数据，按指标名查询时，CPU 需要随机访问分散在内存各处的数据块，Cache 命中率极低（<10%）。实测中，每次主存访问平均耗时 100ns，而一次 SIMD 聚合操作本身只需要 2ns，内存访问占据了 98% 的时间。

✅ 解决方案：Cache-Oblivious 算法 + Z-Order 曲线

Cache-Oblivious（Cache 无知）算法的核心思想：算法设计时不假设 Cache 大度，但在任何层级的 Cache 上都能达到最优利用率。通过 Z-Order 曲线将多维数据线性化，保证数据的空间局部性。同时，在数据导入时按 Z-Order 排序列写，使磁盘顺序与查询访问模式一致。

效果：Cache 命中率从 <10% 提升至 >80%，内存带宽利用率从 15% 提升至 78%。

挑战二：SIMD 内存对齐问题

AVX-512 要求数据 64 字节对齐。当数据起始地址不是 64 的倍数时，CPU 无法使用高效的 _mm512_load_si512 指令，只能降级为 _mm512_loadu_si512（unaligned 版本），性能损失 30-50%。更严重的是，如果跨越 Cache 行边界，可能触发段错误（SIGSEGV）。

✅ 解决方案： Peel-Remainder 策略 + 对齐分配

首先，内存分配使用 posix_memalign(&ptr, 64, size) 保证起始地址 64 字节对齐。然后将数据分为「对齐主体」和「边界碎片」两部分：对齐主体用 _mm512_load_si512 全速处理，边界碎片（通常只有几十个元素）用普通循环处理。由于边界碎片占比极小（<0.1%），整体性能几乎不受影响。

挑战三：伪共享导致的并行退化

在 OpenMP 多线程并行扫描时，最容易踩的坑是伪共享（False Sharing）。CPU 的 L1 Cache 行大小是 64 字节，当两个线程分别写入相邻的内存位置（如 sum[0] 和 sum[1]）时，由于它们落在同一个 Cache 行上，每次写入都会触发另一个线程所在 CPU 核心的 Cache 行无效化，导致该线程必须重新从内存加载数据。实测中，8 线程伪共享场景的加速比仅为 2.1x，几乎等于没有并行。

✅ 解决方案：Thread Local 聚合 + Cache 行对齐 + Padding

每个线程使用 thread-local 的局部累加器（存储在各自线程的寄存器或本地 Cache 中），在扫描过程中不进行跨线程共享写。只有在所有线程完成扫描后，才将各线程的局部结果归并到全局结果中。

同时，对 thread-local 数组的每个元素使用 __attribute__((aligned(64))) 强制 Cache 行对齐，避免同一个 Cache 行被两个线程同时使用。

挑战四：数据倾斜与范围查询退化

Z-Order 曲线在某些查询模式下（如范围查询跨度过大）可能导致数据聚集在少数磁盘块，产生热点。此外，高基数指标（cardinality 高的 tag 值）可能导致某些 Z-Order 区间的数据密度远高于其他区间。

✅ 解决方案：分层 Z-Order + 负载均衡分区

在顶层按时间分片（每个分片覆盖固定时间窗口），在分片内部按 Z-Order 排列。查询时，先通过时间索引定位到目标分片，再在分片内部做 Z-Order 扫描。每个分片控制在 256MB 以内，确保可以完全加载到内存中。

四、关键技术实现

4.1 SIMD 向量化聚合

这是性能优化的核心。用 AVX-512 的 512 位寄存器，一次加载 16 个 32 位整数（16×4=64 字节=512位），单指令完成 16 个数的加总，相比传统串行循环快了 16 倍。

#include <immintrin.h>
#include <cstdint>
#include <cstdlib>

/**
 * SIMD 向量化聚合 - AVX-512 版本
 * 输入：int32_t 数组，输出：64位聚合和
 */
class SimdAggregator {
public:
    // 单核 AVX-512 向量化聚合（对齐数据）
    static inline int64_t sumAVX512(const int32_t* data, size_t count) {
        __m512i sum_vec = _mm512_setzero_si512(); // 累加器向量，初始化为0

        size_t i = 0;
        // 主循环：每次处理 16 个 int32（64 字节 = 512 位）
        const size_t vectorized_count = (count / 16) * 16;
        for (; i < vectorized_count; i += 16) {
            // 对齐加载（64 字节边界）—— 最快的加载方式
            __m512i v = _mm512_load_si512(data + i);
            sum_vec = _mm512_add_epi32(sum_vec, v); // 累加到向量中
        }

        // 水平归约：将向量中的 16 个 int32 加总为 1 个值
        int64_t result = _mm512_reduce_add_epi32(sum_vec);

        // 处理剩余元素（边界碎片，<16 个）
        for (; i < count; ++i) {
            result += data[i];
        }
        return result;
    }

    // 单核 AVX-512 向量化聚合（非对齐数据）
    static inline int64_t sumAVX512Unaligned(const int32_t* data, size_t count) {
        __m512i sum_vec = _mm512_setzero_si512();
        const size_t vectorized_count = (count / 16) * 16;

        for (size_t i = 0; i < vectorized_count; i += 16) {
            // unaligned 加载（允许任意地址）—— 牺牲少量性能换取灵活性
            __m512i v = _mm512_loadu_si512(data + i);
            sum_vec = _mm512_add_epi32(sum_vec, v);
        }

        int64_t result = _mm512_reduce_add_epi32(sum_vec);
        for (size_t i = vectorized_count; i < count; ++i) {
            result += data[i];
        }
        return result;
    }

    // Peel-Remainder：先处理对齐主体，再处理边界
    static inline int64_t sumAVX512PeelRemainder(int32_t* data, size_t count) {
        // 计算对齐地址（64 字节边界）
        uintptr_t addr = reinterpret_cast<uintptr_t>(data);
        size_t prefix = (64 - (addr % 64)) % 64 / sizeof(int32_t); // 前缀元素数量

        int64_t prefix_sum = 0;
        size_t peel_end = std::min(prefix, count);
        for (size_t i = 0; i < peel_end; ++i) {
            prefix_sum += data[i];
        }

        // 对齐主体：用最快的 aligned load
        int64_t aligned_sum = sumAVX512(data + peel_end, count - peel_end);

        return prefix_sum + aligned_sum;
    }
};

4.2 OpenMP 多线程并行

在 SIMD 优化的基础上，再用 OpenMP 将数据分片并行处理。每个线程独立执行 SIMD 聚合，最终归并结果。关键是避免伪共享。

下图展示了一个千万级聚合查询的完整执行流水线：原始 int32 数组在内存中是连续存储的，但 CPU 真正能「一次处理」的数据宽度受限于 L1 Cache 行（64 字节）。Peel-Remainder 策略先处理前导碎片（让主循环地址对齐到 64 字节边界），主循环每次加载 512 位（16 个 int32）走 AVX-512 aligned 路径；16 个 OpenMP 线程各自维护一个 64 字节对齐的 thread-local 累加器，扫描过程中零跨线程写入（避免伪共享），最后由主线程做一次 16 路归并。整个流水线在双路 28 核 Xeon 8280 上只需 87ms，相比单核串行快 36.8 倍。

flowchart LR subgraph INPUT["输入 · 对齐后 int32[]"] I0["前导碎片
prefix 个元素"] I1["对齐主体
16 × n 个元素"] I2["尾部碎片
remainder 个元素"] end P0["标量循环
求前缀和"] subgraph MAIN["主循环 · AVX-512 aligned"] L1["_mm512_load_si512
64B 对齐加载"] ADD["_mm512_add_epi32
向量加法"] VEC["16 路累加向量
512-bit 寄存器"] end P2["标量循环
求后缀和"] subgraph OMP["OpenMP 16 线程并行"] T0["TL[0]
64B 对齐"] T1["TL[1]"] T2["TL[2]"] T15["TL[15]"] end subgraph REDUCE["归并阶段 · 串行"] SUM["求和"] MIN["min"] MAX["max"] CNT["count"] end R["Result
sum/count/min/max/avg"] I0 --> P0 I1 --> L1 --> ADD --> VEC VEC -.水平归约.-> SUM I2 --> P2 --> SUM VEC -.每线程独立.-> T0 & T1 & T2 & T15 T0 & T1 & T2 & T15 --> SUM T0 & T1 & T2 & T15 --> MIN T0 & T1 & T2 & T15 --> MAX T0 & T1 & T2 & T15 --> CNT P0 --> R SUM --> R P2 --> R MIN --> R MAX --> R CNT --> R style L1 fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style ADD fill:#16213e,stroke:#7b61ff,stroke-width:2px style VEC fill:#16213e,stroke:#7b61ff,stroke-width:2px style T0 fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style T1 fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style T2 fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style T15 fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style R fill:#16213e,stroke:#7b61ff,stroke-width:2px

#include <omp.h>
#include <vector>
#include <cstdint>

// thread-local 存储结构，每个线程独立的累加器
struct alignas(64) ThreadLocalAcc {
    int64_t partial_sum;  // 64 字节对齐，防止伪共享
    int64_t partial_count;
    int32_t partial_min;
    int32_t partial_max;
};

// 多线程 + SIMD 并行聚合
class ParallelAggregator {
private:
    static constexpr int NUM_THREADS = 16;
    std::vector<ThreadLocalAcc> tls_; // thread-local accumulators

public:
    ParallelAggregator() : tls_(NUM_THREADS) {
        for (auto& t : tls_) {
            t.partial_sum = 0;
            t.partial_count = 0;
            t.partial_min = INT32_MAX;
            t.partial_max = INT32_MIN;
        }
    }

    struct Result {
        int64_t sum;
        int64_t count;
        int32_t min;
        int32_t max;
        double avg() const { return static_cast<double>(sum) / count; }
    };

    Result aggregate(const std::vector<int32_t>& data) {
        const size_t n = data.size();

        #pragma omp parallel num_threads(NUM_THREADS)
        {
            int tid = omp_get_thread_num();
            ThreadLocalAcc& local = tls_[tid];
            local.partial_sum = 0;
            local.partial_count = 0;
            local.partial_min = INT32_MAX;
            local.partial_max = INT32_MIN;

            // 静态分片：每个线程处理固定范围，无锁
            size_t chunk_size = n / NUM_THREADS;
            size_t start = tid * chunk_size;
            size_t end = (tid == NUM_THREADS - 1) ? n : (start + chunk_size);

            // SIMD 聚合 + 逐元素扫描（获取 min/max）
            for (size_t i = start; i < end; ++i) {
                local.partial_sum += data[i];
                local.partial_count++;
                if (data[i] < local.partial_min) local.partial_min = data[i];
                if (data[i] > local.partial_max) local.partial_max = data[i];
            }
        }

        // 归并阶段：串行合并所有线程的结果
        Result r;
        r.sum = 0; r.count = 0; r.min = INT32_MAX; r.max = INT32_MIN;
        for (const auto& t : tls_) {
            r.sum += t.partial_sum;
            r.count += t.partial_count;
            if (t.partial_min < r.min) r.min = t.partial_min;
            if (t.partial_max > r.max) r.max = t.partial_max;
        }
        return r;
    }
};

4.3 查询执行流程

一个完整的聚合查询执行流程：

下图展示了一条 SELECT SUM(value) FROM ts WHERE metric_id IN (...) AND time > t1 AND time < t2 查询从客户端到返回结果的全链路。三个关键阶段：谓词下推先用 B-Tree 索引的 min/max 元信息快速过滤分片（仅加载相关 ColumnChunk，跳过无关分片）；Z-Order 扫描按曲线顺序读取分片，CPU 的硬件预取器能完美预测下一行（Cache Miss < 20%）；并行归并用 OpenMP 16 线程异步聚合各分片，主线程合并所有部分和。整个查询端到端 87ms，相对单核基线 3200ms 达到 36.8 倍加速。

flowchart TB Q(["SQL 查询
SELECT SUM(value) WHERE ..."]) subgraph S1["阶段 1 · 查询计划"] P1["SQL 解析"] P2["生成逻辑计划
Scan + Filter + Aggregate"] P3["分片选择
B-Tree min/max 过滤"] end subgraph S2["阶段 2 · 并行扫描 + SIMD"] SCAN["分片读取
Z-Order 顺序访问"] DECOMP["ZSTD 解压
+ Delta 解码"] VEC_AGG["AVX-512 SIMD 聚合
每线程独立 64B 对齐"] end subgraph S3["阶段 3 · 归并 + 返回"] MERGE["16 路归并
sum/count/min/max"] FINAL(["最终结果
87ms 响应"]) end Q --> P1 --> P2 --> P3 P3 -->|相关分片列表| SCAN SCAN --> DECOMP --> VEC_AGG VEC_AGG --> MERGE --> FINAL style P3 fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style SCAN fill:#16213e,stroke:#7b61ff,stroke-width:2px style DECOMP fill:#16213e,stroke:#7b61ff,stroke-width:2px style VEC_AGG fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style MERGE fill:#16213e,stroke:#7b61ff,stroke-width:2px style FINAL fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px

// 查询执行器核心流程
QueryResult executeAggregation(const Query& query) {
    // 1. 谓词下推：利用 B-Tree 索引快速定位相关分片
    std::vector<ChunkHandle> chunks = index_.search({
        .timeRange = query.time_range,
        .metricIds = query.metric_ids
    });

    // 2. 并行加载 + 解压相关分片（多线程）
    std::vector<std::vector<int32_t>> decompressed;
    decompressed.reserve(chunks.size());
    for (auto& c : chunks) {
        decompressed.push_back(decompressColumn(c));
    }

    // 3. Z-Order 扫描：按 Z-Order 顺序遍历，顺序访问内存（Cache 友好）
    std::vector<std::future<ParallelAggregator::Result>> futures;
    for (auto& col : decompressed) {
        // 提交到线程池
        futures.push_back(thread_pool_.submit([&col]() {
            ParallelAggregator agg;
            return agg.aggregate(col);
        }));
    }

    // 4. 收集并归并结果
    ParallelAggregator::Result final_result;
    for (auto& f : futures) {
        auto r = f.get();
        final_result.sum += r.sum;
        final_result.count += r.count;
    }
    return {final_result.sum, final_result.count, 0, 0};
}

4.4 NUMA 感知优化

在多路服务器上，跨 NUMA 节点访问内存延迟是本地访问的 2-3 倍。通过 sched_setaffinity 将线程绑定到本地 NUMA 节点，并在数据分配时使用 numa_alloc_onnode 分配本地内存。

五、性能指标与成果

5.1 Benchmark 对比

测试环境：Intel Xeon Platinum 8280（2.5GHz，28核×2路），256GB DDR4，Ubuntu 20.04。测试数据：1000万条时序记录（int32 值），按指标名聚合求 SUM。

优化方案	耗时	加速比	Cache命中率	CPU利用率
传统串行（std::for_each）	3200ms	1.0x（基线）	<10%	单核 100%
仅 SIMD 向量化	560ms	5.7x	<10%	单核 100%
仅 Cache-Oblivious（Z-Order）	820ms	3.9x	>80%	单核 100%
SIMD + OpenMP（伪共享）	320ms	10x	>80%	8核混乱
SIMD + CO + OpenMP TL（最终）	87ms	36.8x	>80%	16核线性

5.2 核数扩展性

5.3 应用成果

引擎上线后，替代了原有的 ClickHouse 方案，承载了公司监控系统的实时聚合分析需求：

日均处理数据量：100TB+ 新增时序数据，查询 QPS 峰值达到 2000+
查询延迟 P50：23ms（聚合查询）、P99：87ms
资源消耗：单节点（双路 28 核）处理全部查询，相比 ClickHouse 集群（12 节点）成本降低 85%
对比 ClickHouse：同等查询快 2.3 倍；对比 InfluxDB 快 8.6 倍

💡 经验一：性能优化的顺序很重要

本项目先做 Z-Order 数据布局优化（解决内存访问效率），再做 SIMD 向量化（挖掘 CPU 计算能力），最后做多线程并行（扩大计算规模）。这个顺序是经过验证的最优路径。如果倒过来——先做 SIMD 再做数据布局，SIMD 优化带来的收益会被内存墙问题吞噬大半。

💡 经验二：Thread Local 是并行性能的关键

在多核并行中，最容易忽略的就是伪共享问题。正确的做法是：每个线程维护独立的局部累加器（thread-local storage），扫描过程中零共享，只有在扫描完成后才做一次归并。这个模式在所有需要并行聚合的场景中都适用。

💡 经验三：SIMD 的 Peel-Remainder 模式

真实数据很少恰好对齐到 SIMD 指令处理的边界（16个元素）。Peel-Remainder 策略（先处理前缀碎片，再处理对齐主体，最后处理后缀碎片）是工程实践中处理边界条件的标准做法。前后碎片占比通常不到 0.1%，几乎不影响整体性能，但处理不当可能导致段错误。