JavaKafkaDruidRedisZSTD

海量数据实时分析引擎架构

Druid/ClickHouse 同级 OLAP 引擎：千亿级事件任意维度秒级查询，从数据摄入到预聚合的完整实时分析链路

项目周期：2023.03 - 2024.12 数据规模：日均1000亿事件查询P99：<800ms

📖 目录

一、项目概述
二、技术架构设计
三、核心技术挑战与解决方案
四、关键技术实现
五、性能指标与成果

一、项目概述

1.1 项目背景

在数字广告与用户行为分析领域，实时报表能力是衡量数据平台成熟度的核心标志。广告平台运营团队需要按任意维度组合（如：地域 × 操作系统 × 广告主 × 小时级）实时查看曝光量、点击率、转化率等核心指标，数据分析师需要在秒级响应时间内对上百亿条历史事件进行下钻分析，而业务方则期望数据延迟从传统的 T+1（隔日）缩短到分钟级甚至秒级。

项目最初采用 MySQL 分库分表方案，在日均 10 亿事件规模时尚可支撑，但当业务扩展到日均 1000 亿事件、支持 100+ 查询维度时，MySQL 的查询响应时间从秒级退化到分钟级，任意维度组合查询 P99 高达 30 秒，完全无法满足业务需求。更严重的是，预计算报表无法覆盖所有维度组合，当运营提出新的分析维度时，数据团队需要 2-3 天才能产出对应报表。

1.2 核心矛盾与技术选型

1000亿日均事件量
<800ms查询P99延迟
100+支持维度数
30x存储压缩率

核心矛盾体现在三个维度：数据量大（千亿级每日增量）、延迟要求极高（分钟级摄入 + 秒级查询）、查询维度不可预测（运营需要任意组合分析）。这三者的交集是 OLAP 引擎选型的核心决策空间。

我们对主流开源 OLAP 引擎进行了系统评估：

维度	Druid	ClickHouse	自研引擎	备注
实时摄入	★★★★★	★★★☆☆	★★★★☆	Druid 原生 Tranquility 实时摄入最优
预聚合支持	★★★★★	★★★☆☆	★★★★☆	Druid Rollup 天然支持时间维度预聚合
列式存储	★★★★☆	★★★★★	★★★★☆	ClickHouse 列存性能更优但实时性差
查询下推	★★★★☆	★★★★★	★★★★☆	两者均支持谓词下推至存储层
运维复杂度	★★★★☆	★★★☆☆	★★★☆☆	Druid 组件多，ClickHouse 单表性能强
团队适配	★★★★☆	★★★☆☆	★★★★☆	Java 团队对 Druid 生态更熟悉

最终选型：基于 Apache Druid 的深度定制引擎。选择 Druid 而非 ClickHouse 的核心原因：广告平台对实时性要求极高（Druid 秒级摄入 vs ClickHouse 分钟级），且 Druid 的 Lambda 架构与我们的需求高度契合；选择自研而非直接商用云服务的原因是：数据安全性要求高，千亿级数据的云服务成本远超自建。

1.3 设计目标

日均 1000 亿事件实时摄入，数据从产生到可查询延迟 < 60 秒
任意维度组合查询 P99 < 800ms，支持 100+ 维度秒级响应
存储压缩率 30x（原始数据 vs 压缩后），降低存储成本
高可用架构：单节点故障不影响查询服务，可用性 > 99.9%
灵活扩缩容：Historical 节点和 Realtime 节点独立扩容

二、技术架构设计

2.1 Druid 整体架构

Apache Druid 是一个专为 OLAP 场景设计的分布式数据存储，核心设计哲学是"列式存储 + 倒排索引 + Lambda 架构"。整体架构分为四大组件层：

数据源层（Data Source）

Kafka 集群 → 业务数据库 → 客户端 SDK 直接摄入 → 数据湖（HDFS）备份

实时节点层（Realtime Nodes）

Tranquility Server → Kafka Consumer → 内存预聚合 → 定期刷盘到 Deep Storage

历史节点层（Historical Nodes）

列式存储段文件（Segment）→ ZSTD 压缩 → Bitmap 索引 + 倒排索引 → 本地磁盘缓存

查询层（Broker Nodes）

查询路由 → 谓词下推 → 多节点并行扫描 → 结果汇总聚合 → 返回客户端

协调节点（Coordinator Nodes）

负载均衡调度 → Segment 分配策略 → Historical 节点健康管理 → 冷热数据分层

下图展示 Druid 完整的分布式组件拓扑与数据流：数据源经过 Tranquility Server 摄入后被分配到 Realtime 节点做内存 Rollup 聚合；Realtime 节点按时间窗口（默认 2 小时）刷盘生成 Segment 文件，Segment 同时上传到 HDFS（Deep Storage）作为冷数据备份，并由 Coordinator 调度加载到 Historical 节点的本地 SSD 缓存；查询请求进入 Broker 节点后被拆解为「按 Segment 维度的子查询」下推到各 Historical / Realtime 节点并行执行，Bitmap 索引负责维度过滤、列式扫描负责度量聚合，Broker 最终汇总各节点的部分结果返回给客户端。

flowchart TB subgraph SOURCE["数据源层"] KAFKA[("Kafka
事件流 Topic")] DB[("MySQL/TiDB
业务库")] SDK["客户端 SDK
直接摄入"] end subgraph REALTIME["Realtime 节点层 · 实时摄入"] TRANQ["Tranquility Server
分区映射 + 背压控制"] ROLL["内存 Rollup
1min / 1h 时间桶"] SEGRT["刷盘 Segment
默认 2h 窗口"] end subgraph HIST["Historical 节点层 · 历史查询"] SEGHIST["Segment 加载
从 HDFS 拉取"] COL[("列式存储
ZSTD + Bitmap + 倒排索引")] SSD["本地 SSD 缓存
热数据加速"] end subgraph BROKER["Broker 节点层 · 查询入口"] QPARSE["SQL 解析 + 计划生成"] PUSHDOWN["查询下推
谓词 + 聚合"] MERGE["多节点结果汇总"] end subgraph COORD["Coordinator 节点 · 调度管理"] SCHED["Segment 调度
冷热分层"] REBAL["负载均衡"] HEALTH["节点健康检查"] end subgraph DEEP["Deep Storage"] HDFS[("HDFS/S3
冷数据归档")] end CLIENT(["客户端
BI / 报表 / API"]) KAFKA --> TRANQ DB --> TRANQ SDK --> TRANQ TRANQ --> ROLL --> SEGRT SEGRT -->|"上传"| HDFS SEGRT -->|"注册到"| COORD HDFS -.冷查询按需加载.-> SEGHIST COORD -->|分配 Segment| SEGHIST SEGHIST --> COL SEGHIST --> SSD SCHED -.控制.-> SEGHIST REBAL -.控制.-> SEGHIST HEALTH -.上报.-> COORD CLIENT --> QPARSE --> PUSHDOWN PUSHDOWN -->|"热数据"| ROLL PUSHDOWN -->|"温/冷数据"| SEGHIST SEGHIST -->|部分结果| MERGE ROLL -->|部分结果| MERGE MERGE -->|最终结果| CLIENT style TRANQ fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style ROLL fill:#16213e,stroke:#7b61ff,stroke-width:2px style COL fill:#16213e,stroke:#7b61ff,stroke-width:2px style SSD fill:#16213e,stroke:#7b61ff,stroke-width:2px style PUSHDOWN fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style MERGE fill:#16213e,stroke:#7b61ff,stroke-width:2px style SCHED fill:#16213e,stroke:#7b61ff,stroke-width:2px style HDFS fill:#16213e,stroke:#7b61ff,stroke-width:2px

2.2 数据摄入链路

数据从产生到进入 Druid 的完整链路如下：

业务事件
(点击/曝光)

→

Kafka
Topic

→

Tranquility
Server

→

Realtime
Node

→

Segment
Segments

→

Historical
Node

下图从时序角度展开摄入链路：业务事件（用户点击、广告曝光）首先按数据源写入不同 Kafka Topic，Tranquility Server 以多分区并行消费模式拉取消息；为避免消费积压，Tranquility 内置背压控制（Lag > 5000 触发降速，Lag > 10w 触发熔断降级）；Realtime 节点消费后做内存 Rollup（按低基数维度组合预聚合），每 2 小时将聚合结果刷盘为不可变 Segment 文件；Segment 上传 HDFS 归档后，由 Coordinator 调度加载到 Historical 节点本地缓存，从事件产生到可查询总延迟 < 60 秒。

flowchart LR subgraph GEN["业务侧"] E1["移动端点击事件"] E2["PC 端曝光事件"] E3["转化事件"] end subgraph MQ["Kafka 集群"] T1["Topic: click
分区 0-N"] T2["Topic: impression
分区 0-N"] T3["Topic: conversion
分区 0-N"] end subgraph TRANQ["Tranquility Server"] BP["背压控制
Lag 阈值检测"] SCHEMA["Schema 校验
维度字典编码"] MAPPING["分区映射
Kafka → Realtime"] end subgraph RT["Realtime 节点"] CONSUME["Kafka Consumer"] ROLL["内存 Rollup
时间桶聚合"] FLUSH["刷盘 Segment
2h 窗口"] end SEG[("Segment 文件
列式 + Bitmap")] HDFS2[("HDFS Deep Storage")] HIST2["Historical 节点
本地 SSD 缓存"] Q["查询可服务
延迟 < 60s"] E1 & E2 & E3 --> T1 & T2 & T3 T1 & T2 & T3 --> BP --> SCHEMA --> MAPPING MAPPING --> CONSUME --> ROLL --> FLUSH FLUSH --> SEG SEG -->|"上传"| HDFS2 SEG -->|"Coordinator 调度"| HIST2 HDFS2 -.按需加载.-> HIST2 HIST2 --> Q style BP fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style ROLL fill:#16213e,stroke:#7b61ff,stroke-width:2px style FLUSH fill:#16213e,stroke:#7b61ff,stroke-width:2px style SEG fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style HIST2 fill:#16213e,stroke:#7b61ff,stroke-width:2px style Q fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px

Tranquility Server 是 Druid 官方推荐的实时摄入方案，核心职责是将 Kafka 中的消息流转换为 Druid 的实时索引任务。它解决了 Kafka 分区与 Druid Realtime 节点的一对一映射问题，并自动处理节点故障时的数据迁移。Realtime 节点在内存中进行实时聚合（Rollup），按时间窗口（默认 2 小时）定期将内存中的聚合结果刷盘为 Segment 文件，并上传到 HDFS/S3 作为 Deep Storage。

2.3 预聚合与 Rollup 策略

Rollup 是 Druid 最强大的特性之一：通过在摄入阶段对原始事件按维度组合进行预聚合， Dramatically 减少存储量和查询扫描量。例如原始日志包含 1000 万条独立点击事件，如果按"小时 + 地域 + 广告主"三个维度 Rollup，聚合后可能只剩 10 万行。

💡 Rollup 的工程权衡：Rollup 是有损压缩，聚合精度越高（维度越多），存储节省越多，但查询灵活性越低。实践中通常选择高频查询维度（如时间+地域+平台）进行 Rollup，低频维度保留在原始数据中通过扫描查询。

Rollup 粒度策略：时间维度（最小粒度 1 分钟）、高基数维度（用户 ID、Cookie）不参与 Rollup、低基数维度（性别、平台、地域）强制 Rollup。预期压缩收益：10-50x（取决于 Rollup 维度覆盖率）。

2.4 列式存储与索引机制

Druid 的 Segment 文件采用列式存储（Columnar Format），每个列单独存储，支持只读取查询涉及的列，避免全表扫描。Druid 还为每个列构建了两级索引：

Bitmap 索引：为每个维度值创建一个 Bitmap，Bitmap 第 i 位表示第 i 行是否等于该值。Bitmap 支持高效的 AND/OR 交集运算，多条件过滤时性能极高。
倒排索引：基于 Bitmap 构建，支持快速定位满足条件的行集合。结合 ZSTD 列压缩，存储效率极高。

数据压缩策略：数值列使用 LZF 或 ZSTD 压缩（默认 ZSTD，压缩率比 LZF 高 30%），字符串列使用字典编码（将唯一值映射为整数 ID）。实测压缩率：原始数据 1TB → 压缩后约 30GB（30x）。

2.5 Broker 查询下推机制

Broker 是查询的入口节点，负责查询计划生成与结果汇总。其核心优化手段是查询下推：将过滤条件（WHERE）、聚合操作（GROUP BY、COUNT、SUM）尽可能下推到 Historical 节点执行，只有需要跨节点汇总的结果才在 Broker 层处理。

下图展示了一次 Druid SQL 查询从客户端到返回结果的四阶段流水线：阶段 ① Broker 解析 SQL 构建查询树，按时间范围+维度过滤从元数据中圈选相关 Segment 列表（典型查询仅命中总数据量的 5-15%）；阶段 ② WHERE 谓词下推到 Historical/Coordinator 节点，多条件交集通过 Bitmap AND 运算高效执行（单次过滤 < 5ms）；阶段 ③ GROUP BY + COUNT/SUM 聚合也在节点内完成，每个 Historical 节点返回已聚合的「部分结果」（百万行压缩到千行）；阶段 ④ Broker 合并 10-20 个节点的部分结果（而非 100+ 节点的原始结果），最终返回客户端。整体 P99 < 800ms。

flowchart TB SQL(["Druid SQL
SELECT country, SUM(revenue)
FROM ads
WHERE event_date > t1
GROUP BY country"]) subgraph S1["阶段 ① 查询计划"] PARSE["SQL 解析
ANTLR 语法树"] TREE["查询树
Scan + Filter + Agg"] META["元数据查询
圈选相关 Segment 列表"] end subgraph S2["阶段 ② 谓词下推"] PUSH_W["WHERE 下推
country=CN AND event_date"] BITMAP["Bitmap 索引交集
AND / OR 运算"] FILTERED["过滤后行集合
仅原 5-15%"] end subgraph S3["阶段 ③ 聚合下推"] PUSH_G["GROUP BY 下推
country 分组"] LOCAL_AGG["节点内预聚合
SUM(revenue) per country"] PARTIAL["部分结果
百万行 → 千行"] end subgraph S4["阶段 ④ Broker 汇总"] MERGE2["多节点结果合并
10-20 个 Middle Manager"] SORT2["全局排序 + TopN"] FINAL(["返回客户端
P99 < 800ms"]) end SQL --> PARSE --> TREE --> META META -->|"Segment 列表"| PUSH_W PUSH_W --> BITMAP --> FILTERED FILTERED --> PUSH_G --> LOCAL_AGG --> PARTIAL PARTIAL --> MERGE2 --> SORT2 --> FINAL style BITMAP fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style LOCAL_AGG fill:#16213e,stroke:#7b61ff,stroke-width:2px style PARTIAL fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px style MERGE2 fill:#16213e,stroke:#7b61ff,stroke-width:2px style FINAL fill:#1a1a2e,stroke:#00d4ff,stroke-width:2px

①

查询解析与计划生成

Broker 解析 Druid SQL → 构建查询树 → 确定需要扫描的 Segments（按时间范围过滤）

②

谓词下推

WHERE 条件（维度过滤）被下推到 Historical 节点，只返回满足条件的行；多条件交集通过 Bitmap AND 运算高效执行

③

聚合下推

GROUP BY + 聚合函数（COUNT/SUM/MAX）下推到 Historical 节点，各节点返回已聚合的部分结果

④

结果汇总

Broker 接收各 Historical 节点的聚合结果 → 最终合并（Merge）→ 返回给客户端

2.6 数据冷热分层架构

根据数据访问频率，Druid 将数据分为热数据、温数据、冷数据三层：

🔥 热数据（0-7天）

存储在 Realtime 节点内存 + SSD，支撑实时看板和分钟级分析报表

🌡️ 温数据（7-30天）

存储在 Historical 节点本地磁盘，通过 Coordinator 调度加载，支撑天级报表

❄️ 冷数据（30天+）

仅存在于 Deep Storage（HDFS），查询时按需加载，适合审计和历史分析

Coordinator 节点根据查询频率自动调度：将高频访问的 Segment 预加载到 Historical 节点磁盘，将长期无访问的 Segment 从本地卸载，仅保留 HDFS 中的归档副本。实践表明，80% 的查询集中在最近 3 天的数据，通过冷热分层可将 Historical 节点的存储成本降低 60%。

三、核心技术挑战与解决方案

挑战一：实时摄入与离线批量的 Merge 问题

实时数据和离线批量数据的融合是 OLAP 引擎的经典难题。初期我们采用Lambda 架构（实时层 + 离线层分别处理，查询时合并结果），但这种方式带来了严重的双链路维护问题：两套摄入管道、两套聚合逻辑，查询时需要 UNION 实时层和离线层的结果集，数据不一致风险极高。运营报表经常出现实时数据和 T+1 数据对不上的情况，排查成本巨大。

✅ 解决方案：从 Lambda 到 Kappa 架构 + 统一摄入管道

Kappa 架构：用一套 Kafka 流处理取代原有的 Lambda 双链路，所有数据（包括历史修正数据）都通过 Kafka 重新回放处理，天然解决实时与离线的 Merge 问题。当需要对历史数据进行修正时，只需从 Kafka 起始偏移重新消费，数据自动覆盖。

统一摄入管道：Kafka Topic 按数据源分区（事件流 topic、广告主配置 topic），Tranquility Server 统一订阅，自动处理乱序消息和时间窗口对齐。修正数据以相同的 Schema 写入补偿 topic，Tranquility 按时间戳覆盖历史数据。

🔍 深挖：Kafka 消费积压时的实时性保障与背压机制

当 Kafka 消费者处理速度跟不上生产速度时，会出现消费积压（Lag）。积压导致数据延迟从秒级退化为分钟级。

背压机制设计：（1）消费速率自适应：Tranquility 内置背压控制，当 Lag 超过阈值（默认 5000 条）时自动降低拉取频率，等待系统追上；（2）多消费者并行：将 Kafka Topic 按数据源分区，每个分区对应一个独立 Tranquility 实例，通过增加分区数实现水平扩展；（3）热点 Partition 隔离：将高流量数据源（如 PC 端日志）单独分区，避免单一热点拖垮整体 Lag；（4）熔断降级：当 Lag 超过绝对阈值（10 万条）时，触发告警并启动降级策略——停止非关键指标的实时摄入，优先保证核心 KPI（曝光/点击/消耗）的实时性。

📊 效果数据：Lambda → Kappa 迁移后，数据不一致率从 3.2% 降至 0，数据管道维护成本降低 50%，运营数据核对工作量减少 70%。

挑战二：维度爆炸（高基数维度处理）

广告平台的核心分析维度中，"用户 ID"是典型的高基数维度——日活 5000 万用户，每个用户 ID 都是独立值。如果直接按用户 ID 进行 GROUP BY，单个 GROUP BY 结果集就有 5000 万行，既无法高效存储，也无法快速查询。更棘手的是，UV（独立访客数）统计需要精确去重，而精确去重在高基数下的计算成本极高。

✅ 解决方案：HyperLogLog + Bitmap + 维度字典编码三层策略

第一层：HyperLogLog 基数估计（精度 vs 性能权衡）—— 对于 UV 统计，使用 HyperLogLog（HLL）算法替代精确 COUNT(DISTINCT)。HLL 通过概率算法估计集合基数，标准误差约 2%，内存占用仅为精确去重的万分之一。HLL 数据结构大小固定（12KB），可以跨节点合并，非常适合分布式场景。

第二层：Bitmap 精确去重（低基数值域）—— 对于日活、小时 UV 等低基数值域（<1000万）使用 Bitmap 去重。Bitmap 第 i 位对应第 i 个用户的哈希值，支持 O(1) 的 AND/OR 运算。在 Druid 中，Bitmap 可以跨 Segment 合并，适合跨时间段 UV 统计。

第三层：维度字典编码（高基数字符串维度）—— 将高基数字符串维度（如用户 ID、设备 ID、广告创意 ID）通过全局字典映射为整数 ID，字典本身存储在 Druid 外部（Redis）。查询时通过字典反向映射回字符串值。字典编码可将存储空间减少 70%，同时保持查询结果的字符串可读性。

🔍 深挖：广告场景下"用户 ID"亿级基数的 UV 精度工程实践

广告投放系统中的 UV 统计精度直接关系到广告主的结算。精度要求不同，采用方案不同：

广告主结算用 UV：要求误差 < 1%，采用 HLL + 分层抽样验证：每日上午 10 点用精确 COUNT(DISTINCT) 对前一日 HLL 估算值进行校准，误差超过阈值时触发告警，人工核查。

内部运营报表 UV：允许 2-5% 误差，直接使用 HLL，节省 99% 的计算资源和存储空间。

实时看板 UV：使用 HLL Streaming（增量更新），每 30 秒刷新一次，用户看到的是"近似实时"的 UV 值，避免每次刷新都触发全量重算。

📊 效果数据：UV 查询响应时间从 8 秒降至 200ms，存储空间减少 65%，HLL 估算精度误差控制在 2% 以内。

挑战三：查询下推与跨节点结果聚合

当 Historical 集群扩展到 20+ 节点时，单个查询可能需要协调 15-20 个节点的并行扫描和数据传输。跨节点聚合带来了两个新问题：网络开销（各节点向 Broker 传输聚合结果）和内存压力（Broker 端需要接收并合并所有节点的结果）。初期压测发现，当单个查询涉及 100+ 个 Segment 时，Broker 节点 CPU 打满，查询 P99 延迟飙升至 5 秒以上。

✅ 解决方案：分层聚合 + 预聚合索引 + 智能路由

分层聚合（Tiered Aggregation）：Broker 不再直接收集所有 Historical 节点的原始结果，而是引入 Middle Manager（中间管理层）。每个 Middle Manager 负责聚合若干个 Historical 节点的局部结果，将百万级行压缩到万级甚至千级，再由 Broker 汇总。最终 Broker 只需处理 10-20 个 Middle Manager 的输出，而非 100+ Historical 节点。

预聚合索引（Pre-Aggregated Index）：对高频查询模式（"过去 7 天每天每广告主的曝光量"）提前计算并存储为 materialized view，查询时直接读取预聚合结果，完全绕过实时扫描。Druid 的 Rollup 功能天然支持这一能力。

智能路由（Query Routing）：Broker 根据查询时间范围智能判断路由策略：热数据查询直接路由到 Realtime 节点（绕过 Historical），温数据路由到本地 SSD 节点（跳过 HDFS 读取），冷数据启用异步查询（后台加载，不阻塞返回）。

🔍 深挖：多节点聚合时的网络开销与内存压力控制

网络带宽是跨节点聚合的硬性瓶颈。20 个 Historical 节点同时向 Broker 传输数据时，千兆网卡可能成为瓶颈。

网络优化：（1）数据压缩传输：Historical → Broker 传输前对结果集进行 ZSTD 压缩，实测压缩率 5-10x，带宽需求降至原来的 1/5；（2）流式聚合：使用迭代器模式替代全量返回——Historical 节点边扫描边聚合