Apache Spark 第 6 章：执行计划与 DAG 调度

zfqzfx

648人浏览 · 2026-03-20 20:01:03

zfqzfx · 2026-03-20 20:01:03 发布

第六章我们深入拆解 Spark 的执行计划与 DAG 调度机制，这是理解 Spark 为什么这样跑最核心的一章。

先看第一张，一条 SQL 从代码到物理执行的完整转换过程。执行计划的四个阶段搞清楚了；
接下来看 DAG 调度的核心——Job、Stage、Task 的层级关系和划分原理：层级结构搞清楚了；
接下来看最难理解的部分——Shuffle 的完整读写机制，以及为什么它是性能瓶颈：Shuffle 机制搞透了；
最后一张，看 AQE（自适应查询执行）的三大能力，这是 Spark 3.0 后最重要的运行时优化特性。

执行计划四阶段（第一张） 是理解 Spark SQL 工作原理的主线。一条 SQL 经历四次变换才真正被执行：

逻辑计划只是树形结构的操作描述，没有任何执行细节；
Catalyst Optimizer 用 50 多条规则对逻辑计划做谓词下推、列裁剪、常量折叠等变换，让数据尽早缩减；
Physical Planner 在优化后的逻辑计划基础上选择具体算法，比如用哪种聚合方式、用哪种 Join；
最后 Tungsten 把物理计划编译成 JVM 字节码，用 WholeStage CodeGen 把多个算子的循环合并成一个，消除虚函数调用开销，配合 SIMD 向量化真正高速执行。
- 在面向对象编程（如 Java）中，虚函数（virtual function）是指允许子类重写（override）的方法。调用虚函数时，JVM
  需要在运行时通过虚表（vtable）查找实际应该执行的方法实现，这个过程称为动态分派（dynamic dispatch）。
- 动态分派带来额外开销：
  - 多一次内存间接寻址（查虚表）
  - 阻止编译器内联（inline）优化
  - 破坏 CPU 分支预测和指令流水线

abstract class Operator {
    abstract void process();  // 虚函数
}
class Filter extends Operator {
    void process() { ... }    // 重写
}
Operator op = new Filter();
op.process(); // 动态分派，找到 Filter.process()

查看执行计划用 df.explain("formatted")，生产排障必备。

在这里插入图片描述

Job → Stage → Task（第二张） 是 DAG 调度的三层结构。

一次 count() 或 write() 就是一个 Job：一个 Job 是由一个 Action 操作触发的。Action 操作是指那些会触发实际计算并返回结果（或写入外部系统）的操作，而不是仅仅定义转换逻辑（Transformation）；
Job 按宽依赖（Shuffle 边界）被 DAG Scheduler 切成多个 Stage，Stage 内部所有算子流水线执行无网络开销；
每个 Stage 被 Task Scheduler 拆成若干 Task 发给 Executor，一个 Partition 对应一个 Task，跑在一个线程上。
并行度由 Partition 数决定，spark.sql.shuffle.partitions 控制 Shuffle 后的分区数（默认 200，按数据量调整）。

在这里插入图片描述

Shuffle 机制（第三张） 是 Spark 最贵操作的完整剖析。

Map 端把每条数据按目标 Reducer 的 Hash 值排序写入本地磁盘，同时生成 index 文件记录偏移；
Reduce 端通过网络从所有 Mapper 的磁盘拉取属于自己 Key 的数据块，合并后聚合输出。
代价来源有四个：Spill 溢写磁盘、跨节点网络传输、序列化反序列化、GC 压力。
减少 Shuffle 的核心手段：
- 能 reduceByKey 就不用 groupByKey（Map 端预聚合）；
- 能 broadcast 就广播（彻底消除 Shuffle）；
- 开启 AQE 自动合并小分区；
- 调整 shuffle.partitions 匹配数据规模。