SQL 复杂查询优化：从执行计划到索引策略的深度调优指南

朱大喜

215人浏览 · 2026-06-08 08:25:16

朱大喜 · 2026-06-08 08:25:16 发布

SQL 复杂查询优化：从执行计划到索引策略的深度调优指南

cover

一、慢查询的冰山模型：表面是 SQL，根子在数据分布

"这条 SQL 跑了 30 秒，加个索引就好了"——这是对慢查询最常见的误解。加索引确实能解决部分问题，但更多时候，慢查询的根因藏在数据分布、连接顺序和统计信息里。一条查询从提交到返回结果，经历了词法解析、逻辑优化、物理优化、执行引擎四个阶段，任何一个阶段的决策偏差都会导致性能断崖式下降。

在生产环境中，慢查询的影响远不止"慢"本身。一条全表扫描的 SQL 可能占用 80% 的数据库 I/O 带宽，导致其他正常查询也跟着变慢。这种"一个坏查询拖垮整个实例"的连锁反应，才是慢查询最可怕的地方。

二、SQL 执行的底层机制

2.1 查询优化的两阶段模型

graph TD
    A[SQL 文本] --> B[词法/语法解析]
    B --> C[逻辑优化]
    C --> C1[谓词下推]
    C --> C2[子查询展开]
    C --> C3[连接重排序]
    C --> C4[常量折叠]
    C3 --> D[物理优化]
    D --> D1[索引选择]
    D --> D2[连接算法选择]
    D --> D3[并行度决策]
    D1 --> E[执行计划]
    E --> F[执行引擎]
    F --> G[返回结果]

逻辑优化基于关系代数等价变换，不依赖数据分布；物理优化基于统计信息选择代价最小的执行路径。优化器的决策质量直接取决于统计信息的准确性——如果统计信息过期，优化器可能选择全表扫描而非索引扫描，即使索引明明可用。

2.2 三种连接算法的适用场景

算法	时间复杂度	内存需求	适用场景
Nested Loop	O(M×N)	低	小表驱动大表，有索引可用
Hash Join	O(M+N)	高（需建哈希表）	等值连接，无索引可用
Merge Join	O(M+N)	低（需排序）	已排序数据，范围连接

2.3 执行计划的关键指标

graph LR
    A[EXPLAIN ANALYZE] --> B[type<br/>访问类型]
    A --> C[rows<br/>预估行数]
    A --> D[filtered<br/>过滤比例]
    A --> E[Extra<br/>附加信息]
    B --> B1{ALL=全表扫描}
    B --> B2{index=索引扫描}
    B --> B3{range=范围扫描}
    B --> B4{ref=等值匹配}
    B1 --> F[🔴 高风险]
    B2 --> G[🟡 需评估]
    B3 --> H[🟢 通常OK]
    B4 --> I[🟢 高效]

三、复杂查询优化的实战代码

3.1 执行计划分析与诊断

-- ============================================================
-- 场景：电商订单分析，多表关联 + 聚合 + 排序
-- 原始查询：慢查询，执行时间 30s+
-- ============================================================

-- 原始写法（低效）
EXPLAIN ANALYZE
SELECT
    o.order_id,
    c.customer_name,
    p.product_name,
    oi.quantity,
    oi.unit_price,
    o.order_date
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
JOIN order_items oi ON o.order_id = oi.order_id
JOIN products p ON oi.product_id = p.product_id
WHERE o.order_date >= '2025-01-01'
  AND o.status = 'completed'
  AND c.region = 'east'
ORDER BY o.order_date DESC
LIMIT 100;

-- 常见问题诊断：
-- 1. type=ALL：orders 表全表扫描
-- 2. rows 偏差大：预估 1000 行实际扫描 500 万行
-- 3. Using filesort：排序未走索引
-- 4. Using temporary：使用了临时表

-- ============================================================
-- 优化步骤 1：为 WHERE 条件建立复合索引
-- ============================================================

-- 复合索引遵循最左前缀原则
-- 将等值条件放前面，范围条件放后面
CREATE INDEX idx_orders_date_status
ON orders(order_date, status);

-- 优化后：orders 表从 ALL 变为 range
-- 但 JOIN 仍然使用 Nested Loop，效率不高

-- ============================================================
-- 优化步骤 2：驱动表选择与连接优化
-- ============================================================

-- 小表驱动大表：先过滤出符合条件的客户，再关联订单
-- 使用 STRAIGHT_JOIN 强制指定连接顺序（MySQL）
EXPLAIN ANALYZE
SELECT STRAIGHT_JOIN
    o.order_id,
    c.customer_name,
    p.product_name,
    oi.quantity,
    oi.unit_price,
    o.order_date
FROM customers c  -- 先扫描客户表（小表）
JOIN orders o ON o.customer_id = c.customer_id
    AND o.order_date >= '2025-01-01'
    AND o.status = 'completed'
JOIN order_items oi ON o.order_id = oi.order_id
JOIN products p ON oi.product_id = p.product_id
WHERE c.region = 'east'
ORDER BY o.order_date DESC
LIMIT 100;

-- ============================================================
-- 优化步骤 3：覆盖索引避免回表
-- ============================================================

-- 当 SELECT 的列全部包含在索引中时，无需回表查询数据行
-- 这就是"覆盖索引"——索引即数据
CREATE INDEX idx_orders_covering
ON orders(customer_id, status, order_date, order_id);

-- 优化后：Extra 列出现 Using index，表示走了覆盖索引
-- 减少了大量随机 I/O

3.2 子查询优化策略

-- ============================================================
-- 场景：查找消费金额前 10% 的客户
-- ============================================================

-- 反面写法：相关子查询，每行都执行一次子查询
-- 时间复杂度：O(N²)
SELECT c.customer_id, c.customer_name
FROM customers c
WHERE (
    SELECT SUM(oi.quantity * oi.unit_price)
    FROM order_items oi
    JOIN orders o ON oi.order_id = o.order_id
    WHERE o.customer_id = c.customer_id
) > (
    SELECT PERCENTILE_CONT(0.9) WITHIN GROUP (
        ORDER BY total_amount
    )
    FROM (
        SELECT SUM(oi.quantity * oi.unit_price) AS total_amount
        FROM order_items oi
        JOIN orders o ON oi.order_id = o.order_id
        GROUP BY o.customer_id
    ) t
);

-- 优化写法 1：先聚合再过滤，避免相关子查询
-- 时间复杂度：O(N)
WITH customer_totals AS (
    SELECT
        o.customer_id,
        SUM(oi.quantity * oi.unit_price) AS total_amount
    FROM order_items oi
    JOIN orders o ON oi.order_id = o.order_id
    GROUP BY o.customer_id
),
threshold AS (
    SELECT PERCENTILE_CONT(0.9) WITHIN GROUP (
        ORDER BY total_amount
    ) AS cutoff
    FROM customer_totals
)
SELECT ct.customer_id, c.customer_name, ct.total_amount
FROM customer_totals ct
JOIN customers c ON ct.customer_id = c.customer_id
CROSS JOIN threshold t
WHERE ct.total_amount > t.cutoff;

-- 优化写法 2：使用窗口函数，一次扫描完成
-- 更简洁，且只需一次表扫描
WITH ranked AS (
    SELECT
        o.customer_id,
        SUM(oi.quantity * oi.unit_price) AS total_amount,
        PERCENT_RANK() OVER (
            ORDER BY SUM(oi.quantity * oi.unit_price) DESC
        ) AS pct_rank
    FROM order_items oi
    JOIN orders o ON oi.order_id = o.order_id
    GROUP BY o.customer_id
)
SELECT r.customer_id, c.customer_name, r.total_amount
FROM ranked r
JOIN customers c ON r.customer_id = c.customer_id
WHERE r.pct_rank <= 0.1;

3.3 分页查询优化

-- ============================================================
-- 场景：深分页查询（第 10000 页，每页 20 条）
-- ============================================================

-- 反面写法：OFFSET 导致扫描并丢弃前 N 条记录
-- 翻到第 10000 页时，数据库需要扫描 200000 行再丢弃前 199980 行
SELECT order_id, customer_id, order_date, total_amount
FROM orders
WHERE status = 'completed'
ORDER BY order_date DESC
LIMIT 20 OFFSET 199980;
-- 执行时间：5s+（深分页场景）

-- 优化写法 1：游标分页（Keyset Pagination）
-- 利用上一页最后一条记录的排序值作为游标
-- 只需扫描 20 行，但要求排序字段唯一或有辅助字段
SELECT order_id, customer_id, order_date, total_amount
FROM orders
WHERE status = 'completed'
  AND (order_date, order_id) < ('2025-05-15', 12345)
    -- 上一页最后一条记录的值
ORDER BY order_date DESC, order_id DESC
LIMIT 20;
-- 执行时间：< 10ms

-- 优化写法 2：延迟关联
-- 先通过子查询在索引上定位主键，再回表获取完整数据
-- 子查询走覆盖索引，只扫描索引不回表
SELECT o.*
FROM orders o
JOIN (
    SELECT order_id
    FROM orders
    WHERE status = 'completed'
    ORDER BY order_date DESC
    LIMIT 20 OFFSET 199980
) AS tmp ON o.order_id = tmp.order_id
ORDER BY o.order_date DESC;
-- 执行时间：约 200ms（比原始写法快 25 倍）

3.4 统计信息维护自动化

# stats_maintenance.py
# 数据库统计信息自动维护脚本
import logging
from datetime import datetime, timedelta
from typing import List

logger = logging.getLogger(__name__)


class StatsMaintainer:
    """统计信息维护器
    
    过期的统计信息会导致优化器选择错误的执行计划。
    核心原则：数据变化超过阈值时自动更新统计信息。
    """
    
    def __init__(self, db_conn, change_threshold=0.1):
        self.conn = db_conn
        self.change_threshold = change_threshold
    
    def get_stale_tables(self) -> List[dict]:
        """检测统计信息过期的表"""
        query = """
        SELECT
            table_name,
            table_rows,
            COALESCE(data_change_pct, 0) AS change_pct,
            last_analyze_time
        FROM (
            SELECT
                t.table_name,
                t.table_rows,
                CASE WHEN s.n_rows > 0
                    THEN ABS(t.table_rows - s.n_rows) / s.n_rows
                    ELSE 1.0
                END AS data_change_pct,
                s.last_analyze_time
            FROM information_schema.tables t
            LEFT JOIN mysql.innodb_table_stats s
                ON t.table_name = s.table_name
            WHERE t.table_schema = DATABASE()
              AND t.table_type = 'BASE TABLE'
        ) sub
        WHERE change_pct > %s
           OR last_analyze_time < DATE_SUB(NOW(), INTERVAL 7 DAY)
        ORDER BY change_pct DESC
        """
        cursor = self.conn.cursor()
        cursor.execute(query, (self.change_threshold,))
        return cursor.fetchall()
    
    def analyze_table(self, table_name: str):
        """对指定表执行 ANALYZE TABLE"""
        start = datetime.now()
        cursor = self.conn.cursor()
        cursor.execute(f"ANALYZE TABLE `{table_name}`")
        elapsed = (datetime.now() - start).total_seconds()
        logger.info(
            "ANALYZE TABLE %s completed in %.2fs",
            table_name, elapsed,
        )
    
    def run_maintenance(self):
        """执行统计信息维护"""
        stale_tables = self.get_stale_tables()
        if not stale_tables:
            logger.info("No stale tables found")
            return
        
        logger.info(
            "Found %d stale tables", len(stale_tables)
        )
        for table in stale_tables:
            self.analyze_table(table["table_name"])