AI 驱动的存储分层策略：基于访问热度的自动冷热数据迁移

国医中兴

143人浏览 · 2026-06-11 10:39:45

国医中兴 · 2026-06-11 10:39:45 发布

AI 驱动的存储分层策略：基于访问热度的自动冷热数据迁移

cover

一、存储成本的"热数据膨胀"：冷热分层的工程必要性

生产数据库中，数据访问呈现明显的冷热分布：最近 30 天的数据可能占查询量的 90%，但只占数据总量的 10%。然而，所有数据都存储在高性能 SSD 上，冷数据占据了大量昂贵的存储空间。将冷数据迁移到低成本存储（如 HDD、对象存储），可以在不影响热数据查询性能的前提下，将存储成本降低 60-80%。

传统冷热分层依赖人工规则（如"超过 90 天的数据迁移到冷存储"），但固定规则无法适应访问模式的变化。某些"老数据"可能因业务查询（如年度报表、审计回溯）突然变热，固定规则会将其错误地迁移到冷存储，导致查询性能骤降。AI 驱动的存储分层策略，核心思路是：基于访问热度预测动态调整冷热边界，而非依赖固定时间规则。

二、AI 存储分层的架构设计

flowchart TD
    A[数据访问日志] --> B[访问热度特征提取]
    B --> C[AI 模型预测: 未来访问概率]
    C --> D{访问概率 > 阈值?}
    D -->|热数据| E[保留在 SSD 热存储]
    D -->|冷数据| F[迁移到 HDD/对象存储]
    F --> G[冷数据查询: 自动回热]
    G --> H[回热: 从冷存储加载到热存储]
    H --> I[查询完成后降级]
    E --> J[定期重新评估热度]
    J --> C

三、AI 存储分层的代码实现

3.1 访问热度特征提取

@dataclass
class DataHeatFeatures:
    """数据热度特征：用于预测未来访问概率"""
    table_name: str
    partition_key: str       # 分区键值（如日期、ID 范围）
    access_count_7d: int     # 近 7 天访问次数
    access_count_30d: int    # 近 30 天访问次数
    last_access_time: float  # 最后访问时间戳
    data_size_mb: float      # 数据大小
    query_types: list        # 查询类型（点查/范围查/聚合）

class HeatFeatureExtractor:
    """访问热度特征提取器"""

    def extract(self, table: str, partition_column: str) -> List[DataHeatFeatures]:
        # 从查询日志中提取各分区的访问统计
        query = f"""
        SELECT
            {partition_column} as partition_key,
            COUNT(*) as access_count,
            MAX(timestamp) as last_access,
            COUNT(DISTINCT query_type) as query_diversity
        FROM query_access_log
        WHERE table_name = %s
          AND timestamp > NOW() - INTERVAL 30 DAY
        GROUP BY {partition_column}
        """
        results = self.db.execute(query, (table,))

        features = []
        for row in results:
            features.append(DataHeatFeatures(
                table_name=table,
                partition_key=str(row['partition_key']),
                access_count_7d=self._count_recent(row, 7),
                access_count_30d=row['access_count'],
                last_access_time=row['last_access'].timestamp(),
                data_size_mb=self._get_partition_size(table, row['partition_key']),
                query_types=self._get_query_types(table, row['partition_key']),
            ))
        return features

3.2 热度预测模型

class HeatPredictor:
    """
    访问热度预测器：基于时间衰减 + 查询模式预测未来访问概率
    核心公式: heat_score = α × recency + β × frequency + γ × query_diversity
    """

    def predict(self, features: DataHeatFeatures) -> float:
        now = time.time()
        days_since_last = (now - features.last_access_time) / 86400

        # 时间衰减因子：指数衰减，半衰期 14 天
        recency = math.exp(-0.05 * days_since_last)

        # 频率因子：近 7 天访问次数归一化
        frequency = min(1.0, features.access_count_7d / 100)

        # 查询多样性因子：多种查询类型意味着更可能被持续访问
        diversity = min(1.0, len(features.query_types) / 5)

        # 综合热度评分
        heat_score = 0.4 * recency + 0.4 * frequency + 0.2 * diversity
        return heat_score

    def classify(self, heat_score: float) -> str:
        """根据热度评分分类"""
        if heat_score > 0.6:
            return 'HOT'      # 保留在 SSD
        elif heat_score > 0.2:
            return 'WARM'     # 可迁移到 HDD
        else:
            return 'COLD'     # 迁移到对象存储

3.3 自动迁移执行器

class DataMigrationExecutor:
    """数据迁移执行器：执行冷热数据迁移和回热"""

    def migrate_to_cold(self, table: str, partition_key: str,
                        target_storage: str = 'object_storage'):
        """
        将冷数据迁移到低成本存储
        流程：导出 → 上传 → 验证 → 删除原数据
        """
        # 1. 导出分区数据为 Parquet 格式
        export_path = f"/tmp/{table}_{partition_key}.parquet"
        self.db.execute(f"""
            COPY (SELECT * FROM {table} WHERE partition_key = %s)
            TO %s WITH (FORMAT parquet, COMPRESSION zstd)
        """, (partition_key, export_path))

        # 2. 上传到对象存储
        object_key = f"cold-storage/{table}/{partition_key}/data.parquet"
        self.s3_client.upload_file(export_path, bucket='data-lake', key=object_key)

        # 3. 验证上传完整性
        local_size = os.path.getsize(export_path)
        remote_size = self.s3_client.head_object(
            bucket='data-lake', key=object_key
        )['ContentLength']
        assert local_size == remote_size, "上传数据不完整"

        # 4. 在原表中标记为冷数据（软删除）
        self.db.execute(f"""
            UPDATE {table}_metadata
            SET storage_tier = 'COLD', cold_storage_path = %s
            WHERE partition_key = %s
        """, (object_key, partition_key))

        # 5. 删除原分区数据
        self.db.execute(f"""
            DELETE FROM {table} WHERE partition_key = %s
        """, (partition_key,))

    def reheat(self, table: str, partition_key: str):
        """
        回热：冷数据被查询时自动从对象存储加载回热存储
        """
        # 1. 获取冷数据路径
        result = self.db.execute(f"""
            SELECT cold_storage_path FROM {table}_metadata
            WHERE partition_key = %s
        """, (partition_key,))

        if not result:
            return  # 数据不在冷存储

        # 2. 从对象存储下载
        object_key = result[0]['cold_storage_path']
        local_path = f"/tmp/reheat_{table}_{partition_key}.parquet"
        self.s3_client.download_file('data-lake', object_key, local_path)

        # 3. 导入回热存储
        self.db.execute(f"""
            COPY {table} FROM %s WITH (FORMAT parquet)
        """, (local_path,))

        # 4. 更新元数据
        self.db.execute(f"""
            UPDATE {table}_metadata
            SET storage_tier = 'HOT', cold_storage_path = NULL
            WHERE partition_key = %s
        """, (partition_key,))