归一化学习

m0_73884093

335人浏览 · 2026-03-25 19:46:49

m0_73884093 · 2026-03-25 19:46:49 发布

归一化学习

在机器学习项目中，我们常说“数据和特征决定了模型性能的上限，而算法只是逼近这个上限”。当原始数据特征尺度各异时，直接将其喂给模型往往事倍功半。今天，我们就来深入探讨数据预处理的关键技术——归一化，并通过Python代码展示如何在实际项目中应用它。

一、为什么归一化如此重要？

想象一下，你要预测房价，特征包括“房间数（1-5）”和“房屋面积（50-200平米）”。这两个特征的数值范围相差巨大，在计算距离或梯度时，“面积”会完全主导“房间数”的影响。归一化就是解决这个问题的标准方法。

核心价值：

加速模型收敛：为梯度下降等优化算法铺平道路
提升模型精度：确保所有特征公平参与模型决策
增强数值稳定性：防止计算溢出，提高算法鲁棒性

二、四大归一化方法详解与代码实现

让我们通过实际数据集来演示每种方法。这里使用经典的房价数据集作为示例。

import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# 加载示例数据
housing = fetch_california_housing()
X, y = housing.data, housing.target
feature_names = housing.feature_names

# 创建DataFrame便于展示
df = pd.DataFrame(X, columns=feature_names)
print("原始数据统计信息：")
print(df.describe().round(2))
print(f"\n特征尺度差异示例：")
print(f"MedInc范围: [{df['MedInc'].min():.2f}, {df['MedInc'].max():.2f}]")
print(f"HouseAge范围: [{df['HouseAge'].min():.2f}, {df['HouseAge'].max():.2f}]")
print(f"AveRooms范围: [{df['AveRooms'].min():.2f}, {df['AveRooms'].max():.2f}]")

1. 最小-最大归一化（Min-Max Scaling）

原理：线性映射到[0,1]区间

def min_max_scaling(data, feature_range=(0, 1)):
    """
    最小-最大归一化
    Args:
        data: 要归一化的数据（可以是数组或DataFrame）
        feature_range: 目标范围，默认为(0, 1)
    Returns:
        归一化后的数据
    """
    data_min = np.min(data, axis=0)
    data_max = np.max(data, axis=0)
    
    # 避免除以0
    data_range = data_max - data_min
    data_range[data_range == 0] = 1
    
    # 归一化公式
    scaled = (data - data_min) / data_range
    
    # 缩放到指定范围
    if feature_range != (0, 1):
        min_range, max_range = feature_range
        scaled = scaled * (max_range - min_range) + min_range
    
    return scaled, data_min, data_max

# 应用示例
X_minmax_scaled, min_vals, max_vals = min_max_scaling(df[['MedInc', 'AveRooms']].values)
print("\n=== 最小-最大归一化结果 ===")
print(f"转换前 MedInc 范围: [{df['MedInc'].min():.2f}, {df['MedInc'].max():.2f}]")
print(f"转换后 MedInc 范围: [{X_minmax_scaled[:, 0].min():.2f}, {X_minmax_scaled[:, 0].max():.2f}]")
print(f"转换前 AveRooms 范围: [{df['AveRooms'].min():.2f}, {df['AveRooms'].max():.2f}]")
print(f"转换后 AveRooms 范围: [{X_minmax_scaled[:, 1].min():.2f}, {X_minmax_scaled[:, 1].max():.2f}]")

注意：最小-最大归一化对异常值非常敏感！一个极端值会压缩其他所有数据。

2. Z-score标准化（Standardization）

原理：转化为均值为0，标准差为1的标准正态分布

def z_score_standardization(data):
    """
    Z-score标准化
    Args:
        data: 要标准化的数据
    Returns:
        标准化后的数据，以及均值和标准差（用于后续转换）
    """
    mean_vals = np.mean(data, axis=0)
    std_vals = np.std(data, axis=0)
    
    # 避免除以0
    std_vals[std_vals == 0] = 1
    
    # 标准化公式
    standardized = (data - mean_vals) / std_vals
    
    return standardized, mean_vals, std_vals

# 应用示例
X_zscore_scaled, mean_vals, std_vals = z_score_standardization(df[['MedInc', 'AveRooms']].values)
print("\n=== Z-score标准化结果 ===")
print(f"MedInc - 均值: {mean_vals[0]:.2f}, 标准差: {std_vals[0]:.2f}")
print(f"转换后 MedInc 均值: {X_zscore_scaled[:, 0].mean():.4f}, 标准差: {X_zscore_scaled[:, 0].std():.4f}")
print(f"AveRooms - 均值: {mean_vals[1]:.2f}, 标准差: {std_vals[1]:.2f}")
print(f"转换后 AveRooms 均值: {X_zscore_scaled[:, 1].mean():.4f}, 标准差: {X_zscore_scaled[:, 1].std():.4f}")

优势：Z-score是最常用的方法，对异常值有一定鲁棒性，适合大多数机器学习算法。

3. 最大绝对值缩放（MaxAbs Scaling）

原理：除以最大绝对值，缩放到[-1, 1]区间

def maxabs_scaling(data):
    """
    最大绝对值缩放
    Args:
        data: 要缩放的数据
    Returns:
        缩放后的数据，以及最大绝对值
    """
    max_abs = np.max(np.abs(data), axis=0)
    
    # 避免除以0
    max_abs[max_abs == 0] = 1
    
    # 缩放
    scaled = data / max_abs
    
    return scaled, max_abs

# 应用示例（创建一个有正有负的示例数据）
np.random.seed(42)
sample_data = np.random.randn(100, 2) * 10
sample_data[0, 0] = 100  # 添加一个异常值

X_maxabs_scaled, max_abs_vals = maxabs_scaling(sample_data)
print("\n=== 最大绝对值缩放结果 ===")
print(f"原始数据范围: [{sample_data.min():.2f}, {sample_data.max():.2f}]")
print(f"缩放后数据范围: [{X_maxabs_scaled.min():.2f}, {X_maxabs_scaled.max():.2f}]")
print(f"每个特征的最大绝对值: {max_abs_vals}")

适用场景：数据已中心化或稀疏数据（能保持稀疏性）。

4. 鲁棒缩放（Robust Scaling）

原理：使用中位数和四分位距，对异常值不敏感

def robust_scaling(data):
    """
    鲁棒缩放
    Args:
        data: 要缩放的数据
    Returns:
        缩放后的数据，以及中位数和IQR
    """
    median_vals = np.median(data, axis=0)
    q1 = np.percentile(data, 25, axis=0)
    q3 = np.percentile(data, 75, axis=0)
    iqr = q3 - q1
    
    # 避免除以0
    iqr[iqr == 0] = 1
    
    # 鲁棒缩放公式
    scaled = (data - median_vals) / iqr
    
    return scaled, median_vals, iqr

# 应用示例（创建包含异常值的数据）
np.random.seed(42)
data_with_outliers = np.random.randn(100, 2)
data_with_outliers[0, :] = [10, 20]  # 添加极端异常值
data_with_outliers[1, :] = [-8, -15]  # 添加极端异常值

X_robust_scaled, median_vals, iqr_vals = robust_scaling(data_with_outliers)
print("\n=== 鲁棒缩放结果（对比Z-score）===")
print("数据包含极端异常值：[10, 20] 和 [-8, -15]")

# 对比Z-score
zscore_result, _, _ = z_score_standardization(data_with_outliers)

print(f"\n鲁棒缩放 - 中位数: {median_vals}, IQR: {iqr_vals}")
print(f"鲁棒缩放后范围: [{X_robust_scaled.min():.2f}, {X_robust_scaled.max():.2f}]")
print(f"Z-score后范围: [{zscore_result.min():.2f}, {zscore_result.max():.2f}]")

核心优势：对异常值极其鲁棒，适合数据质量较差的场景。

三、实战：在机器学习流水线中正确应用归一化

最重要原则：防止数据泄露！必须用训练集的统计量来转换验证集和测试集。

方案1：手动实现训练-测试分离

class StandardScalerManual:
    """手动实现的Z-score标准化器"""
    def __init__(self):
        self.mean_ = None
        self.std_ = None
    
    def fit(self, X):
        """从训练数据计算均值和标准差"""
        self.mean_ = np.mean(X, axis=0)
        self.std_ = np.std(X, axis=0)
        self.std_[self.std_ == 0] = 1  # 防止除以0
        return self
    
    def transform(self, X):
        """应用转换"""
        if self.mean_ is None or self.std_ is None:
            raise ValueError("必须先调用fit方法")
        return (X - self.mean_) / self.std_
    
    def fit_transform(self, X):
        """拟合并转换"""
        return self.fit(X).transform(X)

# 正确使用示例
print("\n" + "="*60)
print("实战：正确应用归一化（防止数据泄露）")
print("="*60)

# 1. 分割数据集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 2. 在训练集上拟合转换器
scaler = StandardScalerManual()
X_train_scaled = scaler.fit_transform(X_train)

# 3. 用训练集的统计量转换测试集
X_test_scaled = scaler.transform(X_test)

print(f"训练集形状: {X_train.shape}")
print(f"测试集形状: {X_test.shape}")
print(f"\n训练集 - MedInc均值: {scaler.mean_[0]:.4f}, 标准差: {scaler.std_[0]:.4f}")
print(f"训练集转换后 - MedInc均值: {X_train_scaled[:, 0].mean():.6f}, 标准差: {X_train_scaled[:, 0].std():.6f}")
print(f"测试集转换后 - MedInc均值: {X_test_scaled[:, 0].mean():.6f}, 标准差: {X_test_scaled[:, 0].std():.6f}")

方案2：使用Scikit-learn Pipeline（推荐）

from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 创建不同的预处理流水线
pipelines = {
    '无标准化': Pipeline([('model', LinearRegression())]),
    'Z-score标准化': Pipeline([('scaler', StandardScaler()), ('model', LinearRegression())]),
    '最小-最大归一化': Pipeline([('scaler', MinMaxScaler()), ('model', LinearRegression())]),
    '鲁棒缩放': Pipeline([('scaler', RobustScaler()), ('model', LinearRegression())])
}

# 训练并评估不同方法
print("\n" + "="*60)
print("不同归一化方法在回归任务中的效果对比")
print("="*60)

results = {}
for pipe_name, pipeline in pipelines.items():
    # 训练
    pipeline.fit(X_train, y_train)
    
    # 预测
    y_pred = pipeline.predict(X_test)
    
    # 评估
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    results[pipe_name] = {'MSE': mse, 'R2': r2}
    
    print(f"{pipe_name:20} MSE: {mse:.4f}, R²: {r2:.4f}")

# 找出最佳方法
best_method = min(results, key=lambda x: results[x]['MSE'])
print(f"\n✅ 最佳方法: {best_method} (MSE: {results[best_method]['MSE']:.4f})")

四、方法选择指南与最佳实践

如何选择归一化方法？

默认选择：Z-score标准化
- 适用于大多数场景
- 对异常值有一定容忍度
- 适合基于距离的模型和梯度下降
数据有明确边界 → 最小-最大归一化
- 如图像像素值（0-255）
- 百分比数据（0-100%）
- 神经网络输入层通常期望[0,1]或[-1,1]范围
数据有异常值 → 鲁棒缩放
- 金融数据经常有极端值
- 传感器数据可能包含噪声和异常
稀疏数据 → 最大绝对值缩放
- 文本数据（TF-IDF矩阵）
- 推荐系统用户-物品矩阵

必须避免的常见错误

# ❌ 错误做法：在全数据集上计算统计量
X_wrong_scaled = StandardScaler().fit_transform(X)  # 数据泄露！

# ✅ 正确做法：在训练集上拟合，然后转换所有数据
scaler = StandardScaler()
X_train_correct = scaler.fit_transform(X_train)
X_test_correct = scaler.transform(X_test)  # 使用训练集的均值和标准差

归一化可视化对比

import matplotlib.pyplot as plt

# 创建示例数据
np.random.seed(42)
original_data = np.concatenate([
    np.random.normal(0, 1, 50),
    np.random.normal(5, 2, 50),
    np.array([20, -10])  # 添加两个异常值
])[:, np.newaxis]

# 应用不同归一化方法
methods = {
    '原始数据': original_data,
    '最小-最大': MinMaxScaler().fit_transform(original_data),
    'Z-score': StandardScaler().fit_transform(original_data),
    '鲁棒缩放': RobustScaler().fit_transform(original_data)
}

# 绘制对比图
fig, axes = plt.subplots(2, 2, figsize=(12, 8))
axes = axes.ravel()

for idx, (name, data) in enumerate(methods.items()):
    axes[idx].hist(data, bins=30, edgecolor='black', alpha=0.7)
    axes[idx].set_title(f'{name}分布', fontsize=12, fontweight='bold')
    axes[idx].set_xlabel('值')
    axes[idx].set_ylabel('频数')
    
    # 添加统计信息
    stats_text = f'均值: {data.mean():.2f}\n标准差: {data.std():.2f}\n范围: [{data.min():.2f}, {data.max():.2f}]'
    axes[idx].text(0.05, 0.95, stats_text, transform=axes[idx].transAxes, 
                   verticalalignment='top', bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

plt.suptitle('不同归一化方法效果对比（注意异常值的影响）', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

五、高级应用与技巧

1. 结合交叉验证的归一化

from sklearn.model_selection import cross_val_score, KFold

# 创建流水线
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])

# 使用交叉验证评估
cv_scores = cross_val_score(pipeline, X, y, 
                           cv=KFold(n_splits=5, shuffle=True, random_state=42),
                           scoring='r2')

print(f"\n交叉验证结果（5折）:")
print(f"R²分数: {cv_scores.mean():.4f} (±{cv_scores.std():.4f})")

2. 针对分类特征和数值特征分别处理

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# 模拟混合类型数据
np.random.seed(42)
n_samples = 1000

# 数值特征
numerical_features = np.random.randn(n_samples, 3) * 10

# 分类特征
categorical_features = np.random.choice(['A', 'B', 'C'], size=(n_samples, 2))

# 创建DataFrame
df_mixed = pd.DataFrame(
    np.column_stack([numerical_features, categorical_features]),
    columns=['num1', 'num2', 'num3', 'cat1', 'cat2']
)

# 分别处理数值和分类特征
preprocessor = ColumnTransformer([
    ('num', StandardScaler(), ['num1', 'num2', 'num3']),  # 数值特征标准化
    ('cat', OneHotEncoder(), ['cat1', 'cat2'])  # 分类特征独热编码
])

# 应用转换
X_processed = preprocessor.fit_transform(df_mixed)
print(f"\n混合特征处理:")
print(f"原始形状: {df_mixed.shape}")
print(f"处理后形状: {X_processed.shape}")
print(f"处理后特征类型: 数值特征标准化 + 分类特征独热编码")