人才流失预测

是你就无限615

747人浏览 · 2026-04-03 21:00:51

是你就无限615 · 2026-04-03 21:00:51 发布

企业人才流失预测项目 - 详细实现分析

本项目是一个完整的企业人才流失预测系统，使用 XGBoost 二分类模型预测员工是否会离职。

🏗️ 项目结构

person/
├── data/                    # 数据文件目录
│   ├── train.csv           # 训练集（1100条样本）
│   ├── train1.csv           # 增强训练集（1844条样本）
│   ├── test2.csv# 测试集（350条样本）
│   └── predictions.csv    # 预测结果
├── img/                     # 可视化图表目录
│   ├── feature_importance.png      # 特征重要性图
│   ├── roc_curve.png             # ROC曲线（训练集）
│   ├── roc_curve_test.png       # ROC曲线（测试集）
│   └── confusion_matrix.png      # 混淆矩阵（训练集）
│   └── confusion_matrix_test.png # 混淆矩阵（测试集）
├── log/                     # 日志文件目录
│   └── app.log                # 运行日志
├── model/                   # 模型文件目录
│   └── xgboost_model.pkl      # 训练好的XGBoost模型
└── src/                      # 源代码目录
    ├── train_predict/         # 训练和预测模块
    │   ├── feature_project.py  # 特征工程
    │   ├── train_ml.py         # 模型训练
    │   └── predict_ml.py       # 模型预测
    └── utils/                 # 工具模块
        ├── common.py            # 通用工具
        └── log.py               # 日志配置
└── run.py                    # 主程序入口
└── fewshot.py                    # 数据增强入口

📝 详细实现分析

1️⃣ 日志配置模块 (src/utils/log.py)

文件作用

配置日志系统，实现日志输出到控制台和文件的双重记录。

主要函数

setup_logger(name, log_file, level=logging.INFO)
- 创建并配置 logger 对象
- 设置日志格式：%(asctime)s - %(name)s - %(levelname)s - %(message)s
- 添加控制台处理器：实时输出日志到终端
- 添加文件处理器：持久化日志到 log/app.log
- 自动创建日志目录（如果不存在）

实现效果

✅ 所有操作步骤都有详细日志记录
✅ 日志同时输出到控制台和文件
✅ 便于追踪程序执行过程和调试问题
✅ 日志格式统一，包含时间、名称、级别、消息

技术要点

使用 Python 标准库 logging
支持多级别日志（DEBUG, INFO, WARNING, ERROR）
自动创建日志目录
UTF-8 编码支持中文

2️⃣ 通用工具模块 (src/utils/common.py)

文件作用

提供数据加载、模型保存、模型加载、可视化绘制的通用工具函数。

主要函数

2.1 数据加载

load_data(file_path: str) -> pd.DataFrame
- 功能：从指定路径加载 CSV 数据文件
- 参数：CSV 文件路径
- 返回：加载的 DataFrame
- 实现：使用 pd.read_csv() 读取数据

2.2 模型保存

save_model(model, file_path: str)
- 功能：将训练好的模型保存到指定路径
- 参数：
  - model：要保存的模型对象
  - file_path：模型保存路径
- 实现：
  - 自动创建模型目录（如果不存在）
  - 使用 pickle 序列化模型
  - 写入二进制文件

2.3 模型加载

load_model(file_path: str)
- 功能：从指定路径加载训练好的模型
- 参数：模型文件路径
- 返回：加载的模型对象
- 实现：使用 pickle.load() 反序列化模型

2.4 可视化绘制

plot_feature_importance(model, feature_names, save_path: str)
- 功能：绘制特征重要性柱状图
- 参数：
  - model：训练好的模型
  - feature_names：特征名称列表
  - save_path：图表保存路径
- 实现：
  - 自动创建图片目录（如果不存在）
  - 提取特征重要性：model.feature_importances_
  - 按重要性降序排列
  - 绘制柱状图
  - 设置标题、标签、旋转角度
  - 保存为 PNG 格式，300 dpi
plot_roc_curve(y_true, y_pred_proba, save_path: str)
- 功能：绘制 ROC 曲线
- 参数：
  - y_true：真实标签
  - y_pred_proba：预测概率
  - save_path：图表保存路径
- 实现：
  - 自动创建图片目录（如果不存在）
  - 计算 ROC 曲线数据：fpr, tpr, thresholds
  - 计算 AUC：auc(fpr, tpr)
  - 绘制 ROC 曲线
  - 添加对角线参考线
  - 设置坐标轴范围、标签、图例
  - 保存为 PNG 格式，300 dpi
plot_confusion_matrix(y_true, y_pred, save_path: str)
- 功能：绘制混淆矩阵热力图
- 参数：
  - y_true：真实标签
  - y_pred：预测标签
  - save_path：图表保存路径
- 实现：
  - 自动创建图片目录（如果不存在）
  - 计算混淆矩阵：confusion_matrix(y_true, y_pred)
  - 使用 seaborn 绘制热力图
  - 设置数值标注、颜色映射
  - 设置标题、坐标轴标签
  - 保存为 PNG 格式，300 dpi

实现效果

✅ 统一的数据加载和模型管理接口
✅ 支持模型持久化（保存和加载）
✅ 完整的可视化功能（特征重要性、ROC 曲线、混淆矩阵）
✅ 自动创建必要的目录
✅ 高质量图表输出（300 dpi）

技术要点

使用 pandas 进行数据操作
使用 pickle 进行模型序列化
使用 matplotlib 和 seaborn 进行可视化
自动创建目录（如果不存在）
UTF-8 编码支持

3️⃣ 特征工程模块 (src/train_predict/feature_project.py)

文件作用

对原始数据进行清洗、特征编码、特征选择、特征衍生，为模型训练准备高质量的特征数据。

主要函数

create_features(df: pd.DataFrame) -> pd.DataFrame
- 功能：完整的特征工程流程
- 参数：原始数据 DataFrame
- 返回：处理后的数据 DataFrame

特征工程步骤

3.1 数据清洗

删除无关特征
- 删除 EmployeeNumber（员工编号，与离职预测无关）
- 实现：df.drop(columns=['EmployeeNumber'], errors='ignore')

3.2 特征衍生（新增16个特征）

对数变换特征（3个）

MonthlyIncome_Log = log1p(MonthlyIncome)
- 作用：将右偏的月收入分布转换为近似正态分布
- 目的：缓解收入分布的偏态，提升模型性能
YearsAtCompany_Log = log1p(YearsAtCompany)
- 作用：将在公司年限对数化
- 目的：缓解年限分布的偏态
TotalWorkingYears_Log = log1p(TotalWorkingYears)
- 作用：将总工作年限对数化
- 目的：缓解工作年限分布的偏态

比率特征（3个）

IncomePerYear = MonthlyIncome / (YearsAtCompany + 1)
- 作用：计算年均收入
- 目的：反映收入效率，挖掘更深层的业务含义
CompaniesPerYear = NumCompaniesWorked / (TotalWorkingYears + 1)
- 作用：计算年均换公司次数
- 目的：反映跳槽频率，评估员工稳定性
TrainingPerYear = TrainingTimesLastYear / (YearsAtCompany + 1)
- 作用：计算年均培训次数
- 目的：反映学习投入，评估培训参与度

聚合特征（2个）

TotalSatisfaction = EnvironmentSatisfaction + JobSatisfaction + RelationshipSatisfaction
- 作用：计算总满意度（三个维度之和）
- 目的：整合多个满意度指标，提供整体视角
AvgSatisfaction = TotalSatisfaction / 3
- 作用：计算平均满意度
- 目的：归一化处理，便于模型学习

二值特征（3个）

IsOverTime = (OverTime == 'Yes').astype(int)
- 作用：是否加班（1=加班，0=不加班）
- 目的：突出加班这一关键风险因素
IsTravelFrequently = (BusinessTravel == 'Travel_Frequently').astype(int)
- 作用：是否频繁出差（1=频繁，0=不频繁）
- 目的：突出出差频率这一风险因素
IsSingle = (MaritalStatus == 'Single').astype(int)
- 作用：是否单身（1=单身，0=非单身）
- 目的：突出婚姻状态这一风险因素

多项式特征（3个）

JobLevel_Squared = JobLevel ** 2
- 作用：职级的平方
- 目的：捕捉职级与离职之间的非线性关系
Age_Squared = Age ** 2
- 作用：年龄的平方
- 目的：捕捉年龄与离职之间的非线性关系
Distance_Squared = DistanceFromHome ** 2
- 作用：通勤距离的平方
- 目的：捕捉通勤距离与离职之间的非线性关系

交互特征（2个）

JobLevel_Age_Ratio = JobLevel / (Age + 1)
- 作用：职级年龄比
- 目的：反映晋升速度，评估职业发展
YearsWithManager_Ratio = YearsWithCurrManager / (YearsAtCompany + 1)
- 作用：与现经理共事年限占比
- 目的：反映管理稳定性，评估团队关系

3.3 特征编码

分类特征编码
- 识别所有分类变量（object 类型）
- 使用 LabelEncoder 对每个分类变量进行编码
- 将分类变量转换为数值（0, 1, 2, …）
- 保存编码器以便后续使用

3.4 缺失值处理

缺失值填充
- 检查是否存在缺失值
- 如果存在，使用中位数填充
- 避免删除样本，保持数据完整性

3.5 特征选择

常量特征删除
- 识别 nunique <= 1 的特征
- 删除这些常量特征（对模型无区分度）
- 提升模型训练效率

实现效果

✅ 特征数量从 27 个增加到 43 个（+16 个新特征）
✅ 数据质量提升（缺失值处理、常量特征删除）
✅ 特征多样性增强（对数变换、比率、聚合、二值、多项式、交互）
✅ 业务特征挖掘（收入效率、跳槽频率、培训参与度、满意度整合）
✅ 风险因素突出（加班、出差、单身）
✅ 非线性关系捕捉（多项式特征）
✅ 特征交互作用（职级年龄比、管理稳定性）

技术要点

使用 pandas 进行数据操作
使用 numpy 进行数值计算
使用 sklearn.preprocessing.LabelEncoder 进行编码
自动识别分类变量
保持原始数据不变（创建副本）

4️⃣ 模型训练模块 (src/train_predict/train_ml.py)

文件作用

使用 XGBoost 算法进行模型训练、评估、保存和可视化。

主要函数

train_model(X: pd.DataFrame, y: pd.Series, save_roc=True) -> tuple
- 功能：完整的模型训练流程
- 参数：
  - X：特征数据
  - y：目标变量
  - save_roc：是否保存 ROC 曲线图（默认 True）
- 返回：(训练好的模型, 评估指标字典)

模型训练步骤

4.1 数据划分

训练集和验证集划分
- 使用 train_test_split 划分数据
- 训练集：70%
- 验证集：30%
- 分层抽样：stratify=y（保持类别比例）
- 随机种子：random_state=42（保证可重复性）

4.2 类别权重处理

计算类别权重
- scale_pos_weight = (y_train == 0).sum() / (y_train == 1).sum() * 3.0
- 作用：处理类别不平衡（离职率约 16%）
- 权重系数：3.0（增强少数类权重）

4.3 模型定义

XGBoost 分类器配置
- n_estimators=1500：树的数量（1500 棵）
- max_depth=7：树的最大深度（7 层）
- learning_rate=0.02：学习率（0.02）
- subsample=0.8：每棵树使用的样本比例（80%）
- colsample_bytree=0.8：每棵树使用的特征比例（80%）
- min_child_weight=1：子节点最小权重
- gamma=0：最小损失减少
- reg_alpha=0.01：L1 正则化系数
- reg_lambda=1.0：L2 正则化系数
- random_state=42：随机种子
- eval_metric='logloss'：评估指标（对数损失）
- scale_pos_weight=scale_pos_weight：类别权重
- n_jobs=-1：使用所有 CPU 核心

4.4 模型训练

模型拟合
- model.fit(X_train, y_train)
- 在训练集上训练 XGBoost 模型
- 使用类别权重处理不平衡

4.5 模型评估

预测和评估
- y_pred_proba = model.predict_proba(X_val)[:, 1]：获取正类概率
- y_pred = (y_pred_proba >= 0.5).astype(int)：根据阈值生成预测标签
- 计算评估指标：
  - 准确率：accuracy_score(y_val, y_pred)
  - 精确率：precision_score(y_val, y_pred, zero_division=0)
  - 召回率：recall_score(y_val, y_pred, zero_division=0)
  - F1 分数：f1_score(y_val, y_pred, zero_division=0)
  - AUC：roc_auc_score(y_val, y_pred_proba)

4.6 模型保存

模型持久化
- 保存路径：model/xgboost_model.pkl
- 使用 save_model() 函数
- 序列化保存训练好的模型

4.7 可视化

特征重要性图
- plot_feature_importance(model, X.columns.tolist(), 'img/feature_importance.png')
- 绘制特征重要性柱状图
ROC 曲线图（可选）
- if save_roc: plot_roc_curve(y_val, y_pred_proba, 'img/roc_curve.png')
- 根据 save_roc 参数决定是否保存
- 默认保存（训练集）
混淆矩阵图
- plot_confusion_matrix(y_val, y_pred, 'img/confusion_matrix.png')
- 绘制混淆矩阵热力图

实现效果

✅ 完整的模型训练流程
✅ 数据集划分（70% 训练，30% 验证）
✅ 类别不平衡处理（scale_pos_weight=3.0）
✅ XGBoost 模型优化（1500 棵树，深度 7）
✅ 完整的评估指标（准确率、精确率、召回率、F1、AUC）
✅ 模型持久化（保存到 pickle 文件）
✅ 可视化输出（特征重要性、ROC 曲线、混淆矩阵）
✅ 灵活控制 ROC 曲线保存（通过 save_roc 参数）

技术要点

使用 xgboost.XGBClassifier
使用 sklearn.model_selection.train_test_split
使用 sklearn.metrics 进行评估
使用 pickle 进行模型序列化
使用 matplotlib 和 seaborn 进行可视化
支持参数化控制 ROC 曲线保存

5️⃣ 模型预测模块 (src/train_predict/predict_ml.py)

文件作用

加载训练好的模型，对新数据进行预测，并评估预测结果（如果提供真实标签）。

主要函数

load_model_and_predict(new_data: pd.DataFrame, true_labels=None) -> tuple
- 功能：模型预测和评估
- 参数：
  - new_data：新数据 DataFrame
  - true_labels：真实标签（可选，用于评估）
- 返回：(预测结果 DataFrame, 评估指标字典)

预测步骤

5.1 模型加载

加载训练好的模型
- 路径：model/xgboost_model.pkl
- 使用 load_model() 函数
- 返回：训练好的 XGBoost 模型对象

5.2 特征工程

应用相同的特征工程
- 调用 create_features(new_data)
- 对新数据进行与训练集相同的特征处理
- 包括：对数变换、比率、聚合、二值、多项式、交互特征
- 分类特征编码
- 缺失值处理
- 常量特征删除

5.3 模型预测

预测概率和标签
- y_pred_proba = model.predict_proba(X)[:, 1]：获取正类概率
- y_pred = (y_pred_proba >= 0.5).astype(int)：根据阈值 0.5 生成预测标签
- 阈值：0.5（可调整）

5.4 结果整合

添加预测结果列
- result['attrition_prob'] = y_pred_proba：预测概率
- result['attrition_pred'] = y_pred：预测标签（0 或 1）
- 返回包含原始数据和预测结果的 DataFrame

5.5 测试集评估（可选）

评估指标计算（如果提供真实标签）
- 条件：true_labels is not None and 'Attrition' in processed_data.columns
- 标签映射（支持多种格式）：
  - 小写：Yes/No → 1/0
  - 大写：Y/N → 1/0
- 计算评估指标：
  - 准确率：accuracy_score(y_true_mapped, y_pred)
  - 精确率：precision_score(y_true_mapped, y_pred, zero_division=0)
  - 召回率：recall_score(y_true_mapped, y_pred, zero_division=0)
  - F1 分数：f1_score(y_true_mapped, y_pred, zero_division=0)
  - AUC：roc_auc_score(y_true_mapped, y_pred_proba)

5.6 可视化（仅测试集）

ROC 曲线图
- plot_roc_curve(y_true_mapped, y_pred_proba, 'img/roc_curve_test.png')
- 保存路径：img/roc_curve_test.png（测试集专用）
混淆矩阵图
- plot_confusion_matrix(y_true_mapped, y_pred, 'img/confusion_matrix_test.png')
- 保存路径：img/confusion_matrix_test.png（测试集专用）

实现效果

✅ 模型加载和预测
✅ 应用相同的特征工程
✅ 输出预测概率和预测标签
✅ 支持测试集评估（如果提供真实标签）
✅ 标签映射支持多种格式（Yes/No, Y/N）
✅ 生成测试集专用可视化图表
✅ 返回预测结果和评估指标字典

技术要点

使用 xgboost.XGBClassifier
使用 sklearn.metrics 进行评估
使用 sklearn.preprocessing.LabelEncoder
使用 pickle 进行模型加载
使用 matplotlib 和 seaborn 进行可视化
支持多种标签格式映射
自动创建图片目录

6️⃣ 主程序入口 (run.py)

文件作用

整合所有模块，完成完整的训练和预测流程，输出评估指标和可视化结果。

主要函数

main()
- 功能：主程序入口
- 无参数
- 返回：无

执行流程

6.1 日志初始化

创建日志对象
- logger = setup_logger('AttritionPrediction', 'log/app.log')
- 日志名称：‘AttritionPrediction’
- 日志文件：‘log/app.log’
- 日志级别：INFO

6.2 训练阶段

加载训练数据
- train_data = load_data('data/train.csv')
- 记录：logger.info('开始加载训练数据...')
- 记录：logger.info(f'训练数据加载成功，数据形状: {train_data.shape}')
特征工程
- processed_train_data = create_features(train_data)
- 记录：logger.info('开始特征工程...')
- 记录：logger.info(f'特征工程完成，处理后数据形状: {processed_train_data.shape}')
分离特征和目标
- X = processed_train_data.drop(columns=['Attrition'])
- y = processed_train_data['Attrition']
- 记录：logger.info(f'特征数量: {X.shape[1]}, 样本数量: {X.shape[0]}')
模型训练
- model, metrics = train_model(X, y, save_roc=False)
- 记录：logger.info('开始模型训练...')
- 记录：logger.info('模型训练完成')
训练集评估输出
- 记录：logger.info('模型评估指标（训练集）:')
- 记录：准确率、精确率、召回率、F1、AUC
- 记录：logger.info('=' * 50)
模型保存
- 记录：logger.info('模型已保存到: model/xgboost_model.pkl')
- 记录：logger.info('可视化图表已保存到: img/ 目录')

6.3 预测阶段

加载测试数据
- test_data = load_data('data/test2.csv')
- 记录：logger.info('开始加载测试数据...')
- 记录：logger.info(f'测试数据加载成功，数据形状: {test_data.shape}')
模型预测
- predictions, test_metrics = load_model_and_predict(test_data)
- 记录：logger.info('开始模型预测...')
- 记录：logger.info('模型预测完成')
测试集评估输出（如果有真实标签）
- 条件：if test_metrics is not None
- 记录：logger.info('模型评估指标（测试集）:')
- 记录：准确率、精确率、召回率、F1、AUC
- 记录：logger.info('=' * 50)
- 否则：logger.info('测试集无真实标签，跳过评估指标计算')
保存预测结果
- predictions.to_csv('data/predictions.csv', index=False)
- 记录：logger.info('预测结果已保存到: data/predictions.csv')

6.4 项目完成

项目完成日志
- logger.info('企业人才流失预测项目完成')
- 记录：logger.info('=' * 50)

6.5 控制台输出

训练集评估指标
- 打印分隔线：print('=' * 50)
- 打印标题：print('模型评估指标（训练集）:')
- 打印指标：准确率、精确率、召回率、F1、AUC
- 打印分隔线：print('=' * 50)
测试集评估指标（如果有）
- 打印分隔线：print('=' * 50)
- 打印标题：print('模型评估指标（测试集）:')
- 打印指标：准确率、精确率、召回率、F1、AUC
- 打印分隔线：print('=' * 50)
- 否则：print('测试集无真实标签，跳过评估指标计算')
输出文件列表
- 打印：print('输出文件:')
- 打印：'- 模型文件: model/xgboost_model.pkl')
- 打印：'- 特征重要性图: img/feature_importance.png')
- 打印：'- ROC 曲线: img/roc_curve.png')
- 打印：'- 混淆矩阵: img/confusion_matrix.png')
- 打印：'- 预测结果: data/predictions.csv')
- 打印：'- 日志文件: log/app.log')
- 打印：print('=' * 60 + '\n')

6.6 异常处理

捕获异常
- try-except 结构包裹所有代码
- 异常记录：logger.error(f'程序执行出错: {str(e)}')
- 异常输出：print(f'\n错误: {str(e)}')
- 优雅退出：sys.exit(1)

实现效果

✅ 完整的训练和预测流程
✅ 训练集评估（准确率、精确率、召回率、F1、AUC）
✅ 测试集评估（准确率、精确率、召回率、F1、AUC）
✅ 不保存训练集的 ROC 曲线（通过 save_roc=False）
✅ 生成测试集专用可视化图表（ROC 曲线、混淆矩阵）
✅ 完整的日志记录（所有步骤）
✅ 清晰的控制台输出（评估指标、文件列表）
✅ 异常处理和优雅退出
✅ 保存预测结果到 CSV 文件

技术要点

整合所有模块（日志、数据加载、特征工程、模型训练、预测）
使用 try-except 进行异常处理
支持参数化控制（save_roc）
支持多种标签格式（Yes/No, Y/N）
同时输出到控制台和日志文件
UTF-8 编码支持

🎯 实现效果总结

整体架构

✅ 模块化设计：清晰的模块划分（日志、工具、特征工程、训练、预测）
✅ 职责分离：每个模块负责特定功能
✅ 可复用性：通用工具函数可在多个模块中复用
✅ 可扩展性：易于添加新功能或替换模型

数据处理

✅ 特征工程增强：从 27 个特征增加到 43 个（+16 个新特征）
✅ 数据质量提升：缺失值处理、常量特征删除
✅ 特征多样性：对数变换、比率、聚合、二值、多项式、交互特征
✅ 业务特征挖掘：收入效率、跳槽频率、培训参与度、满意度整合
✅ 风险因素突出：加班、出差、单身

模型性能

✅ XGBoost 优化：1500 棵树，深度 7，学习率 0.03
✅ 类别不平衡处理：scale_pos_weight=3.0
✅ 正则化：L1=0.01, L2=1.0
✅ 完整评估：准确率、精确率、召回率、F1、AUC
✅ 模型持久化：保存到 pickle 文件

可视化输出

✅ 特征重要性图：img/feature_importance.png
✅ ROC 曲线（训练集）：img/roc_curve.png（不保存）
✅ ROC 曲线（测试集）：img/roc_curve_test.png（保存）
✅ 混淆矩阵（训练集）：img/confusion_matrix.png
✅ 混淆矩阵（测试集）：img/confusion_matrix_test.png（保存）

日志和输出

✅ 双重日志：控制台 + 文件（log/app.log）
✅ 清晰的控制台输出：评估指标、文件列表
✅ 预测结果保存：data/predictions.csv
✅ 异常处理：捕获错误并优雅退出

代码质量

✅ 模块化设计：清晰的职责分离
✅ 可维护性：每个函数有明确的文档字符串
✅ 可扩展性：易于添加新功能
✅ 异常处理：完整的错误捕获
✅ 参数化控制：save_roc 参数控制 ROC 曲线保存
✅ 标签格式支持：Yes/No 和 Y/N 格式

📊 预期性能指标

训练集性能

准确率: 0.9152
精确率: 0.9356
召回率: 0.8917
F1 分数: 0.9131
AUC: 0.9708

测试集性能

准确率: 0.8571
精确率: 0.5484
召回率: 0.3208
F1 分数: 0.4048
AUC: 0.8465

🚀 运行方式

python run.py

📝 注意事项

数据文件
- 确保 data/train.csv 和 data/test2.csv 存在指定位置
- 训练集包含 Attrition 列（真实标签）
- 测试集包含 Attrition 列（真实标签，用于评估）
目录权限
- 确保 model/、img/、log/ 目录有写入权限
- 程序会自动创建这些目录（如果不存在）
依赖库
- pandas >= 1.3.0
- numpy >= 1.21.0
- xgboost >= 1.5.0
- scikit-learn >= 1.0.0
- matplotlib >= 3.4.0
- seaborn >= 0.11.0
性能目标
- AUC >= 0.75（原始要求）
- 召回率 >= 75%（原始要求）
- 当前优化后预期 AUC ~0.77-0.85
标签格式
- 训练集：0/1（数值）
- 测试集：Yes/No 或 Y/N（字符串）
- 代码会自动映射为 0/1