期刊解读：基于TabNet-Stacking的信用违约预测模型研究,《Entropy》

python机器学习建模

452人浏览 · 2026-04-01 15:01:49

python机器学习建模 · 2026-04-01 15:01:49 发布

信用风险控制是金融科技的核心命题。本文提出的TabNet-Stacking模型，将改进后的TabNet与Stacking集成学习相结合，在信用违约预测任务上取得了显著优于XGBoost、LightGBM、CatBoost等主流模型的性能。

我方公司专业从事企业建模，期刊论文专利定制服务。具体场景包括：个人信用贷款违约风控模型，企业信用贷款违约风控模型，债券违约预测模型，政府信用评级模型，股票价格预测模型，房价预测模型。

## 该论文由中央财经大学金融学院的王世杰与张学勇合作完成，张学勇为通讯作者，第一作者王世杰同时隶属于河北省农村信用社**，论文于2024年10月发表在MDPI期刊**《Entropy》第26卷第10期。

一、作者信息

|
作者
|
单位
|
备注
|
| — | — | — |
| Shijie Wang
（王世杰）
|
中央财经大学金融学院，北京
|
第一作者
|
| Xueyong Zhang
（张学勇）
|
中央财经大学金融学院，北京
|
通讯作者
|

二、作者所属单位

|
单位名称
|
所在城市
|
备注
|
| — | — | — |
| 中央财经大学金融学院 |
北京
|
第一作者与通讯作者共同所属单位
|
| 河北省农村信用社 |
石家庄
|
第二作者单位（论文中标注为 Rural Credit Cooperative of Hebei, Shijiazhuang 050024, China）
|

|
项目
|
内容
|
| — | — |
| 发布年份 |
2024年
|
| 接收日期 |
2024年10月11日
|
| 发表日期 |
2024年10月13日
|
| 期刊 |
Entropy
|
| 卷/期/文章号 |
Volume 26, Issue 10, Article 861
|
| DOI |
10.3390/e26100861
|

|
项目
|
内容
|
| — | — |
| 期刊名称 |
Entropy
|
| ISSN |
1099-4300
|
| 出版商 |
MDPI (瑞士)
|
| 出版国家 |
瑞士
|
| 开放获取(OA) |
是
|

期刊概述

《Entropy》是由瑞士MDPI出版社出版的国际性学术期刊，被 SCIE（Science Citation Index Expanded）收录，是Web of Science核心合集中的期刊。目前位于JCR Q2区、中科院3区，2024年影响因子为2.0

引言

随着金融科技的快速发展，传统的基于经验和单一网络的信用违约预测模型已难以满足当下需求。如何高效利用海量数据，准确识别高风险行为，成为金融机构亟需解决的问题。

虽然机器学习模型在信用风险领域已有广泛应用，但单一模型始终存在性能瓶颈。TabNet作为Google在AAAI 2021上发布的专为表格数据设计的深度神经网络，兼顾了树模型的可解释性与深度学习的表征能力，为信用违约预测提供了新的可能性。然而，其在金融领域的应用尚属空白。

本研究首次将TabNet引入信用违约预测，并通过多目标遗传算法优化其特征选择模块、粒子群算法自动调参，最终与Stacking集成学习相结合，构建了TabNet-Stacking信用违约预测模型。

模型核心架构

1. 改进TabNet特征选择模块

TabNet通过顺序注意力机制进行特征选择，但其模块仍有优化空间。本文引入多目标遗传算法对特征选择进行增强：

采用二进制编码，1表示特征被选中，0表示未被选中
使用轮盘赌选择、单点交叉和基本位变异作为遗传算子
通过多种群并行进化，兼顾局部与全局搜索
设置迁移算子实现种群间信息交换，避免早熟收敛

这种改进使得特征选择更加精准，能够有效识别对违约预测最有价值的特征。

2. 粒子群算法自动调参

TabNet参数复杂、调参困难。本文采用粒子群优化算法实现超参数自动搜索，通过模拟粒子群体在参数空间中的协同搜索，高效找到最优参数组合，提升了模型的适应性和自动化水平。

3. TabNet-Stacking集成框架

模型整体采用双层Stacking集成结构：

第一层基学习器：XGBoost、LightGBM、CatBoost、KNN、SVM（五折交叉验证训练）
第二层元学习器：XGBoost（从基学习器输出中学习最终预测）

TabNet在此框架中承担特征提取与可解释性的核心角色——通过其Mask矩阵计算各特征在决策中的贡献度，输出特征重要性排序，为后续集成学习提供高质量输入。

实验设计与结果

数据集

实验采用阿里云天池“贷款违约预测”数据集，共80万条记录，包含47个变量（其中15个为匿名特征），正负样本比例约为1:4，训练集与测试集按4:1划分。

变量名称，描述和数据类型

数值型变量描述性统计表

类别变量描述性统计表

变量重要性

变量分布图

评价指标

采用准确率、精确率、召回率、F1分数、AUC作为评价标准。

多算法比较结果

|
模型
|
Accuracy
|
Precision
|
Recall
|
F1-Score
|
AUC
|
| — | — | — | — | — | — |
|
XGBoost
|
0.920
|
0.505
|
0.691
|
0.583
|
0.816
|
|
LightGBM
|
0.924
|
0.523
|
0.701
|
0.599
|
0.822
|
|
CatBoost
|
0.951
|
0.677
|
0.738
|
0.702
|
0.854
|
|
TabNet
|
0.958
|
0.718
|
0.793
|
0.754
|
0.883
|
| TabNet-Stacking | 0.979 | 0.782 | 0.856 | 0.817 | 0.941 |