贷款违约预测

weixin_44756352

409人浏览 · 2026-04-26 18:01:28

weixin_44756352 · 2026-04-26 18:01:28 发布

贷款违约预测（Credit Default Prediction）是金融风控里非常经典的任务，本质是一个二分类问题（违约 / 不违约），但真正拉开效果差距的，往往不是模型，而是特征工程。

可以参考工业界（银行、蚂蚁、Visa、FICO 评分卡）的做法，把特征分成几层：

文章目录

- 1. 用户基础属性特征（Static Features）
- - 特征工程做法
2. 信贷历史特征（最重要）
5. 交叉组合特征（Feature Crossing）
6. 图特征（现在前沿）
7. 标签穿越式高级特征（评分卡经典WOE）
- 分箱
- WOE编码（Weight of Evidence）
8. 风控里最常见的组合特征（实战高频）
9. 模型和特征适配
一个真实工业特征表可能长这样：
- 核心不是“造更多特征”，而是造这三类：

1. 用户基础属性特征（Static Features）

这是最基础的一层，类似“用户画像”。

个人信息

年龄（是否分箱，比如 18-25、25-35）
婚姻状态
教育水平
职业类型
工作年限

财务信息

月收入
负债收入比（DTI = Debt / Income）← 核心特征

DTI = \frac{Total\ Debt}{Income}

总资产
储蓄余额

特征工程做法

不是直接用原始值，而是做衍生：

收入稳定性：
[
\frac{\text{过去12个月收入标准差}}{\text{平均收入}}
]
负债增长率：
[
\frac{当前负债-历史负债}{历史负债}
]

2. 信贷历史特征（最重要）

这个往往贡献 50% 以上效果。

常见变量

（1）还款行为

历史逾期次数（30天、60天、90天）
最大逾期天数
最近一次逾期距今天数（Recency）

经典 RFM 思路：

Recency（最近逾期）
Frequency（逾期频率）
Monetary（违约金额）

（2）额度使用率（非常关键）

信用卡 utilization：

Utilization = \frac{Used\ Credit}{Total\ Credit\ Limit}

高于80%风险通常升高。

（3）账户结构特征

开户账户数量
平均账户年龄

[
\text{Average Age of Accounts}
]

最近新开账户数

这反映“信用饥渴”（credit hungry）。

3. 行为序列特征（互联网金融常见）

如果是网贷，会做大量行为特征。

借款行为

过去30天申请次数
多头借贷平台数
夜间申请占比（欺诈中常见）

消费行为

消费类别分布熵（消费是否异常集中）

[
H=-\sum p_i \log p_i
]

高频小额消费次数
赌博/高风险商户交易占比

4. 时间窗口聚合特征（工业界重点）

这是很多比赛冠军方案核心。

做多窗口：

用户逾期次数：

7天窗口
30天窗口
90天窗口
180天窗口

例如：

late_pay_cnt_7d
late_pay_cnt_30d
late_pay_cnt_90d

再做趋势：

[
Trend = \frac{30d违约率}{180d违约率}
]

相当于风险变化速度。

5. 交叉组合特征（Feature Crossing）

树模型特别喜欢。

比如：

年龄 × 收入等级
职业 × 负债率
高额度 × 高利用率

例如：

年轻 + 高负债率
可能风险比单独两个特征高很多。

6. 图特征（现在前沿）

特别适合反欺诈和团伙骗贷。

构图：

用户—手机号
用户—设备
用户—联系人
用户—银行卡

提特征：

图中心度（degree）
团伙密度
黑名单邻居比例

比如：

shared_device_black_ratio

效果往往暴涨。

7. 标签穿越式高级特征（评分卡经典WOE）

传统银行喜欢：

分箱

收入：

0-5k
5k-10k
10k+

WOE编码（Weight of Evidence）

WOE = \ln\left(\frac{Good_i/Total\ Good}{Bad_i/Total\ Bad}\right)

再算 IV（信息值）筛变量。

经验：

IV <0.02 弱
0.1~0.3 好
0.3 很强

8. 风控里最常见的组合特征（实战高频）

很多违约模型都会有：

收入负债比
信用卡使用率
最近逾期天数
历史违约次数
多头借贷数量
工资波动率
额度增长速度

通常这些比“学历、年龄”强很多。

9. 模型和特征适配

如果是：

XGBoost / LightGBM

重点：

交叉特征
时间窗口统计
缺失值模式（缺失本身是信号）

逻辑回归（评分卡）

重点：

分箱
WOE编码
单调性约束

深度学习（序列）

输入：

用户行为序列
Transformer / LSTM

做时序违约预测。

一个真实工业特征表可能长这样：

基础画像            50维
信贷历史           200维
行为统计           500维
窗口聚合         1000维
交叉组合          5000维
图特征            200维
-----------------------
总计            7000+特征

模型可能只是 LightGBM，但效果很强。

核心不是“造更多特征”，而是造这三类：

风险水平（Level）
例如负债率
风险变化（Trend）
例如近30天逾期上升
风险关系（Structure）
例如社交图关联风险

这才是金融特征工程的核心。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

计算机毕业设计：Python医疗知识图谱可视化与智能问答一体化平台 Django框架 Bert模型深度学习知识图谱大模型（建议收藏）✅

AtomGit开源社区

计算机毕业设计：Python基于知识图谱的医疗问答与数据挖掘分析系统 Django框架 Bert模型深度学习知识图谱大模型（建议收藏）✅

AtomGit开源社区

一个高颜值、轻量级的精品网址导航工具

AtomGit开源社区

所有评论(0)

查看更多评论

weixin_44756352

@weixin_44756352

已为社区贡献4条内容

贷款违约预测

weixin_44756352

文章目录

1. 用户基础属性特征（Static Features）

特征工程做法

2. 信贷历史特征（最重要）

常见变量

（1）还款行为

（2）额度使用率（非常关键）

（3）账户结构特征

3. 行为序列特征（互联网金融常见）

借款行为

消费行为

4. 时间窗口聚合特征（工业界重点）

5. 交叉组合特征（Feature Crossing）

6. 图特征（现在前沿）

7. 标签穿越式高级特征（评分卡经典WOE）

分箱

WOE编码（Weight of Evidence）

8. 风控里最常见的组合特征（实战高频）

9. 模型和特征适配

如果是：

XGBoost / LightGBM

逻辑回归（评分卡）

深度学习（序列）

一个真实工业特征表可能长这样：

核心不是“造更多特征”，而是造这三类：

所有评论(0)

温馨提示：您尚未绑定手机号

weixin_44756352