贷款违约预测
贷款违约预测(Credit Default Prediction)是金融风控里非常经典的任务,本质是一个二分类问题(违约 / 不违约),但真正拉开效果差距的,往往不是模型,而是特征工程。
可以参考工业界(银行、蚂蚁、Visa、FICO 评分卡)的做法,把特征分成几层:
文章目录
1. 用户基础属性特征(Static Features)
这是最基础的一层,类似“用户画像”。
个人信息
- 年龄(是否分箱,比如 18-25、25-35)
- 婚姻状态
- 教育水平
- 职业类型
- 工作年限
财务信息
- 月收入
- 负债收入比(DTI = Debt / Income)← 核心特征
DTI = \frac{Total\ Debt}{Income}
- 总资产
- 储蓄余额
特征工程做法
不是直接用原始值,而是做衍生:
-
收入稳定性:
[
\frac{\text{过去12个月收入标准差}}{\text{平均收入}}
] -
负债增长率:
[
\frac{当前负债-历史负债}{历史负债}
]
2. 信贷历史特征(最重要)
这个往往贡献 50% 以上效果。
常见变量
(1)还款行为
- 历史逾期次数(30天、60天、90天)
- 最大逾期天数
- 最近一次逾期距今天数(Recency)
经典 RFM 思路:
- Recency(最近逾期)
- Frequency(逾期频率)
- Monetary(违约金额)
(2)额度使用率(非常关键)
信用卡 utilization:
Utilization = \frac{Used\ Credit}{Total\ Credit\ Limit}
高于80%风险通常升高。
(3)账户结构特征
- 开户账户数量
- 平均账户年龄
[
\text{Average Age of Accounts}
]
- 最近新开账户数
这反映“信用饥渴”(credit hungry)。
3. 行为序列特征(互联网金融常见)
如果是网贷,会做大量行为特征。
借款行为
- 过去30天申请次数
- 多头借贷平台数
- 夜间申请占比(欺诈中常见)
消费行为
- 消费类别分布熵(消费是否异常集中)
[
H=-\sum p_i \log p_i
]
- 高频小额消费次数
- 赌博/高风险商户交易占比
4. 时间窗口聚合特征(工业界重点)
这是很多比赛冠军方案核心。
做多窗口:
用户逾期次数:
- 7天窗口
- 30天窗口
- 90天窗口
- 180天窗口
例如:
late_pay_cnt_7d
late_pay_cnt_30d
late_pay_cnt_90d
再做趋势:
[
Trend = \frac{30d违约率}{180d违约率}
]
相当于风险变化速度。
5. 交叉组合特征(Feature Crossing)
树模型特别喜欢。
比如:
年龄 × 收入等级
职业 × 负债率
高额度 × 高利用率
例如:
年轻 + 高负债率
可能风险比单独两个特征高很多。
6. 图特征(现在前沿)
特别适合反欺诈和团伙骗贷。
构图:
用户—手机号
用户—设备
用户—联系人
用户—银行卡
提特征:
- 图中心度(degree)
- 团伙密度
- 黑名单邻居比例
比如:
shared_device_black_ratio
效果往往暴涨。
7. 标签穿越式高级特征(评分卡经典WOE)
传统银行喜欢:
分箱
收入:
0-5k
5k-10k
10k+
WOE编码(Weight of Evidence)
WOE = \ln\left(\frac{Good_i/Total\ Good}{Bad_i/Total\ Bad}\right)
再算 IV(信息值)筛变量。
经验:
- IV <0.02 弱
- 0.1~0.3 好
-
0.3 很强
8. 风控里最常见的组合特征(实战高频)
很多违约模型都会有:
收入负债比
信用卡使用率
最近逾期天数
历史违约次数
多头借贷数量
工资波动率
额度增长速度
通常这些比“学历、年龄”强很多。
9. 模型和特征适配
如果是:
XGBoost / LightGBM
重点:
- 交叉特征
- 时间窗口统计
- 缺失值模式(缺失本身是信号)
逻辑回归(评分卡)
重点:
- 分箱
- WOE编码
- 单调性约束
深度学习(序列)
输入:
- 用户行为序列
- Transformer / LSTM
做时序违约预测。
一个真实工业特征表可能长这样:
基础画像 50维
信贷历史 200维
行为统计 500维
窗口聚合 1000维
交叉组合 5000维
图特征 200维
-----------------------
总计 7000+特征
模型可能只是 LightGBM,但效果很强。
核心不是“造更多特征”,而是造这三类:
-
风险水平(Level)
例如负债率 -
风险变化(Trend)
例如近30天逾期上升 -
风险关系(Structure)
例如社交图关联风险
这才是金融特征工程的核心。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)