贷款违约预测(Credit Default Prediction)是金融风控里非常经典的任务,本质是一个二分类问题(违约 / 不违约),但真正拉开效果差距的,往往不是模型,而是特征工程。

可以参考工业界(银行、蚂蚁、Visa、FICO 评分卡)的做法,把特征分成几层:


1. 用户基础属性特征(Static Features)

这是最基础的一层,类似“用户画像”。

个人信息

  • 年龄(是否分箱,比如 18-25、25-35)
  • 婚姻状态
  • 教育水平
  • 职业类型
  • 工作年限

财务信息

  • 月收入
  • 负债收入比(DTI = Debt / Income)← 核心特征

DTI = \frac{Total\ Debt}{Income}

  • 总资产
  • 储蓄余额

特征工程做法

不是直接用原始值,而是做衍生:

  • 收入稳定性:
    [
    \frac{\text{过去12个月收入标准差}}{\text{平均收入}}
    ]

  • 负债增长率:
    [
    \frac{当前负债-历史负债}{历史负债}
    ]


2. 信贷历史特征(最重要)

这个往往贡献 50% 以上效果。

常见变量

(1)还款行为

  • 历史逾期次数(30天、60天、90天)
  • 最大逾期天数
  • 最近一次逾期距今天数(Recency)

经典 RFM 思路:

  • Recency(最近逾期)
  • Frequency(逾期频率)
  • Monetary(违约金额)

(2)额度使用率(非常关键)

信用卡 utilization:

Utilization = \frac{Used\ Credit}{Total\ Credit\ Limit}

高于80%风险通常升高。


(3)账户结构特征

  • 开户账户数量
  • 平均账户年龄

[
\text{Average Age of Accounts}
]

  • 最近新开账户数

这反映“信用饥渴”(credit hungry)。


3. 行为序列特征(互联网金融常见)

如果是网贷,会做大量行为特征。

借款行为

  • 过去30天申请次数
  • 多头借贷平台数
  • 夜间申请占比(欺诈中常见)

消费行为

  • 消费类别分布熵(消费是否异常集中)

[
H=-\sum p_i \log p_i
]

  • 高频小额消费次数
  • 赌博/高风险商户交易占比

4. 时间窗口聚合特征(工业界重点)

这是很多比赛冠军方案核心。

做多窗口:

用户逾期次数:

  • 7天窗口
  • 30天窗口
  • 90天窗口
  • 180天窗口

例如:

late_pay_cnt_7d
late_pay_cnt_30d
late_pay_cnt_90d

再做趋势:

[
Trend = \frac{30d违约率}{180d违约率}
]

相当于风险变化速度。


5. 交叉组合特征(Feature Crossing)

树模型特别喜欢。

比如:

年龄 × 收入等级
职业 × 负债率
高额度 × 高利用率

例如:

年轻 + 高负债率
可能风险比单独两个特征高很多。


6. 图特征(现在前沿)

特别适合反欺诈和团伙骗贷。

构图:

用户—手机号
用户—设备
用户—联系人
用户—银行卡

提特征:

  • 图中心度(degree)
  • 团伙密度
  • 黑名单邻居比例

比如:

shared_device_black_ratio

效果往往暴涨。


7. 标签穿越式高级特征(评分卡经典WOE)

传统银行喜欢:

分箱

收入:

0-5k
5k-10k
10k+

WOE编码(Weight of Evidence)

WOE = \ln\left(\frac{Good_i/Total\ Good}{Bad_i/Total\ Bad}\right)

再算 IV(信息值)筛变量。

经验:

  • IV <0.02 弱
  • 0.1~0.3 好
  • 0.3 很强


8. 风控里最常见的组合特征(实战高频)

很多违约模型都会有:

收入负债比
信用卡使用率
最近逾期天数
历史违约次数
多头借贷数量
工资波动率
额度增长速度

通常这些比“学历、年龄”强很多。


9. 模型和特征适配

如果是:

XGBoost / LightGBM

重点:

  • 交叉特征
  • 时间窗口统计
  • 缺失值模式(缺失本身是信号)

逻辑回归(评分卡)

重点:

  • 分箱
  • WOE编码
  • 单调性约束

深度学习(序列)

输入:

  • 用户行为序列
  • Transformer / LSTM

做时序违约预测。


一个真实工业特征表可能长这样:

基础画像            50维
信贷历史           200维
行为统计           500维
窗口聚合         1000维
交叉组合          5000维
图特征            200维
-----------------------
总计            7000+特征

模型可能只是 LightGBM,但效果很强。


核心不是“造更多特征”,而是造这三类:

  1. 风险水平(Level)
    例如负债率

  2. 风险变化(Trend)
    例如近30天逾期上升

  3. 风险关系(Structure)
    例如社交图关联风险

这才是金融特征工程的核心。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐