备忘录，人工智能通识，解决银行是否放贷

m0_60781580

314人浏览 · 2026-04-21 10:10:55

m0_60781580 · 2026-04-21 10:10:55 发布

与其死记硬背不如用代码将规则做成判断流程或者工作流程。

线性回归、逻辑回归、梯度下降、过拟合与欠拟合，数据预处理，模型评估，损失函数，决策树，随机森林，集成学习，XGBoost，GBDT，K-Means，PCA降维....统计学中，两事物为什么无关，但数据却强相关？统计学产生的人工智能。

我一次性把你列出所有机器学习知识点全部讲透，用通俗大白话 + 公式 + 代码思路 +完整银行放贷业务场景串联起来。

一、所有核心概念通俗总结

1. 线性回归

任务：回归问题，预测连续数值
原理：拟合一条直线 y=wx+b，用特征预测具体数值
银行场景：预测用户未来还款金额、逾期概率分值、负债大小
输出：连续值（0~ 无穷）
属于：监督学习

2. 逻辑回归（最重要！银行风控主力）

任务：二分类
原理：在线性回归基础上加Sigmoid 激活函数，把实数压缩到 (0,1)σ(z)=1+e−z1
含义：输出概率
银行放贷完美对应：
- 输出越接近 1：违约风险高，不放贷
- 输出越接近 0：信用好，可以放贷
优点：简单、可解释、速度快、自带概率、金融风控首选基线模型
属于：监督学习、分类

3. 损失函数

模型预测值和真实值的差距，用来衡量模型好坏，模型训练就是最小化损失。

线性回归损失：均方误差 MSELoss=∑(y−y^)2
逻辑回归损失：对数似然损失（交叉熵）Loss=−∑[ylny^+(1−y)ln(1−y^)]分类任务不能用 MSE，会非凸、局部最优多。

4. 梯度下降

机器学习通用优化算法，所有模型几乎都用它训练。

原理：沿着损失函数梯度下降方向更新参数 w,b
步骤：
1. 求损失对参数的梯度
2. 参数更新：w=w−η⋅∇Loss
3. η 学习率，控制步长
问题：学习率太大不收敛，太小训练极慢

5. 过拟合 & 欠拟合

欠拟合

模型太简单，训练集、测试集效果都差
原因：特征太少、模型太简单（只用线性）
解决：增加特征、复杂模型、减小正则化

过拟合

模型太复杂，训练集极好，测试集很差，死记硬背训练数据
银行危害：对新客户完全不准，乱放贷
解决方法：
1. 增加数据
2. 正则化（L1、L2）
3. 剪枝（决策树）
4. 集成学习、Dropout
5. 特征筛选

6. 数据预处理（银行风控必备流程）

原始用户数据很脏，必须预处理：

缺失值处理：填充均值 / 中位数 / 众数、删除
异常值处理：房贷收入极端异常值剔除
数据标准化 / 归一化：收入、负债、年龄量纲统一
类别特征编码：学历、工作、婚姻→独热编码 / 标签编码
数据划分：训练集、验证集、测试集
特征筛选：去掉无关冗余特征

7. 模型评估（分类任务，银行放贷专用指标）

放贷是风控分类，重点不是准确率，重点是不漏坏人、不误拒好人。

准确率 Accuracy：整体预测对的比例
精确率 Precision：预测违约的人里真违约的比例
召回率 Recall：所有真实违约用户被找出来的比例👉银行最看重召回率：违约客户没识别出来 = 银行亏钱坏账
F1 分数：精确率 & 召回率调和平均
AUC-ROC：综合区分好坏客户能力，金融通用指标，越接近 1 越好
混淆矩阵：真阳性、假阳性、真阴性、假阴性

8. 决策树

监督分类模型，if-then 规则树形结构
依据信息熵、基尼系数划分节点
优点：可解释极强，银行能知道：为什么不放贷（收入低 / 负债高 / 征信差）
缺点：极易过拟合，单棵树不稳定

9. 集成学习

把多个弱模型组合成强模型，风控效果大幅提升，分为两类：

Bagging：并行训练，减少过拟合 → 随机森林
Boosting：串行训练，不断修正错误 → GBDT、XGBoost

10. 随机森林（Random Forest）

多棵决策树并行投票
自助采样 + 特征随机选取
优点：抗过拟合、稳定、容错高、能特征重要性排序
银行用途：筛选用户关键风险特征

11. GBDT 梯度提升树

Boosting 代表，每一棵新树拟合上一轮模型的残差 / 梯度串行训练，不断修正误差，效果远超单决策树。

12. XGBoost

GBDT 的工程优化升级版

二阶泰勒展开、自带正则、缺失值自动处理、并行优化
竞赛 & 工业风控王者模型，银行主流风控算法
自带特征重要性，可解释 + 高精度兼顾

13. K-Means 聚类（无监督学习）

无标签，自动把数据分簇
原理：距离最近聚为一类，迭代更新质心
银行场景：用户分群优质客户、普通客户、高风险客户、劣质客户分层

14. PCA 主成分分析（降维）

无监督预处理方法

把高维冗余特征压缩成低维主成分
去除特征相关性、降噪、减少计算量
银行：用户几十维征信、流水、负债特征压缩，避免维度灾难

二、完整业务场景：银行是否放贷全流程实战

业务定义

输入：用户特征

年龄、收入、负债、征信逾期次数、工作稳定性、婚姻、贷款金额、历史还款记录…输出：二分类放贷 / 不放贷（好人客户 / 违约坏客户）

1. 整体流水线

原始数据 → 数据预处理 → PCA 降维 → 建模训练 → 梯度下降优化 → 防过拟合 → 模型评估 → 放贷决策

2. 各算法在银行放贷中的分工

数据预处理清洗用户征信、流水、收入异常数据，标准化、编码、划分数据集。
PCA 降维用户特征太多（征信几十项），降维去冗余，提升训练速度。
K-Means 客户分群先无监督聚类：

A 类：低风险优质客户 → 优先放贷
B 类：中等风险 → 审核放贷
C 类：高风险客户 → 直接拒贷

基线模型：逻辑回归银行风控入门基准模型，输出违约概率，简单可解释，监管要求可溯源。
进阶模型：决策树、随机森林看特征规则：收入低于阈值→拒贷，负债过高→拒贷。
顶尖风控模型：GBDT、XGBoost银行真实生产环境主力模型，精度最高，坏账预测最准。
通用训练：梯度下降逻辑回归、GBDT、XGBoost 内部全部用梯度下降优化损失。
过拟合处理银行数据容易过拟合，用：正则化、随机森林集成、XGBoost 自带剪枝、增加真实风控样本。
模型评估优先看 召回率、AUC，严格把控违约客户漏判，降低银行坏账。

3. 放贷决策逻辑总结

模型输出违约概率
设定阈值：
- 概率＜阈值 → 放贷
- 概率＞阈值 → 拒绝放贷
结合 K-Means 用户分层 + XGBoost 高精度评分，最终风控审批

三、知识点对比速记版（面试背诵专用）

监督学习：线性回归、逻辑回归、决策树、随机森林、GBDT、XGBoost
无监督学习：K-Means 聚类、PCA 降维
回归：线性回归（连续值）
分类：逻辑回归、决策树、随机森林、XGBoost
优化器：梯度下降（所有模型通用）
损失函数：MSE (回归)、交叉熵 (分类)
集成学习
- Bagging：随机森林
- Boosting：GBDT → XGBoost（加强版）
欠拟合：模型太简单；过拟合：模型太复杂
银行风控首选：逻辑回归（可解释）、XGBoost（高精度）

四、极简思维导图式总结

plaintext

机器学习基础
├─ 损失函数：MSE(回归)、交叉熵(分类)
├─ 优化算法：梯度下降
└─ 拟合问题：欠拟合、过拟合 + 解决方案

数据处理
├─ 预处理：缺失/异常值、标准化、编码、数据集划分
└─ 降维：PCA

监督学习
├─ 回归：线性回归
├─ 分类
│  ├─ 逻辑回归（二分类，风控基线）
│  ├─ 单模型：决策树
│  └─ 集成学习
│     ├─ Bagging：随机森林
│     └─ Boosting：GBDT → XGBoost

无监督学习
├─ 聚类：K-Means
└─ 降维：PCA

银行放贷完整流程
原始数据→预处理→PCA降维→KMeans用户分层→多模型训练(逻辑回归/XGBoost)
→梯度下降优化→防过拟合→AUC/召回评估→违约概率判定→放贷/拒贷