备忘录,人工智能通识,解决银行是否放贷
与其死记硬背不如用代码将规则做成判断流程或者工作流程。
线性回归、逻辑回归、梯度下降、过拟合与欠拟合,数据预处理,模型评估,损失函数,决策树,随机森林,集成学习,XGBoost,GBDT,K-Means,PCA降维....统计学中,两事物为什么无关,但数据却强相关?统计学产生的人工智能。
我一次性把你列出所有机器学习知识点全部讲透,用通俗大白话 + 公式 + 代码思路 +完整银行放贷业务场景串联起来。
一、所有核心概念通俗总结
1. 线性回归
- 任务:回归问题,预测连续数值
- 原理:拟合一条直线 y=wx+b,用特征预测具体数值
- 银行场景:预测用户未来还款金额、逾期概率分值、负债大小
- 输出:连续值(0~ 无穷)
- 属于:监督学习
2. 逻辑回归(最重要!银行风控主力)
- 任务:二分类
- 原理:在线性回归基础上加Sigmoid 激活函数,把实数压缩到 (0,1)σ(z)=1+e−z1
- 含义:输出概率
- 银行放贷完美对应:
- 输出越接近 1:违约风险高,不放贷
- 输出越接近 0:信用好,可以放贷
- 优点:简单、可解释、速度快、自带概率、金融风控首选基线模型
- 属于:监督学习、分类
3. 损失函数
模型预测值和真实值的差距,用来衡量模型好坏,模型训练就是最小化损失。
- 线性回归损失:均方误差 MSELoss=∑(y−y^)2
- 逻辑回归损失:对数似然损失(交叉熵)Loss=−∑[ylny^+(1−y)ln(1−y^)]分类任务不能用 MSE,会非凸、局部最优多。
4. 梯度下降
机器学习通用优化算法,所有模型几乎都用它训练。
- 原理:沿着损失函数梯度下降方向更新参数 w,b
- 步骤:
- 求损失对参数的梯度
- 参数更新:w=w−η⋅∇Loss
- η 学习率,控制步长
- 问题:学习率太大不收敛,太小训练极慢
5. 过拟合 & 欠拟合
欠拟合
- 模型太简单,训练集、测试集效果都差
- 原因:特征太少、模型太简单(只用线性)
- 解决:增加特征、复杂模型、减小正则化
过拟合
- 模型太复杂,训练集极好,测试集很差,死记硬背训练数据
- 银行危害:对新客户完全不准,乱放贷
- 解决方法:
- 增加数据
- 正则化(L1、L2)
- 剪枝(决策树)
- 集成学习、Dropout
- 特征筛选
6. 数据预处理(银行风控必备流程)
原始用户数据很脏,必须预处理:
- 缺失值处理:填充均值 / 中位数 / 众数、删除
- 异常值处理:房贷收入极端异常值剔除
- 数据标准化 / 归一化:收入、负债、年龄量纲统一
- 类别特征编码:学历、工作、婚姻→独热编码 / 标签编码
- 数据划分:训练集、验证集、测试集
- 特征筛选:去掉无关冗余特征
7. 模型评估(分类任务,银行放贷专用指标)
放贷是风控分类,重点不是准确率,重点是不漏坏人、不误拒好人。
- 准确率 Accuracy:整体预测对的比例
- 精确率 Precision:预测违约的人里真违约的比例
- 召回率 Recall:所有真实违约用户被找出来的比例👉银行最看重召回率:违约客户没识别出来 = 银行亏钱坏账
- F1 分数:精确率 & 召回率调和平均
- AUC-ROC:综合区分好坏客户能力,金融通用指标,越接近 1 越好
- 混淆矩阵:真阳性、假阳性、真阴性、假阴性
8. 决策树
- 监督分类模型,if-then 规则树形结构
- 依据信息熵、基尼系数划分节点
- 优点:可解释极强,银行能知道:为什么不放贷(收入低 / 负债高 / 征信差)
- 缺点:极易过拟合,单棵树不稳定
9. 集成学习
把多个弱模型组合成强模型,风控效果大幅提升,分为两类:
- Bagging:并行训练,减少过拟合 → 随机森林
- Boosting:串行训练,不断修正错误 → GBDT、XGBoost
10. 随机森林(Random Forest)
- 多棵决策树并行投票
- 自助采样 + 特征随机选取
- 优点:抗过拟合、稳定、容错高、能特征重要性排序
- 银行用途:筛选用户关键风险特征
11. GBDT 梯度提升树
Boosting 代表,每一棵新树拟合上一轮模型的残差 / 梯度串行训练,不断修正误差,效果远超单决策树。
12. XGBoost
GBDT 的工程优化升级版
- 二阶泰勒展开、自带正则、缺失值自动处理、并行优化
- 竞赛 & 工业风控王者模型,银行主流风控算法
- 自带特征重要性,可解释 + 高精度兼顾
13. K-Means 聚类(无监督学习)
- 无标签,自动把数据分簇
- 原理:距离最近聚为一类,迭代更新质心
- 银行场景:用户分群优质客户、普通客户、高风险客户、劣质客户分层
14. PCA 主成分分析(降维)
无监督预处理方法
- 把高维冗余特征压缩成低维主成分
- 去除特征相关性、降噪、减少计算量
- 银行:用户几十维征信、流水、负债特征压缩,避免维度灾难
二、完整业务场景:银行是否放贷 全流程实战
业务定义
输入:用户特征
年龄、收入、负债、征信逾期次数、工作稳定性、婚姻、贷款金额、历史还款记录…输出:二分类放贷 / 不放贷(好人客户 / 违约坏客户)
1. 整体流水线
原始数据 → 数据预处理 → PCA 降维 → 建模训练 → 梯度下降优化 → 防过拟合 → 模型评估 → 放贷决策
2. 各算法在银行放贷中的分工
-
数据预处理清洗用户征信、流水、收入异常数据,标准化、编码、划分数据集。
-
PCA 降维用户特征太多(征信几十项),降维去冗余,提升训练速度。
-
K-Means 客户分群先无监督聚类:
- A 类:低风险优质客户 → 优先放贷
- B 类:中等风险 → 审核放贷
- C 类:高风险客户 → 直接拒贷
-
基线模型:逻辑回归银行风控入门基准模型,输出违约概率,简单可解释,监管要求可溯源。
-
进阶模型:决策树、随机森林看特征规则:收入低于阈值→拒贷,负债过高→拒贷。
-
顶尖风控模型:GBDT、XGBoost银行真实生产环境主力模型,精度最高,坏账预测最准。
-
通用训练:梯度下降逻辑回归、GBDT、XGBoost 内部全部用梯度下降优化损失。
-
过拟合处理银行数据容易过拟合,用:正则化、随机森林集成、XGBoost 自带剪枝、增加真实风控样本。
-
模型评估优先看 召回率、AUC,严格把控违约客户漏判,降低银行坏账。
3. 放贷决策逻辑总结
- 模型输出违约概率
- 设定阈值:
- 概率<阈值 → 放贷
- 概率>阈值 → 拒绝放贷
- 结合 K-Means 用户分层 + XGBoost 高精度评分,最终风控审批
三、知识点对比速记版(面试背诵专用)
- 监督学习:线性回归、逻辑回归、决策树、随机森林、GBDT、XGBoost
- 无监督学习:K-Means 聚类、PCA 降维
- 回归:线性回归(连续值)
- 分类:逻辑回归、决策树、随机森林、XGBoost
- 优化器:梯度下降(所有模型通用)
- 损失函数:MSE (回归)、交叉熵 (分类)
- 集成学习
- Bagging:随机森林
- Boosting:GBDT → XGBoost(加强版)
- 欠拟合:模型太简单;过拟合:模型太复杂
- 银行风控首选:逻辑回归(可解释)、XGBoost(高精度)
四、极简思维导图式总结
plaintext
机器学习基础
├─ 损失函数:MSE(回归)、交叉熵(分类)
├─ 优化算法:梯度下降
└─ 拟合问题:欠拟合、过拟合 + 解决方案
数据处理
├─ 预处理:缺失/异常值、标准化、编码、数据集划分
└─ 降维:PCA
监督学习
├─ 回归:线性回归
├─ 分类
│ ├─ 逻辑回归(二分类,风控基线)
│ ├─ 单模型:决策树
│ └─ 集成学习
│ ├─ Bagging:随机森林
│ └─ Boosting:GBDT → XGBoost
无监督学习
├─ 聚类:K-Means
└─ 降维:PCA
银行放贷完整流程
原始数据→预处理→PCA降维→KMeans用户分层→多模型训练(逻辑回归/XGBoost)
→梯度下降优化→防过拟合→AUC/召回评估→违约概率判定→放贷/拒贷
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)