特征工程 10 大核心知识点终极总结（面试 / 考试直接满分）

m0_71625500

397人浏览 · 2026-04-21 20:48:36

m0_71625500 · 2026-04-21 20:48:36 发布

终极记忆口诀（背完直接面试）

特征工程分十步，清洗预处理编码。选择共线性要注意，衍生降维可解释。分布缩放要匹配，监控上线不停止。少而精、可解释，模型稳定业务知！

一、什么是特征工程？（一句话定义）

特征工程 = 把原始业务数据，清洗、转换、筛选成「模型能高效学习、业务能解释」的优质特征的全过程。核心目标：用最少、最准的特征，让模型效果最好、最稳定、最可解释。

二、10 大核心知识点（按流程排序，全是考点）

1. 特征清洗（第一步，基础中的基础）

核心目标：把脏数据变干净

处理缺失值：删除、均值 / 中位数填充、模型预测填充（KNN / 随机森林）
处理异常值：3σ 原则、箱线图法、业务规则过滤
去重：删除重复数据，避免模型学习冗余信息
格式统一：统一时间格式、字符串大小写、单位等

2. 特征预处理（让模型 “吃得下” 数据）

核心目标：统一特征尺度，适配模型要求

表格

方法	适用场景	核心作用
标准化（StandardScaler）	正态分布数据、SVM / 逻辑回归	均值为 0，方差为 1，消除量纲影响
归一化（MinMaxScaler）	非正态分布、神经网络	缩放到 [0,1] 区间，保留分布结构
对数变换	右偏分布数据（如收入、消费）	把偏态数据拉成正态，稳定方差
分箱（离散化）	连续特征（如年龄、消费）	减少噪声，提升模型鲁棒性

3. 特征编码（把非数值特征变数值）

核心目标：让类别型特征能被模型计算

Label Encoding（标签编码）：给类别标数字（0,1,2...），适合有序类别（如学历：小学 / 中学 / 大学）
One-Hot Encoding（独热编码）：每个类别生成一个新列，适合无序类别（如性别、城市），避免模型误判顺序
Target Encoding（目标编码）：用目标变量的均值编码类别，适合高基数类别（如用户 ID），注意过拟合
Word2Vec/Embedding：文本 / 高维特征的向量化编码，适合深度学习

4. 特征选择（筛掉没用的特征，核心考点）

核心目标：只留和目标强相关的特征，提升模型效率

3 大类方法：

过滤法（Filter）：先算相关性，再选特征（独立于模型）
- 相关系数（皮尔逊 / 斯皮尔曼）、卡方检验、互信息
- 优点：快，不易过拟合；缺点：没考虑特征间组合
包裹法（Wrapper）：用模型效果选特征（如递归特征消除 RFE）
- 优点：考虑特征组合，效果好；缺点：慢，易过拟合
嵌入法（Embedded）：模型训练中自动选特征（如 L1 正则化、树模型特征重要性）
- 优点：兼顾效果和效率；缺点：依赖模型

5. 多重共线性（你题目中的核心考点）

什么是多重共线性？

多个输入特征之间高度相关，互相重复信息，相当于给模型喂了 “重复的话”比如：同时用「身高 (cm)」和「身高 (m)」、「月消费」和「年消费」，就是典型的多重共线性。

会造成什么问题？

模型权重不稳定，参数波动大
模型可解释性变差，分不清哪个特征真正起作用
训练变慢，容易过拟合
线性模型中会导致系数估计失效

怎么解决？

删除高度相关的特征（最简单有效）
用 VIF（方差膨胀因子）检测：VIF>5/10 就认为存在共线性，删除对应特征
正则化（Lasso/Ridge）：自动压缩共线性特征的权重
特征降维（PCA）：把多个相关特征合并成少数不相关的主成分

6. 特征衍生（从现有特征造新特征，业务核心）

核心目标：从业务角度创造更有价值的特征

统计类：日活 / 月活、消费频次、最近一次消费时间（RFM 模型）
比例类：消费转化率、复购率、活跃天数占比
时间类：用户注册时长、最近 7 天登录次数、节假日特征
组合类：年龄 × 收入、消费金额 × 频次

7. 特征降维（高维数据压缩，避免维度灾难）

核心目标：把高维特征压缩成低维，同时保留核心信息

PCA（主成分分析）：无监督，线性降维，适合数值型特征
LDA（线性判别分析）：有监督，降维同时最大化类别区分度
t-SNE：非线性降维，适合可视化，不适合训练
AutoEncoder（自编码器）：深度学习降维，适合复杂高维数据

8. 特征可解释性（业务落地的核心要求）

核心目标：特征要能说清 “为什么有效”，让业务认可模型

避免 “黑箱特征”：比如用用户 ID 做特征，完全无法解释
特征要符合业务逻辑：比如「连续登录天数越长，流失率越低」，符合常识
用 SHAP/LIME 值验证特征贡献：量化每个特征对预测结果的影响
这也是你题目中 B 选项的核心要求：验证特征的可解释性

9. 特征分布（缩放方法的前提，你题目中 D 选项的考点）

核心目标：根据特征分布选合适的预处理方法，不能直接用默认缩放

正态分布：用标准化（StandardScaler）
非正态 / 偏态分布：用归一化（MinMaxScaler）或对数变换
长尾分布：用分箱、对数变换，避免极端值影响模型
忽略分布直接用默认缩放，会导致模型性能大幅下降（对应题目 D 错误）

10. 特征监控（上线后持续优化）

核心目标：保证特征在生产环境中稳定有效

监控特征分布漂移：比如用户消费行为变化，特征分布和训练时不一致
监控特征缺失率、异常值占比：避免脏数据流入模型
定期迭代特征：根据业务变化更新特征库，淘汰失效特征

三、回到题目，对应知识点复盘

表格

选项	对错	对应知识点
A	❌	特征选择：最大化特征数量会导致过拟合，不是特征工程的目标
B	✅	特征选择（相关性）+ 多重共线性 + 特征可解释性，全是核心考点
C	❌	特征编码：只使用数值型会丢失类别特征的关键信息，编码是必要步骤
D	❌	特征预处理：必须根据特征分布选缩放方法，不能直接用默认

四、终极记忆口诀（背完直接面试）

特征工程分十步，清洗预处理编码。选择共线性要注意，衍生降维可解释。分布缩放要匹配，监控上线不停止。少而精、可解释，模型稳定业务知！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

WalkingLab 组织入驻 AtomGit，释放高校智能体开源科研成果

AtomGit开源社区

cover

拼手速！GLM-5.2免费Token每天10点准点开抢！

AtomGit开源社区

cover

圆满落幕｜智驱迭代・昇腾赋能 AI Agent 行业实践 Meetup 上海站，全栈落地干货一次吃透

AtomGit开源社区

所有评论(0)

查看更多评论

m0_71625500

已为社区贡献2条内容