终极记忆口诀(背完直接面试)

特征工程分十步,清洗预处理编码。选择共线性要注意,衍生降维可解释。分布缩放要匹配,监控上线不停止。少而精、可解释,模型稳定业务知!

一、什么是特征工程?(一句话定义)

特征工程 = 把原始业务数据,清洗、转换、筛选成「模型能高效学习、业务能解释」的优质特征的全过程。核心目标:用最少、最准的特征,让模型效果最好、最稳定、最可解释


二、10 大核心知识点(按流程排序,全是考点)

1. 特征清洗(第一步,基础中的基础)

核心目标:把脏数据变干净

  • 处理缺失值:删除、均值 / 中位数填充、模型预测填充(KNN / 随机森林)
  • 处理异常值:3σ 原则、箱线图法、业务规则过滤
  • 去重:删除重复数据,避免模型学习冗余信息
  • 格式统一:统一时间格式、字符串大小写、单位等

2. 特征预处理(让模型 “吃得下” 数据)

核心目标:统一特征尺度,适配模型要求

表格

方法 适用场景 核心作用
标准化(StandardScaler) 正态分布数据、SVM / 逻辑回归 均值为 0,方差为 1,消除量纲影响
归一化(MinMaxScaler) 非正态分布、神经网络 缩放到 [0,1] 区间,保留分布结构
对数变换 右偏分布数据(如收入、消费) 把偏态数据拉成正态,稳定方差
分箱(离散化) 连续特征(如年龄、消费) 减少噪声,提升模型鲁棒性

3. 特征编码(把非数值特征变数值)

核心目标:让类别型特征能被模型计算

  • Label Encoding(标签编码):给类别标数字(0,1,2...),适合有序类别(如学历:小学 / 中学 / 大学)
  • One-Hot Encoding(独热编码):每个类别生成一个新列,适合无序类别(如性别、城市),避免模型误判顺序
  • Target Encoding(目标编码):用目标变量的均值编码类别,适合高基数类别(如用户 ID),注意过拟合
  • Word2Vec/Embedding:文本 / 高维特征的向量化编码,适合深度学习

4. 特征选择(筛掉没用的特征,核心考点)

核心目标:只留和目标强相关的特征,提升模型效率

3 大类方法:
  1. 过滤法(Filter):先算相关性,再选特征(独立于模型)
    • 相关系数(皮尔逊 / 斯皮尔曼)、卡方检验、互信息
    • 优点:快,不易过拟合;缺点:没考虑特征间组合
  2. 包裹法(Wrapper):用模型效果选特征(如递归特征消除 RFE)
    • 优点:考虑特征组合,效果好;缺点:慢,易过拟合
  3. 嵌入法(Embedded):模型训练中自动选特征(如 L1 正则化、树模型特征重要性)
    • 优点:兼顾效果和效率;缺点:依赖模型

5. 多重共线性(你题目中的核心考点)

什么是多重共线性?

多个输入特征之间高度相关,互相重复信息,相当于给模型喂了 “重复的话”比如:同时用「身高 (cm)」和「身高 (m)」、「月消费」和「年消费」,就是典型的多重共线性。

会造成什么问题?
  • 模型权重不稳定,参数波动大
  • 模型可解释性变差,分不清哪个特征真正起作用
  • 训练变慢,容易过拟合
  • 线性模型中会导致系数估计失效
怎么解决?
  1. 删除高度相关的特征(最简单有效)
  2. 用 VIF(方差膨胀因子)检测:VIF>5/10 就认为存在共线性,删除对应特征
  3. 正则化(Lasso/Ridge):自动压缩共线性特征的权重
  4. 特征降维(PCA):把多个相关特征合并成少数不相关的主成分

6. 特征衍生(从现有特征造新特征,业务核心)

核心目标:从业务角度创造更有价值的特征

  • 统计类:日活 / 月活、消费频次、最近一次消费时间(RFM 模型)
  • 比例类:消费转化率、复购率、活跃天数占比
  • 时间类:用户注册时长、最近 7 天登录次数、节假日特征
  • 组合类:年龄 × 收入、消费金额 × 频次

7. 特征降维(高维数据压缩,避免维度灾难)

核心目标:把高维特征压缩成低维,同时保留核心信息

  • PCA(主成分分析):无监督,线性降维,适合数值型特征
  • LDA(线性判别分析):有监督,降维同时最大化类别区分度
  • t-SNE:非线性降维,适合可视化,不适合训练
  • AutoEncoder(自编码器):深度学习降维,适合复杂高维数据

8. 特征可解释性(业务落地的核心要求)

核心目标:特征要能说清 “为什么有效”,让业务认可模型

  • 避免 “黑箱特征”:比如用用户 ID 做特征,完全无法解释
  • 特征要符合业务逻辑:比如「连续登录天数越长,流失率越低」,符合常识
  • 用 SHAP/LIME 值验证特征贡献:量化每个特征对预测结果的影响
  • 这也是你题目中 B 选项的核心要求:验证特征的可解释性

9. 特征分布(缩放方法的前提,你题目中 D 选项的考点)

核心目标:根据特征分布选合适的预处理方法,不能直接用默认缩放

  • 正态分布:用标准化(StandardScaler)
  • 非正态 / 偏态分布:用归一化(MinMaxScaler)或对数变换
  • 长尾分布:用分箱、对数变换,避免极端值影响模型
  • 忽略分布直接用默认缩放,会导致模型性能大幅下降(对应题目 D 错误)

10. 特征监控(上线后持续优化)

核心目标:保证特征在生产环境中稳定有效

  • 监控特征分布漂移:比如用户消费行为变化,特征分布和训练时不一致
  • 监控特征缺失率、异常值占比:避免脏数据流入模型
  • 定期迭代特征:根据业务变化更新特征库,淘汰失效特征

三、回到题目,对应知识点复盘

表格

选项 对错 对应知识点
A 特征选择:最大化特征数量会导致过拟合,不是特征工程的目标
B 特征选择(相关性)+ 多重共线性 + 特征可解释性,全是核心考点
C 特征编码:只使用数值型会丢失类别特征的关键信息,编码是必要步骤
D 特征预处理:必须根据特征分布选缩放方法,不能直接用默认

四、终极记忆口诀(背完直接面试)

特征工程分十步,清洗预处理编码。选择共线性要注意,衍生降维可解释。分布缩放要匹配,监控上线不停止。少而精、可解释,模型稳定业务知!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐