2026大模型时代·初级AI工程师面试通关秘籍【从逻辑回归到DPO/Agent全栈解析】【第二部分】

文章目录
- 《初级AI工程师面试通关宝典》全文导读:
-
- 前言
- 模块三:机器学习基础(15-20分钟,核心考察理论+应用)
- 模块四:深度学习与大模型热点(20-25分钟,2026年重点,大厂高频)
-
- 1. 基础题(必答,衔接热点的基础)
- 2. 大厂高频题(2026年重点考察,贴合大模型应用)
-
- 问题1:(字节/百度)请详细解释旋转位置编码(ROPE)的核心原理,对比绝对位置编码,它的优势和劣势分别是什么?
- 问题2:(阿里/腾讯)MHA(多头注意力)、MQA(多查询注意力)、GQA(分组查询注意力)的核心区别是什么?请结合应用场景说明各自的适用场景。
- 问题3:(字节)LoRA和QLoRA的核心原理是什么?两者的区别是什么?在大模型微调中,如何选择合适的微调方式?
- 问题4:(百度)RAG(检索增强生成)的核心流程是什么?文档切片应该按固定长度切,还是按语义切?chunk太大和太小分别会带来什么问题?
- 问题5:(腾讯)大模型推理阶段有哪些常用的解码策略?请分别解释Greedy Search、Beam Search、Top-K Sampling和Nucleus Sampling(Top-P)的原理、优点及局限性。
- 3. 热点关联题(2026年最新趋势,大厂重点关注)
- 结语
《初级AI工程师面试通关宝典》全文导读:
【从数学底层原理到RAG/LoRA实战】【第一部分】
【从逻辑回归到DPO/Agent全栈解析】【第二部分】
【项目与素养篇】【第三部分】
前言
2026年,人工智能行业已全面进入“大模型时代”。然而,大模型并没有让传统机器学习成为历史,反而与之形成了互补共生的新生态。对于初级AI工程师而言,面试考核呈现“金字塔结构”:底层数学与机器学习基础决定下限,深度学习与大模型应用能力决定上限。
本宝典承接上一份《面试系统大纲》,重点攻克模块三:机器学习基础和模块四:深度学习与大模型热点。内容覆盖经典算法原理、工业落地经验、大模型前沿技术,并提供大量可运行代码示例。全文约3万字,分为两大模块,每个问题均包含:
- 核心原理:清晰易懂的解释,避免晦涩公式堆砌
- 代码示例:可运行、带注释、无矢量图标
- 面试话术:如何向面试官展示深度思考
- 大厂真题:结合真实面试场景的追问点
无论你是准备春招/秋招的应届生,还是希望转行AI的工程师,本文档都将成为你案头必备的“面试红宝书”。
模块三:机器学习基础(15-20分钟,核心考察理论+应用)
本模块是面试的“压舱石”。即使你主攻大模型,面试官依然会通过传统机器学习问题考察你的算法基本功和工程思维。
1. 基础题(必答,考察核心概念)
问题1:请区分监督学习、无监督学习、强化学习的核心差异,各自的常见算法和应用场景是什么?
考察重点: 机器学习三大范式,基础认知。
解答:
| 范式 | 核心特征 | 数据标签 | 目标 | 常见算法 | 应用场景 |
|---|---|---|---|---|---|
| 监督学习 | 有输入-输出配对 | 有标签 | 学习从输入到输出的映射 | 线性回归、逻辑回归、决策树、随机森林、SVM、XGBoost、神经网络 | 分类(垃圾邮件识别)、回归(房价预测) |
| 无监督学习 | 只有输入,无输出 | 无标签 | 发现数据内在结构或规律 | K-Means、DBSCAN、PCA、t-SNE、自编码器、关联规则(Apriori) | 客户分群、异常检测、降维可视化、推荐系统(协同过滤) |
| 强化学习 | 智能体与环境交互,获得奖励信号 | 无标签,有奖励 | 学习策略以最大化累计奖励 | Q-Learning、DQN、PPO、A3C、SAC | 游戏AI(AlphaGo)、机器人控制、自动驾驶、推荐系统(长期收益) |
核心差异的一句话总结:
- 监督学习:老师(标签)手把手教。
- 无监督学习:自己探索,发现规律。
- 强化学习:通过试错和奖惩学习。
面试话术: “三者的本质区别在于监督信号的来源。监督学习依赖人工标注的标签;无监督学习没有标签,靠数据本身的统计特性;强化学习的监督信号是延迟的奖励,需要智能体自己去探索和平衡探索-利用。”
问题2:逻辑回归、决策树、随机森林、XGBoost的核心原理,各自的优缺点是什么?
考察重点: 经典算法,初级岗位高频应用。
解答:
1. 逻辑回归(Logistic Regression)
核心原理: 在线性回归的基础上,通过Sigmoid函数将输出映射到(0,1)区间,表示属于正类的概率。使用最大似然估计(或交叉熵损失)训练。
优点:
- 模型简单,可解释性强(系数直接反映特征影响方向)
- 训练速度快,适合在线学习
- 输出概率,便于风险排序
- 不易过拟合(当正则化得当)
缺点: - 只能处理线性可分问题,对非线性特征需要手工构造交叉项
- 对异常值敏感
- 特征空间较大时容易欠拟合
2. 决策树(Decision Tree)
核心原理: 递归地将特征空间划分为矩形区域,每个区域对应一个叶子节点。划分标准常用信息增益(ID3)、信息增益比(C4.5)或基尼系数(CART)。
优点:
- 天然可解释,可可视化
- 无需特征缩放,能处理数值和类别特征
- 自动特征选择
缺点: - 容易过拟合(需剪枝)
- 对数据微小变化敏感(方差大)
- 倾向于选择取值多的特征
3. 随机森林(Random Forest)
核心原理: Bagging + 决策树。构建多棵决策树,每棵树在Bootstrap采样的数据集上训练,且每个节点分裂时随机选择部分特征子集。最终结果通过投票(分类)或平均(回归)得到。
优点:
- 显著降低过拟合,泛化能力强
- 可并行训练
- 能评估特征重要性
- 对缺失值有一定容忍度
缺点: - 模型大,推理速度较慢
- 可解释性不如单棵决策树
- 在高维稀疏数据(如文本)上效果一般
4. XGBoost
核心原理: 梯度提升树(GBDT)的高效实现。每棵树拟合前一棵树的残差(负梯度),并引入二阶导数(牛顿法思想)和正则化项(叶子节点数+叶子权重的L2)。
优点:
- 通常比随机森林精度更高
- 支持自定义损失函数
- 内置处理缺失值的策略
- 提供早停、交叉验证等功能
- 高效:列采样、并行化、缓存感知
缺点: - 参数较多,调参复杂
- 对类别特征需要手动编码(相比CatBoost)
- 训练时间随树数量线性增长
代码示例(XGBoost基本使用):
import xgboost as xgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 加载数据
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建XGBoost分类器
model = xgb.XGBClassifier(
n_estimators=100, # 树的数量
max_depth=6, # 树的最大深度
learning_rate=0.1, # 学习率
subsample=0.8, # 每棵树使用的样本比例
colsample_bytree=0.8, # 每棵树使用的特征比例
reg_alpha=0, # L1正则化系数
reg_lambda=1, # L2正则化系数
random_state=42,
use_label_encoder=False,
eval_metric='logloss'
)
# 训练
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
print(f"XGBoost准确率: {accuracy_score(y_test, y_pred):.4f}")
# 特征重要性
importance = model.feature_importances_
print("特征重要性(前5个):", sorted(zip(importance, data.feature_names), reverse=True)[:5])
问题3:什么是过拟合和欠拟合?如何判断?列举3种以上解决过拟合的方法。
考察重点: 模型优化基础,所有大厂必问。
解答:
定义:
- 过拟合:模型在训练集上表现极好,但在验证/测试集上表现差。相当于“死记硬背”了训练数据中的噪声。
- 欠拟合:模型连训练集都没学好,在训练集和测试集上表现都差。相当于“没学会”基本规律。
如何判断:
- 学习曲线:训练损失持续下降,验证损失先降后升 → 过拟合;两者都高且平坦 → 欠拟合。
- 训练集精度远高于验证集精度(如训练99%,验证85%)→ 过拟合。
- 模型在简单数据上都无法拟合 → 欠拟合。
解决过拟合的常用方法(3种以上):
| 方法 | 原理 | 适用场景 |
|---|---|---|
| 增加训练数据 | 减少噪声的偶然相关性 | 数据量不足时最有效 |
| 数据增强 | 对现有数据变换生成新样本 | 图像、文本、语音领域 |
| 正则化(L1/L2) | 限制模型复杂度,惩罚大参数 | 线性模型、神经网络、树模型(XGBoost自带) |
| Dropout | 随机失活神经元,强制网络学习冗余表示 | 全连接层、CNN |
| 早停(Early Stopping) | 验证损失不再下降时停止训练 | 迭代式训练(深度学习、XGBoost) |
| 降低模型复杂度 | 减少层数、神经元数、树深度 | 模型太强时 |
| 集成学习(Bagging) | 多个模型平均,降低方差 | 随机森林、模型融合 |
解决欠拟合的方法:
- 增加模型复杂度(更多层、更多树)
- 减少正则化强度
- 添加更多特征(特征工程)
- 训练更多轮次
代码示例(早停与学习曲线绘制):
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
from sklearn.ensemble import RandomForestClassifier
# 生成学习曲线数据
train_sizes, train_scores, test_scores = learning_curve(
RandomForestClassifier(n_estimators=50, random_state=42),
X, y, cv=5, train_sizes=np.linspace(0.1, 1.0, 10),
scoring='accuracy'
)
train_mean = np.mean(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)
plt.figure(figsize=(8, 5))
plt.plot(train_sizes, train_mean, 'o-', label='Training score')
plt.plot(train_sizes, test_mean, 'o-', label='Cross-validation score')
plt.xlabel('Training examples')
plt.ylabel('Accuracy')
plt.legend()
plt.title('Learning Curves')
# plt.show() # 实际运行时会显示
print("如果训练分远高于验证分 → 过拟合;两者都低 → 欠拟合")
问题4:分类任务和回归任务的区别是什么?各自常用的评估指标有哪些?
考察重点: 模型评估,贴合实际业务场景。
解答:
| 维度 | 分类任务 | 回归任务 |
|---|---|---|
| 输出类型 | 离散的类别标签(如0/1,多类别) | 连续的数值(如价格、温度) |
| 损失函数 | 交叉熵、Hinge Loss | 均方误差(MSE)、平均绝对误差(MAE) |
| 核心问题 | 决策边界学习 | 函数拟合 |
分类任务常用评估指标:
- 准确率(Accuracy):正确预测的比例。注意类别不平衡时失效。
- 精确率(Precision):预测为正类中实际为正类的比例。 P = T P / ( T P + F P ) P = TP/(TP+FP) P=TP/(TP+FP)
- 召回率(Recall):实际为正类中被预测为正类的比例。 R = T P / ( T P + F N ) R = TP/(TP+FN) R=TP/(TP+FN)
- F1值:精确率和召回率的调和平均。 F 1 = 2 ∗ ( P ∗ R ) / ( P + R ) F1 = 2 * (P * R)/(P+R) F1=2∗(P∗R)/(P+R)
- ROC曲线与AUC:真阳性率 vs 假阳性率。AUC越接近1越好。
- 混淆矩阵:展示TP, TN, FP, FN的表格。
回归任务常用评估指标:
- 均方误差(MSE): 1 n ∑ ( y i − y ^ i ) 2 \frac{1}{n}\sum(y_i - \hat{y}_i)^2 n1∑(yi−y^i)2,对大误差敏感。
- 均方根误差(RMSE):MSE的平方根,量纲与y相同。
- 平均绝对误差(MAE): 1 n ∑ ∣ y i − y ^ i ∣ \frac{1}{n}\sum|y_i - \hat{y}_i| n1∑∣yi−y^i∣,对异常值更鲁棒。
- R平方(决定系数): R 2 = 1 − ∑ ( y i − y ^ i ) 2 ∑ ( y i − y ˉ ) 2 R^2 = 1 - \frac{\sum(y_i-\hat{y}_i)^2}{\sum(y_i-\bar{y})^2} R2=1−∑(yi−yˉ)2∑(yi−y^i)2,表示模型解释的方差比例。
代码示例:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np
# 模拟分类结果
y_true_class = np.array([1, 0, 1, 1, 0, 1, 0, 0])
y_pred_class = np.array([1, 0, 1, 0, 0, 1, 1, 0])
print("分类指标:")
print(f"Accuracy: {accuracy_score(y_true_class, y_pred_class):.2f}")
print(f"Precision: {precision_score(y_true_class, y_pred_class):.2f}")
print(f"Recall: {recall_score(y_true_class, y_pred_class):.2f}")
print(f"F1: {f1_score(y_true_class, y_pred_class):.2f}")
# 模拟回归结果
y_true_reg = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
y_pred_reg = np.array([1.2, 1.9, 3.1, 3.8, 5.2])
print("\n回归指标:")
print(f"MSE: {mean_squared_error(y_true_reg, y_pred_reg):.2f}")
print(f"RMSE: {np.sqrt(mean_squared_error(y_true_reg, y_pred_reg)):.2f}")
print(f"MAE: {mean_absolute_error(y_true_reg, y_pred_reg):.2f}")
print(f"R²: {r2_score(y_true_reg, y_pred_reg):.2f}")
2. 大厂高频题(侧重应用与场景落地)
问题1:(阿里)XGBoost相比GBDT的优化点有哪些?在实际业务中,如何调整XGBoost的参数来提升模型性能?
考察重点: 集成学习算法,业务落地能力。
解答:
XGBoost vs GBDT 核心优化点:
| 优化维度 | GBDT | XGBoost |
|---|---|---|
| 梯度信息 | 一阶导数 | 一阶+二阶导数(牛顿法),收敛更快 |
| 正则化 | 无显式正则化 | 包含叶子节点数惩罚和叶子权重L2正则,防过拟合 |
| 缺失值处理 | 需要手动填充 | 自动学习缺失值的分裂方向 |
| 树结构 | 贪心搜索分裂点 | 支持列采样、近似分位数、加权分位数 |
| 并行化 | 串行训练 | 特征粒度并行+预排序,训练快 |
| 工程优化 | 无 | 缓存感知、核外计算(处理数据>内存) |
参数调优实战策略:
XGBoost参数分为三类:树结构参数、学习任务参数、工程参数。
调优步骤(由粗到细):
-
设定基准参数:
learning_rate=0.1n_estimators=100max_depth=6subsample=0.8,colsample_bytree=0.8
-
调整树结构(防过拟合):
- 先调
max_depth(3-10)和min_child_weight(1-6) - 再调
gamma(分裂最小损失减少阈值,0-0.5)
- 先调
-
调整采样参数:
subsample(0.6-1.0)colsample_bytree/colsample_bylevel/colsample_bynode
-
正则化参数:
reg_alpha(L1,使权重稀疏)reg_lambda(L2,使权重平滑)
-
降低学习率,增加树数量:
- 将
learning_rate降至0.01-0.05,同时n_estimators增加到500-2000,配合早停。
- 将
代码示例(带早停和网格搜索):
import xgboost as xgb
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
# 转换为DMatrix(XGBoost原生格式)
dtrain = xgb.DMatrix(X_train, label=y_train)
dval = xgb.DMatrix(X_val, label=y_val)
# 参数网格
param_grid = {
'max_depth': [3, 5, 7],
'learning_rate': [0.01, 0.05, 0.1],
'n_estimators': [100, 200],
'subsample': [0.7, 0.8, 0.9],
'colsample_bytree': [0.7, 0.8, 0.9]
}
# 使用GridSearchCV(sklearn接口)
model = xgb.XGBClassifier(objective='binary:logistic', eval_metric='logloss', use_label_encoder=False)
grid = GridSearchCV(model, param_grid, cv=3, scoring='roc_auc', n_jobs=-1, verbose=1)
grid.fit(X_train, y_train)
print("最佳参数:", grid.best_params_)
print("最佳AUC:", grid.best_score_)
# 或者使用原生XGBoost的CV功能
params = {'max_depth': 5, 'eta': 0.05, 'objective': 'binary:logistic', 'eval_metric': 'logloss'}
cv_results = xgb.cv(params, dtrain, num_boost_round=1000, nfold=5, early_stopping_rounds=20, as_pandas=True)
print("最佳轮数:", cv_results.shape[0])
print("最佳验证AUC:", cv_results['test-auc-mean'].max())
业务落地经验:
- 对于高维稀疏数据(如点击率预估),增大
max_depth和min_child_weight,并开启tree_method='hist'加速。 - 对于类别特征较多的场景,可考虑使用CatBoost或对XGBoost做目标编码。
- 使用 早停 和 交叉验证 自动确定树数量,避免手动猜测。
问题2:(腾讯)为什么逻辑回归在工业界应用广泛?它在处理高维数据时会遇到什么问题?如何解决?
考察重点: 经典算法的工业应用,问题排查能力。
解答:
逻辑回归工业界广泛使用的原因:
- 简单高效:训练和推理速度快,适合大规模在线学习。
- 可解释性强:系数直接反映特征对概率的影响方向和大小,便于业务理解。
- 输出概率:可用于排序(如推荐系统中的CTR预估),而不仅是硬分类。
- 易于分布式实现:参数更新是线性运算,可轻松扩展到万亿样本(如FTRL算法)。
- 稳定性好:相比复杂模型,逻辑回归在特征工程充分的情况下表现稳健,不易出事故。
处理高维数据时的问题:
- 维度灾难:随着特征维度增加,数据变得稀疏,模型容易过拟合。
- 训练速度下降:高维权重向量更新耗时增加。
- 共线性问题:高维特征间可能存在高度相关,导致系数估计不稳定。
- 存储压力:若特征维度达千万级,模型大小可能几百MB甚至GB。
解决方案:
| 问题 | 解决方案 |
|---|---|
| 过拟合 | L1/L2正则化(L1还能自动特征选择) |
| 训练速度慢 | 使用FTRL(Follow The Regularized Leader) 在线学习算法,支持亿级特征稀疏更新 |
| 共线性 | 做特征筛选(PCA、方差阈值、相关系数)或使用岭回归(L2) |
| 存储压力 | 模型压缩(量化、哈希特征)、使用稀疏向量存储(如Scipy的csr_matrix) |
| 非线性关系 | 引入特征交叉(如笛卡尔积、GBDT+LR组合)或使用FM/FFM |
代码示例(大规模逻辑回归 + L1正则化 + 稀疏数据):
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
import numpy as np
# 模拟高维文本分类数据
categories = ['alt.atheism', 'soc.religion.christian']
newsgroups = fetch_20newsgroups(subset='all', categories=categories)
vectorizer = CountVectorizer(max_features=50000) # 5万维
X = vectorizer.fit_transform(newsgroups.data) # 稀疏矩阵
y = newsgroups.target
print(f"特征维度: {X.shape[1]}, 样本数: {X.shape[0]}, 稀疏度: {1 - X.nnz / (X.shape[0]*X.shape[1]):.2%}")
# 使用L1正则化进行特征选择
lr_l1 = LogisticRegression(penalty='l1', C=1.0, solver='liblinear', max_iter=100)
lr_l1.fit(X, y)
print(f"L1正则化后非零系数数量: {np.sum(lr_l1.coef_ != 0)}")
# 使用L2正则化(更稳定)
lr_l2 = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs', max_iter=100)
lr_l2.fit(X, y)
print(f"L2正则化后系数绝对值均值: {np.mean(np.abs(lr_l2.coef_)):.4f}")
问题3:(字节)交叉验证的核心作用是什么?常用的交叉验证方法有哪些?在小样本数据场景下,如何选择合适的交叉验证方式?
考察重点: 模型验证方法,数据场景适配能力。
解答:
交叉验证的核心作用:
- 评估模型泛化能力:比单次训练/验证划分更稳定,减少因数据划分随机性带来的评估偏差。
- 超参数调优:在网格搜索中使用交叉验证分数选择最佳超参数。
- 充分利用小数据集:每个样本既用于训练又用于验证,避免浪费。
- 检测过拟合:训练分数和验证分数差异过大时提示过拟合。
常用交叉验证方法:
| 方法 | 做法 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| K折交叉验证 | 数据分成K份,轮流取1份做验证,其余K-1份训练,最终平均K个结果 | 方差低,充分利用数据 | 计算量大(训练K次) | 通用,K通常取5或10 |
| 留一法(LOO) | 每次留1个样本做验证,N次 | 几乎无偏 | 计算量极大(N次) | 极小样本(N<100) |
| 分层K折 | 保证每折中各类别比例与总体一致 | 解决类别不平衡 | 仅适用于分类 | 分类任务 |
| 时间序列交叉验证 | 按时间顺序,用过去预测未来 | 不泄露未来信息 | 不能打乱顺序 | 时序数据 |
| 分组K折 | 确保同一组数据不分散在不同折 | 防止数据泄露 | 需要组ID | 有分组结构的数据(如多个样本来自同一用户) |
小样本场景下的选择策略:
- 样本量 < 50:使用留一法或重复K折(如 RepeatedStratifiedKFold 重复10次5折),提高评估稳定性。
- 样本量 50-200:使用10折交叉验证,或5折×3次重复。
- 类别不平衡:必须使用分层K折。
- 有分组信息(如用户、会话):使用GroupKFold。
代码示例(小样本分层K折):
from sklearn.model_selection import StratifiedKFold, cross_val_score, RepeatedStratifiedKFold
from sklearn.svm import SVC
from sklearn.datasets import make_classification
import numpy as np
# 生成小样本数据集(80个样本,类别不平衡)
X, y = make_classification(n_samples=80, n_features=10, n_classes=2, weights=[0.3, 0.7], random_state=42)
print(f"类别0比例: {np.mean(y==0):.2f}, 类别1比例: {np.mean(y==1):.2f}")
model = SVC(kernel='linear', random_state=42)
# 普通分层5折
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(model, X, y, cv=skf, scoring='accuracy')
print(f"5折交叉验证准确率: {scores.mean():.4f} ± {scores.std():.4f}")
# 重复分层5折(小样本推荐)
rskf = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=42)
scores_rep = cross_val_score(model, X, y, cv=rskf, scoring='accuracy')
print(f"重复5折×3次准确率: {scores_rep.mean():.4f} ± {scores_rep.std():.4f}")
问题4:(百度)特征工程的核心步骤是什么?如何判断一个特征的重要性?在特征维度极高的情况下,如何进行特征选择?
考察重点: 特征工程,大厂AI岗核心能力。
解答:
特征工程的核心步骤(按顺序):
- 数据理解与清洗:处理缺失值、异常值、重复值。
- 特征构造:
- 基础变换:对数、平方、分箱、多项式交叉
- 聚合特征:group by后的均值、最大值、计数
- 时间特征:年、月、日、星期、节假日
- 文本特征:TF-IDF、词向量、长度、标点计数
- 特征编码:类别特征 → One-Hot、Label Encoding、Target Encoding、Frequency Encoding。
- 特征缩放:标准化(Z-score)或归一化(Min-Max),对距离模型(SVM、KNN)和深度学习必要。
- 特征选择:剔除冗余、不相关特征,降低维度。
- 特征验证:分析特征与目标的相关性、特征稳定性(PSI)。
判断特征重要性的常用方法:
| 方法 | 原理 | 适用模型 | 优点 | 缺点 |
|---|---|---|---|---|
| 树模型的特征重要性 | 基于分裂时带来的不纯度减少(基尼/熵) | 随机森林、XGBoost | 快速,直观 | 偏向取值多的特征 |
| SHAP值 | 基于博弈论,计算每个特征对预测的边际贡献 | 任意模型 | 一致、可解释 | 计算慢 |
| Permutation Importance | 打乱特征值,观察模型分数下降程度 | 任意模型 | 模型无关 | 需多次评估 |
| 相关系数 | 计算与目标变量的线性/秩相关(Pearson/Spearman) | 线性关系 | 快速 | 只能捕捉线性关系 |
| L1正则化系数 | 逻辑回归/线性回归的L1权重非零即重要 | 线性模型 | 自动选择 | 不稳定 |
高维特征选择方法(维度 >> 样本数):
- 过滤式(Filter):
- 方差阈值:剔除方差接近0的特征。
- 单变量统计:卡方检验、互信息、相关系数,按得分排序选Top-K。
- 包裹式(Wrapper):
- 递归特征消除(RFE):递归训练模型,剔除最不重要的特征。
- 前向/后向搜索:计算量大,但效果较好。
- 嵌入式(Embedded):
- L1正则化(逻辑回归、Lasso):自动将不重要的特征系数压缩为0。
- 树模型的特征重要性:直接获取排序。
- 降维(Dimension Reduction):
- PCA(无监督)
- LDA(有监督)
- 自编码器(深度学习)
代码示例(高维特征选择流水线):
from sklearn.datasets import make_classification
from sklearn.feature_selection import VarianceThreshold, SelectKBest, chi2, RFE
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
import numpy as np
# 生成高维稀疏数据:1000样本,10000特征
X, y = make_classification(n_samples=1000, n_features=10000, n_informative=100, random_state=42)
# 1. 方差阈值:剔除方差小于0.1的特征
selector_var = VarianceThreshold(threshold=0.1)
X_var = selector_var.fit_transform(X)
print(f"方差过滤后特征数: {X_var.shape[1]}")
# 2. 卡方检验选择Top 500
selector_chi = SelectKBest(chi2, k=500)
X_chi = selector_chi.fit_transform(X, y)
print(f"卡方选择后特征数: {X_chi.shape[1]}")
# 3. L1正则化逻辑回归(嵌入式)
lr_l1 = LogisticRegression(penalty='l1', C=0.1, solver='liblinear', max_iter=500)
lr_l1.fit(X, y)
selected_idx = np.where(lr_l1.coef_[0] != 0)[0]
print(f"L1选择后特征数: {len(selected_idx)}")
# 4. 随机森林特征重要性(嵌入式)
rf = RandomForestClassifier(n_estimators=50, random_state=42, n_jobs=-1)
rf.fit(X, y)
importances = rf.feature_importances_
top500_idx = np.argsort(importances)[-500:]
print(f"随机森林Top500特征索引: {top500_idx[:10]}")
# 5. 递归特征消除(包装式,计算较慢,仅演示小规模)
# 先降维到1000再RFE
from sklearn.feature_selection import RFE
lr = LogisticRegression(max_iter=500)
rfe = RFE(lr, n_features_to_select=100)
# X_sub = X[:, :2000] # 演示时截取部分
# rfe.fit(X_sub, y)
3. 热点关联题(结合2026年行业趋势)
问题1:大模型时代,传统机器学习算法的应用场景有哪些?与大模型结合的方式是什么?
考察重点: 传统算法与大模型的协同,大厂混合建模需求。
解答:
传统机器学习算法依然活跃的场景:
| 场景 | 原因 | 示例 |
|---|---|---|
| 数据量小、计算资源有限 | 大模型需要海量数据和昂贵算力 | 小型企业诊断、边缘设备预测 |
| 强解释性要求 | 金融、医疗等需要解释决策原因 | 信用评分(逻辑回归)、医疗风险分层(决策树) |
| 实时性要求高 | 大模型推理延迟高、成本高 | 广告点击率预估(逻辑回归/GBDT)、反欺诈规则引擎 |
| 结构化表格数据 | 树模型对表格数据天然优势,优于大模型 | 销售预测、用户流失分析 |
| 离线批处理 | 不需要大模型的生成能力 | 客户分群(K-Means)、异常检测(孤立森林) |
传统算法 + 大模型的结合方式:
| 结合模式 | 具体做法 | 应用案例 |
|---|---|---|
| 大模型做特征工程 | 用LLM从非结构化数据中提取结构化特征,再喂给传统模型 | 从客服对话中提取意图、情感、实体,输入XGBoost做工单分类 |
| 大模型做标注 | 用LLM生成伪标签,训练传统模型(或蒸馏) | 用GPT-4标注海量文本,训练LightGBM用于快速推理 |
| 传统模型做检索 | 用传统向量模型(BM25、TF-IDF)做初筛,大模型精排 | RAG系统中先召回Top-100,LLM重排序Top-5 |
| 传统模型做异常检测 | 大模型负责正常生成,传统模型判断生成结果质量 | 检测LLM输出是否合规(用孤立森林检测嵌入向量异常) |
| 级联架构 | 简单任务由传统模型快速响应,复杂任务路由给大模型 | 客服机器人:关键词匹配→规则引擎→小模型→大模型(成本分层) |
代码示例(LLM辅助特征提取 + XGBoost分类):
# 模拟场景:从用户评论中提取特征,用XGBoost预测是否投诉
# 实际LLM调用部分用伪代码代替
import numpy as np
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
# 假设已经有LLM提取的特征
# LLM prompt: "从以下评论中提取: 1.情感分数(0-1), 2.是否提及价格(0/1), 3.是否提及速度(0/1)"
comments = [
"产品很好,但价格太贵了",
"速度飞快,很满意",
"垃圾,再也不会买了",
"物美价廉,推荐"
]
llm_extracted_features = np.array([
[0.2, 1, 0], # 价格贵,负向情感
[0.9, 0, 1], # 速度满意
[0.0, 0, 0], # 强烈负面
[0.8, 1, 0] # 价格合理
])
labels = [1, 0, 1, 0] # 1代表会投诉
X_train, X_test, y_train, y_test = train_test_split(llm_extracted_features, labels, test_size=0.25)
model = XGBClassifier()
model.fit(X_train, y_train)
print(f"投诉预测准确率: {model.score(X_test, y_test):.2f}")
问题2:在RAG系统中,传统机器学习算法(如聚类、分类)可以用于哪些环节?举例说明。
考察重点: RAG与传统机器学习的结合,热点场景应用。
解答:
RAG典型流程:索引构建 → 检索 → 重排序 → 生成。传统机器学习可在多个环节发挥优势。
| RAG环节 | 传统ML应用 | 具体作用 | 示例 |
|---|---|---|---|
| 索引构建 | 聚类 | 对文档库进行预聚类,检索时先定位到相关簇,减少搜索范围 | 将10万篇文档聚类成500簇,查询时先计算与簇中心的距离,只检索Top-3簇内的文档 |
| 索引构建 | 分类 | 对文档打标签,作为元数据过滤条件 | 将文档分为“技术/非技术”、“高价值/低价值”,检索时根据查询类型过滤 |
| 检索 | 向量降维(PCA/LDA) | 降低稠密向量维度,加速向量检索 | 将768维Embedding降维到256维,MILVUS检索速度提升2倍 |
| 检索 | BM25(传统稀疏检索) | 作为稠密检索的补充,提升关键词匹配能力 | 混合检索:Dense Retrieval + BM25,加权融合 |
| 重排序 | 学习排序(LTR) | 用GBDT等模型对召回文档进行精细排序 | 特征包括:语义相似度、关键词命中数、文档新鲜度、权威性,训练一个XGBoost重排器 |
| 生成 | 分类器作为护栏 | 检测LLM生成结果是否安全、相关 | 训练一个逻辑回归分类器判断生成答案是否包含敏感词或离题 |
| 整个流程 | 异常检测 | 检测查询是否为OOD(分布外)查询,决定是否降级处理 | 用户问“今天的天气”但知识库只有产品文档,模型返回置信度低,触发兜底回复 |
代码示例(聚类加速检索 + BM25混合检索):
# 模拟:对文档聚类,检索时只搜索相关簇
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
# 文档集
docs = [
"Python is a programming language",
"Machine learning uses data to learn",
"Deep learning is a subset of ML",
"Python is great for AI",
"Today is a sunny day",
"Weather forecast for tomorrow"
]
# TF-IDF向量化
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(docs)
# 聚类(假设分成2簇)
kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
clusters = kmeans.fit_predict(X_tfidf)
print("文档归属簇:", clusters)
# 查询向量化
query = "What is deep learning?"
query_vec = vectorizer.transform([query])
# 计算查询与簇中心的距离
distances = np.linalg.norm(kmeans.cluster_centers_ - query_vec.toarray(), axis=1)
top_cluster = np.argmin(distances)
print(f"查询最相关簇: {top_cluster}")
# 只在该簇内检索
candidate_indices = np.where(clusters == top_cluster)[0]
print(f"候选文档索引: {candidate_indices}")
# 输出候选文档
for idx in candidate_indices:
print(f"候选: {docs[idx]}")
# 实际RAG中,再用重排序模型对候选排序
问题3:联邦学习与传统机器学习的核心区别是什么?它在隐私保护场景下的应用优势有哪些?
考察重点: 隐私计算热点,大厂AI伦理与合规相关。
解答:
核心区别:
| 维度 | 传统机器学习 | 联邦学习 |
|---|---|---|
| 数据位置 | 数据集中到一个中心服务器 | 数据留在本地(手机、医院、银行) |
| 训练方式 | 中心化训练 | 分布式训练,只交换模型梯度/参数 |
| 隐私风险 | 高,数据可能被泄露或滥用 | 低,原始数据不出本地 |
| 通信开销 | 无(数据已集中) | 高,需要频繁上传下载模型 |
| 异构性 | 可以假设数据独立同分布 | 数据非独立同分布(Non-IID)是主要挑战 |
| 计算模式 | 单机/集群同步 | 客户端-服务器或点对点 |
应用优势(尤其隐私保护场景):
| 场景 | 传统方案问题 | 联邦学习优势 |
|---|---|---|
| 手机输入法 | 上传用户打字习惯,侵犯隐私 | 模型在手机本地训练,只上传加密的梯度更新 |
| 医疗影像诊断 | 医院数据无法共享(法规、竞争) | 多家医院联合训练,无需共享病人影像 |
| 金融反欺诈 | 银行不愿共享客户交易明细 | 联合建模,提升欺诈识别率,同时保护客户隐私 |
| 物联网设备 | 上传大量传感器数据成本高、延迟大 | 边缘训练,中心只聚合模型 |
| 推荐系统 | 用户行为数据集中存储有泄露风险 | 用户端训练个性化模型,只上传匿名化的偏好向量 |
联邦学习的常见框架:
- 横向联邦:特征相同,样本不同(如多家银行的客户信用数据)。
- 纵向联邦:样本重叠,特征不同(如银行和电商联合建模)。
- 联邦迁移学习:样本和特征都重叠少。
代码示例(模拟横向联邦平均,使用PyTorch):
# 模拟:3个客户端,每个客户端本地训练后,服务器平均参数
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
# 定义简单模型
class SimpleModel(nn.Module):
def __init__(self):
super().__init__()
self.fc = nn.Linear(10, 1)
def forward(self, x):
return torch.sigmoid(self.fc(x))
# 生成模拟数据(每个客户端数据不同)
def create_client_data(client_id, n_samples=100):
torch.manual_seed(client_id)
X = torch.randn(n_samples, 10)
y = (X[:, 0] + X[:, 1] > 0).float().unsqueeze(1)
return TensorDataset(X, y)
# 客户端本地训练
def client_update(model, dataloader, epochs=5, lr=0.01):
model.train()
optimizer = optim.SGD(model.parameters(), lr=lr)
criterion = nn.BCELoss()
for epoch in range(epochs):
for X_batch, y_batch in dataloader:
optimizer.zero_grad()
pred = model(X_batch)
loss = criterion(pred, y_batch)
loss.backward()
optimizer.step()
return model.state_dict()
# 联邦平均
def fed_avg(models_state):
avg_state = {}
for key in models_state[0].keys():
avg_state[key] = torch.stack([state[key].float() for state in models_state], dim=0).mean(dim=0)
return avg_state
# 主流程
num_clients = 3
global_model = SimpleModel()
client_loaders = [DataLoader(create_client_data(i), batch_size=16, shuffle=True) for i in range(num_clients)]
# 多轮通信
for round in range(5):
local_states = []
for client_id, loader in enumerate(client_loaders):
# 复制全局模型到客户端
local_model = SimpleModel()
local_model.load_state_dict(global_model.state_dict())
# 本地训练
updated_state = client_update(local_model, loader, epochs=3)
local_states.append(updated_state)
# 服务器聚合
new_global_state = fed_avg(local_states)
global_model.load_state_dict(new_global_state)
print(f"Round {round+1} 完成")
print("联邦学习训练完成,全局模型已聚合")
模块四:深度学习与大模型热点(20-25分钟,2026年重点,大厂高频)
本模块是面试的“分水岭”。能清晰讲明白Transformer、RLHF、RAG、Agent等技术的候选人,更容易获得大厂青睐。
1. 基础题(必答,衔接热点的基础)
问题1:CNN的核心组件有哪些?卷积层、池化层、全连接层的作用分别是什么?感受野的概念是什么?
考察重点: 深度学习基础架构,计算机视觉方向必备。
解答:
CNN核心组件:
- 卷积层(Convolution Layer)
- 激活函数(通常ReLU)
- 池化层(Pooling Layer)
- 全连接层(Fully Connected Layer)
- 批归一化层(BatchNorm,可选)
- Dropout层(可选)
各层作用:
| 层类型 | 作用 | 可训练参数 | 输出尺寸变化 |
|---|---|---|---|
| 卷积层 | 提取局部特征(边缘、纹理、形状),通过滑动卷积核与输入做点积 | 有(卷积核权重+bias) | 通常尺寸减小或不变(padding) |
| 池化层 | 降维、增大感受野、提供平移不变性、减少计算量 | 无 | 尺寸减半(如2x2池化) |
| 全连接层 | 将卷积提取的高层特征组合,用于分类/回归 | 有(权重矩阵) | 展平为一维向量 |
感受野(Receptive Field):
指卷积神经网络中某一层的神经元在原始输入图像上所能“看到”的区域大小。
- 深层神经元的感受野大于浅层神经元。
- 感受野越大,能捕捉的上下文信息越丰富。
- 计算公式(不考虑空洞卷积): R F l = R F l − 1 + ( k − 1 ) × ∏ i = 1 l − 1 s i RF_{l} = RF_{l-1} + (k-1) \times \prod_{i=1}^{l-1} s_i RFl=RFl−1+(k−1)×∏i=1l−1si,其中 k k k为卷积核大小, s i s_i si为步长。
代码示例(简单CNN + 感受野计算):
import torch
import torch.nn as nn
class SimpleCNN(nn.Module):
def __init__(self):
super().__init__()
self.conv1 = nn.Conv2d(3, 16, kernel_size=3, padding=1) # 输入3通道,输出16通道,3x3卷积
self.relu = nn.ReLU()
self.pool = nn.MaxPool2d(2, 2) # 2x2池化,步长2
self.conv2 = nn.Conv2d(16, 32, kernel_size=3, padding=1)
self.fc = nn.Linear(32 * 8 * 8, 10) # 假设输入224x224,经过两次池化后56x56? 实际需要计算
def forward(self, x):
x = self.pool(self.relu(self.conv1(x))) # 输出尺寸: batch x 16 x 112 x 112 (若输入224)
x = self.pool(self.relu(self.conv2(x))) # batch x 32 x 56 x 56
x = x.view(x.size(0), -1)
x = self.fc(x)
return x
# 感受野计算示例
# 第1层卷积后感受野 = 3 (kernel size)
# 第1层池化后感受野 = 3 * 2 = 6 (因为池化步长2)
# 第2层卷积后感受野 = 6 + (3-1)*2 = 10
print("第一层卷积后感受野: 3")
print("第一层池化后感受野: 6")
print("第二层卷积后感受野: 10")
问题2:RNN、LSTM、GRU的核心区别是什么?LSTM如何解决RNN的梯度消失/梯度爆炸问题?
考察重点: 时序模型基础,自然语言处理方向必备。
解答:
核心区别:
| 结构 | 核心思想 | 门控机制 | 参数量 | 适用场景 |
|---|---|---|---|---|
| RNN | 隐藏状态循环传递, h t = tanh ( W h h h t − 1 + W x h x t ) h_t = \tanh(W_{hh}h_{t-1}+W_{xh}x_t) ht=tanh(Whhht−1+Wxhxt) | 无 | 少 | 短序列,简单任务 |
| LSTM | 引入细胞状态 C t C_t Ct,三个门控(遗忘门、输入门、输出门)控制信息流动 | 3个门 | 多 | 长序列依赖,语言模型,机器翻译 |
| GRU | 简化LSTM,合并遗忘门和输入门为更新门,重置门 | 2个门 | 较少 | 性能和LSTM相近,训练稍快 |
LSTM解决梯度消失的原理:
- 梯度消失的根本原因是链式法则中反复乘以小于1的因子(如tanh导数<1,sigmoid导数≤0.25)。
- LSTM通过细胞状态 C t C_t Ct 和遗忘门 f t f_t ft 提供了一条“梯度高速公路”:
- 细胞状态的更新: C t = f t ⊙ C t − 1 + i t ⊙ C ~ t C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t Ct=ft⊙Ct−1+it⊙C~t
- 当遗忘门 f t f_t ft接近1时,梯度可以直接沿着 C t − 1 → C t C_{t-1} \to C_t Ct−1→Ct传递,几乎不衰减。
- 反向传播时,梯度可以通过加法路径直接传到前一时刻,避免了连乘。
- 梯度爆炸:通过梯度裁剪(gradient clipping)来解决,LSTM本身没有完全消除爆炸。
代码示例(LSTM实现及梯度监控):
import torch
import torch.nn as nn
import torch.optim as optim
# 简单LSTM模型
class SimpleLSTM(nn.Module):
def __init__(self, input_size=10, hidden_size=20, num_layers=2):
super().__init__()
self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
self.fc = nn.Linear(hidden_size, 1)
def forward(self, x):
out, (hn, cn) = self.lstm(x) # out: batch, seq_len, hidden
return self.fc(out[:, -1, :]) # 取最后一个时间步
# 生成序列数据
batch_size, seq_len, input_dim = 32, 50, 10
X = torch.randn(batch_size, seq_len, input_dim)
y = torch.randint(0, 2, (batch_size, 1)).float()
model = SimpleLSTM()
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
# 训练几步并监控梯度
model.train()
for step in range(10):
optimizer.zero_grad()
output = model(X)
loss = criterion(output, y)
loss.backward()
# 检查梯度范数,防止梯度爆炸
total_norm = 0
for p in model.parameters():
if p.grad is not None:
param_norm = p.grad.data.norm(2)
total_norm += param_norm.item() ** 2
total_norm = total_norm ** 0.5
print(f"Step {step+1}, Loss: {loss.item():.4f}, Grad Norm: {total_norm:.4f}")
# 梯度裁剪(防爆炸)
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
optimizer.step()
问题3:Transformer模型的核心结构是什么?自注意力机制的工作流程是什么?相较于RNN,它为什么更适合处理长序列数据?
考察重点: Transformer基础,大模型的核心架构。
解答:
Transformer核心结构(Encoder部分):
- 输入嵌入 + 位置编码
- 多头自注意力层(Multi-Head Self-Attention)
- 残差连接 + 层归一化(Add & Norm)
- 前馈神经网络(FFN,通常为2层线性+ReLU)
- 第二个残差连接 + 层归一化
- 上述模块重复N次(如BERT-base为12层)
Decoder在Encoder基础上增加 掩码自注意力 和 编码器-解码器注意力。
自注意力机制工作流程(单头):
给定输入序列 X ∈ R n × d X \in \mathbb{R}^{n \times d} X∈Rn×d(n个token,d维embedding):
- 生成Q、K、V: Q = X W Q , K = X W K , V = X W V Q = XW_Q, \ K = XW_K, \ V = XW_V Q=XWQ, K=XWK, V=XWV,其中 W Q , W K , W V ∈ R d × d k W_Q, W_K, W_V \in \mathbb{R}^{d \times d_k} WQ,WK,WV∈Rd×dk。
- 计算注意力分数: S = Q K T / d k S = QK^T / \sqrt{d_k} S=QKT/dk(点积,缩放)。
- Softmax归一化: A = softmax ( S ) A = \text{softmax}(S) A=softmax(S),每行和为1。
- 加权求和: O = A V O = A V O=AV。
多头注意力:将Q、K、V分成h个头分别计算,最后拼接再投影。
为什么Transformer比RNN更适合长序列?
| 维度 | RNN | Transformer |
|---|---|---|
| 计算复杂度 | O(n) per step,总O(n²)?实际RNN单步O(d²),总O(n*d²) | 自注意力O(n²·d),但可并行 |
| 长距离依赖 | 梯度消失/爆炸,难以捕捉超过20步的依赖 | 任意两个位置直接连接,路径长度为1 |
| 并行性 | 序列依赖,必须串行计算 | 可完全并行计算所有位置的Q、K、V |
| 位置编码 | 隐式包含顺序(时间步) | 需要显式注入位置信息 |
代码示例(简化版自注意力实现):
import torch
import torch.nn as nn
import torch.nn.functional as F
class SelfAttention(nn.Module):
def __init__(self, embed_dim=512, head_dim=64):
super().__init__()
self.scale = head_dim ** -0.5
self.q_proj = nn.Linear(embed_dim, head_dim, bias=False)
self.k_proj = nn.Linear(embed_dim, head_dim, bias=False)
self.v_proj = nn.Linear(embed_dim, head_dim, bias=False)
def forward(self, x):
# x: (batch, seq_len, embed_dim)
Q = self.q_proj(x) # (batch, seq_len, head_dim)
K = self.k_proj(x)
V = self.v_proj(x)
# 注意力分数
scores = torch.matmul(Q, K.transpose(-2, -1)) * self.scale # (b, seq, seq)
attn_weights = F.softmax(scores, dim=-1)
output = torch.matmul(attn_weights, V) # (b, seq, head_dim)
return output, attn_weights
# 测试
batch, seq, dim = 2, 10, 512
x = torch.randn(batch, seq, dim)
attention = SelfAttention(embed_dim=dim, head_dim=64)
out, weights = attention(x)
print(f"输出形状: {out.shape}") # [2, 10, 64]
print(f"注意力矩阵形状: {weights.shape}") # [2, 10, 10]
print("可以看到每个token都与其他所有token计算了注意力")
问题4:常见的激活函数(ReLU、Sigmoid、Tanh、SwiGLU)的原理、优缺点及适用场景是什么?为什么这些激活函数更适合大模型?
考察重点: 激活函数,模型训练基础。
解答:
| 激活函数 | 公式 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| Sigmoid | σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e^{-x}} σ(x)=1+e−x1 | 输出(0,1),可解释为概率 | 梯度饱和(导数为0),非零中心,指数计算慢 | 二分类输出层,几乎不用在隐藏层 |
| Tanh | tanh ( x ) = e x − e − x e x + e − x \tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} tanh(x)=ex+e−xex−e−x | 输出(-1,1),零中心 | 梯度饱和,计算稍复杂 | 循环神经网络隐藏层,现已少用 |
| ReLU | max ( 0 , x ) \max(0,x) max(0,x) | 计算快,无饱和,稀疏激活 | Dead ReLU(负梯度为0),输出非零中心 | CNN和MLP隐藏层默认选择 |
| LeakyReLU | max ( α x , x ) \max(\alpha x, x) max(αx,x) | 解决Dead ReLU | 引入超参数α | ReLU的改进版 |
| GELU | x ⋅ Φ ( x ) x \cdot \Phi(x) x⋅Φ(x) (正态CDF) | 比ReLU平滑,性能更好 | 计算稍复杂 | BERT、GPT等Transformer模型 |
| SwiGLU | Swish ( x 1 ) ⊗ x 2 \text{Swish}(x_1) \otimes x_2 Swish(x1)⊗x2 其中Swish= x ⋅ σ ( β x ) x\cdot\sigma(\beta x) x⋅σ(βx) | 门控机制,表达能力强 | 参数量增加(需两个线性层) | LLaMA、PaLM等大模型 |
为什么大模型偏爱这些激活函数(SwiGLU/GELU)?
- 非单调性:允许负值微弱激活,保留更多信息,ReLU将负值完全置0可能损失信息。
- 平滑性:平滑的激活函数使优化更稳定,梯度流动更顺畅,尤其在深层网络中。
- 门控机制:SwiGLU引入类似LSTM的门控思想,让模型动态控制信息流动,增强表达能力。
- 实证性能:在Transformer架构上,SwiGLU/GELU通常比ReLU收敛更快、最终性能更好。
代码示例(激活函数对比):
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
x = torch.linspace(-5, 5, 100)
# 定义激活函数
sigmoid = torch.sigmoid(x)
tanh = torch.tanh(x)
relu = torch.relu(x)
gelu = nn.GELU()(x)
# SwiGLU 需要两个输入,这里模拟Swish(x) = x * sigmoid(x)
swish = x * torch.sigmoid(x)
# 绘图(无矢量图标,但可显示)
plt.figure(figsize=(10, 6))
plt.plot(x.numpy(), sigmoid.numpy(), label='Sigmoid')
plt.plot(x.numpy(), tanh.numpy(), label='Tanh')
plt.plot(x.numpy(), relu.numpy(), label='ReLU')
plt.plot(x.numpy(), gelu.numpy(), label='GELU')
plt.plot(x.numpy(), swish.numpy(), label='Swish')
plt.axhline(0, color='black', linewidth=0.5)
plt.axvline(0, color='black', linewidth=0.5)
plt.legend()
plt.title('Common Activation Functions')
plt.grid(True, linestyle='--', alpha=0.6)
# plt.show()
print("图中可见ReLU在负数部分为0,而GELU/Swish有微弱的负值输出")
2. 大厂高频题(2026年重点考察,贴合大模型应用)
问题1:(字节/百度)请详细解释旋转位置编码(ROPE)的核心原理,对比绝对位置编码,它的优势和劣势分别是什么?
考察重点: 大模型位置编码,大厂必问。
解答:
ROPE核心原理:
旋转位置编码(Rotary Position Embedding)将位置信息通过旋转矩阵注入到每个token的query和key向量中。对于位置 m m m的token,其q/k向量每个维度对 ( q 2 i , q 2 i + 1 ) (q_{2i}, q_{2i+1}) (q2i,q2i+1)被旋转角度 m ⋅ θ i m \cdot \theta_i m⋅θi。
数学表达:
q m ( i ) = ( cos ( m θ i ) − sin ( m θ i ) sin ( m θ i ) cos ( m θ i ) ) ( q 2 i q 2 i + 1 ) q_m^{(i)} = \begin{pmatrix} \cos(m\theta_i) & -\sin(m\theta_i) \\ \sin(m\theta_i) & \cos(m\theta_i) \end{pmatrix} \begin{pmatrix} q_{2i} \\ q_{2i+1} \end{pmatrix} qm(i)=(cos(mθi)sin(mθi)−sin(mθi)cos(mθi))(q2iq2i+1)
其中 θ i = 10000 − 2 i / d \theta_i = 10000^{-2i/d} θi=10000−2i/d(与Transformer原始位置编码相同)。
关键性质:内积 q m ⋅ k n q_m \cdot k_n qm⋅kn只依赖于相对位置 m − n m-n m−n,即ROPE实现了相对位置编码。
对比绝对位置编码(如原始Transformer的sin/cos加性编码):
| 维度 | 绝对位置编码 | 旋转位置编码(ROPE) |
|---|---|---|
| 实现方式 | 将位置向量加到embedding上 | 将位置信息旋转到q/k向量中 |
| 相对位置能力 | 不强,需要模型自己学习 | 天然具备,内积只依赖相对位置 |
| 长度外推 | 较差,训练长度外推会衰减 | 较好,可以通过调整 θ \theta θ或NTK缩放外推 |
| 计算开销 | 几乎为零(预计算) | 轻微增加(旋转计算) |
| 适用模型 | BERT、GPT-2 | LLaMA、Qwen、Deepseek等主流大模型 |
ROPE的优势:
- 显式建模相对位置:无需额外学习,提升长序列建模能力。
- 外推能力强:通过线性插值(PI)或NTK缩放,可以扩展到训练时未见过的长度。
- 与注意力融合自然:旋转操作不影响注意力的并行计算。
ROPE的劣势:
- 实现稍复杂:需要分块旋转,不是简单的加法。
- 对序列长度有数学假设:外推时需特殊技巧(如YaRN)。
- 某些场景下绝对位置仍有用:如需要知道token是第几个的绝对信息。
代码示例(ROPE实现核心部分):
import torch
import math
def precompute_rope_cos_sin(dim, max_seq_len, base=10000):
"""预计算cos和sin表"""
theta = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
position = torch.arange(max_seq_len).float().unsqueeze(1)
angles = position * theta # (max_seq_len, dim//2)
cos = torch.cos(angles)
sin = torch.sin(angles)
return cos, sin
def apply_rope(x, cos, sin):
"""应用旋转位置编码
x: (batch, seq_len, num_heads, head_dim)
"""
batch, seq_len, num_heads, head_dim = x.shape
# 将head_dim分成两半
x1 = x[..., :head_dim//2]
x2 = x[..., head_dim//2:]
# 获取对应的cos和sin
cos = cos[:seq_len].unsqueeze(0).unsqueeze(2) # (1, seq_len, 1, dim//2)
sin = sin[:seq_len].unsqueeze(0).unsqueeze(2)
# 旋转公式: (x1*cos - x2*sin, x1*sin + x2*cos)
rotated_x1 = x1 * cos - x2 * sin
rotated_x2 = x1 * sin + x2 * cos
return torch.cat([rotated_x1, rotated_x2], dim=-1)
# 示例
dim = 128
max_len = 512
cos, sin = precompute_rope_cos_sin(dim, max_len)
q = torch.randn(2, 10, 8, 128) # batch=2, seq=10, heads=8, head_dim=128
q_rotated = apply_rope(q, cos, sin)
print(f"ROPE后q形状: {q_rotated.shape}")
问题2:(阿里/腾讯)MHA(多头注意力)、MQA(多查询注意力)、GQA(分组查询注意力)的核心区别是什么?请结合应用场景说明各自的适用场景。
考察重点: Transformer注意力机制变体,大模型优化方向。
解答:
核心区别(以KV缓存为视角):
| 注意力变体 | K/V头数量 | Q头数量 | KV缓存大小 | 推理速度 | 模型质量 |
|---|---|---|---|---|---|
| MHA | = 头数 | = 头数 | 大(头数×层数×seq_len×dim) | 慢 | 最好 |
| MQA | 1 | = 头数 | 小(1×层数×seq_len×dim) | 快 | 有损失 |
| GQA | G组(如2、4、8) | = 头数 | 中等(G×层数×seq_len×dim) | 中 | 接近MHA |
详细说明:
- MHA (Multi-Head Attention):每个注意力头都有独立的Q、K、V投影。参数量大,KV缓存大(解码时每个token的K/V都要存),但表达能力最强。
- MQA (Multi-Query Attention):所有头共享同一组K和V。KV缓存减少到1/头数,推理速度大幅提升,但质量有所下降(尤其小模型)。
- GQA (Grouped-Query Attention):将头分成G组,每组内共享K和V。是MHA和MQA的折中,质量接近MHA,速度接近MQA。
应用场景:
| 变体 | 推荐场景 | 代表模型 |
|---|---|---|
| MHA | 训练阶段、对质量要求极高且资源充足 | 原始Transformer、BERT、GPT-2 |
| MQA | 极度追求推理速度,允许轻微质量损失 | PaLM、Falcon、某些移动端模型 |
| GQA | 大模型主流选择,平衡速度和质量 | LLaMA 2/3、Deepseek、Qwen |
为什么GQA成为大模型标配?
- 大模型推理瓶颈在KV cache的内存带宽,GQA可减少2-4倍KV cache。
- 实验表明GQA(G=4或8)质量与MHA几乎无异,但吞吐量提升30-50%。
代码示例(简化版GQA实现):
import torch
import torch.nn as nn
import math
class GroupedQueryAttention(nn.Module):
def __init__(self, embed_dim, num_heads, num_kv_heads):
"""
embed_dim: 模型维度
num_heads: Q的头数
num_kv_heads: K/V的组数,必须能整除num_heads
"""
super().__init__()
assert num_heads % num_kv_heads == 0
self.num_heads = num_heads
self.num_kv_heads = num_kv_heads
self.head_dim = embed_dim // num_heads
self.scale = self.head_dim ** -0.5
# Q、K、V投影
self.q_proj = nn.Linear(embed_dim, embed_dim, bias=False)
self.k_proj = nn.Linear(embed_dim, self.num_kv_heads * self.head_dim, bias=False)
self.v_proj = nn.Linear(embed_dim, self.num_kv_heads * self.head_dim, bias=False)
self.out_proj = nn.Linear(embed_dim, embed_dim)
def forward(self, x):
batch, seq_len, _ = x.shape
# Q: (batch, seq, num_heads, head_dim)
q = self.q_proj(x).view(batch, seq_len, self.num_heads, self.head_dim)
# K, V: (batch, seq, num_kv_heads, head_dim)
k = self.k_proj(x).view(batch, seq_len, self.num_kv_heads, self.head_dim)
v = self.v_proj(x).view(batch, seq_len, self.num_kv_heads, self.head_dim)
# 将K/V重复到与Q相同的头数(通过repeat_interleave)
k = k.repeat_interleave(self.num_heads // self.num_kv_heads, dim=2)
v = v.repeat_interleave(self.num_heads // self.num_kv_heads, dim=2)
# 注意力计算(简化,未实现mask和kv cache)
attn_weights = torch.matmul(q, k.transpose(-2, -1)) * self.scale
attn_weights = torch.softmax(attn_weights, dim=-1)
out = torch.matmul(attn_weights, v) # (batch, seq, num_heads, head_dim)
out = out.transpose(1, 2).contiguous().view(batch, seq_len, -1)
return self.out_proj(out)
# 测试
model = GroupedQueryAttention(embed_dim=512, num_heads=8, num_kv_heads=2)
x = torch.randn(2, 10, 512)
out = model(x)
print(f"GQA输出形状: {out.shape}")
print(f"KV cache节省: 8个Q头 vs 2个KV组 -> 内存减少 {8/2:.0f}倍")
问题3:(字节)LoRA和QLoRA的核心原理是什么?两者的区别是什么?在大模型微调中,如何选择合适的微调方式?
考察重点: 大模型轻量化微调,初级岗实操需求。
解答:
LoRA核心原理:
- 冻结原始预训练权重 W ∈ R d × k W \in \mathbb{R}^{d \times k} W∈Rd×k,引入两个低秩矩阵 A ∈ R d × r A \in \mathbb{R}^{d \times r} A∈Rd×r和 B ∈ R r × k B \in \mathbb{R}^{r \times k} B∈Rr×k,其中 r ≪ min ( d , k ) r \ll \min(d,k) r≪min(d,k)。
- 前向传播: h = W x + B A x h = Wx + BAx h=Wx+BAx。
- 训练时只更新 A A A和 B B B,参数量从 d × k d \times k d×k减少到 r × ( d + k ) r \times (d+k) r×(d+k),通常减少1000倍以上。
QLoRA核心原理:
- QLoRA = LoRA + 4-bit量化 + 分页优化器。
- 将原始权重 W W W量化为4-bit(NF4格式),冻结不动。
- 计算梯度时,将4-bit权重反量化为16-bit进行矩阵乘法,但梯度只更新LoRA参数。
- 引入双重量化和分页优化器减少显存碎片。
LoRA vs QLoRA区别:
| 维度 | LoRA | QLoRA |
|---|---|---|
| 原始权重精度 | 16-bit(FP16/BF16) | 4-bit(NF4) |
| 可训练参数 | LoRA的A、B(16-bit) | LoRA的A、B(16-bit) |
| 显存占用 | 较低(例如7B模型约14GB) | 极低(7B模型约4-6GB) |
| 训练速度 | 快 | 稍慢(需反量化) |
| 模型质量 | 接近全参数微调 | 略低于LoRA,但差距很小 |
| 适用硬件 | 单卡24GB可跑13B | 单卡24GB可跑70B |
如何选择微调方式(决策树):
是否拥有多卡A100/H100?
├─ 是 → 全参数微调(最佳质量)
└─ 否 → 显存是否充足(>24GB)?
├─ 是 → LoRA(质量好,速度快)
└─ 否 → QLoRA(唯一选择,可跑70B)
另外:
- 需要快速迭代多个任务 → LoRA(可切换不同adapter)
- 部署在边缘设备 → QLoRA + 4-bit推理
代码示例(使用PEFT库实现LoRA和QLoRA):
# 需要安装: pip install peft transformers bitsandbytes
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
import torch
model_name = "Qwen/Qwen-1.8B" # 示例用小模型
# 1. LoRA (16-bit)
model_16bit = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
lora_config = LoraConfig(
r=8, # 秩
lora_alpha=32, # 缩放系数
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], # 应用LoRA的层
lora_dropout=0.1,
bias="none",
task_type="CAUSAL_LM"
)
model_lora = get_peft_model(model_16bit, lora_config)
model_lora.print_trainable_parameters()
# 输出: trainable params: 4,194,304 || all params: 1,823,000,000 || trainable%: 0.230
# 2. QLoRA (4-bit)
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True
)
model_4bit = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map="auto"
)
model_4bit = prepare_model_for_kbit_training(model_4bit)
model_qlora = get_peft_model(model_4bit, lora_config)
model_qlora.print_trainable_parameters()
# 可训练参数数量与LoRA相同,但基模型占用显存大大减少
问题4:(百度)RAG(检索增强生成)的核心流程是什么?文档切片应该按固定长度切,还是按语义切?chunk太大和太小分别会带来什么问题?
考察重点: RAG落地细节,大厂大模型应用岗高频。
解答:
RAG核心流程(五步):
用户查询
↓
1. 查询向量化(Embedding模型)
↓
2. 向量检索(相似度搜索,Top-K)
↓
3. 获取原始文档片段(从数据库或存储中)
↓
4. 构建上下文提示(Prompt: 检索内容 + 用户问题)
↓
5. LLM生成答案
文档切片(Chunking)策略对比:
| 策略 | 做法 | 优点 | 缺点 |
|---|---|---|---|
| 固定长度切片 | 按固定token数(如512)切割,可重叠 | 简单,可控,计算快 | 可能切断语义完整的段落 |
| 语义切片 | 按句子边界、段落、Markdown标题等自然边界切 | 保留语义完整性 | 长度不一,实现复杂 |
| 递归切片 | 先按大边界(如段落),若太大再递归切小 | 平衡两者 | 开销稍大 |
chunk大小的权衡:
| Chunk大小 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 太小(<100 token) | 检索精准,噪声少 | 上下文信息不足,LLM难以理解;召回率低 | 事实型问答(如“XX的生日”) |
| 适中(256-512 token) | 通用最佳实践 | 无 | 大多数RAG场景 |
| 太大(>1000 token) | 上下文完整,召回率高 | 引入大量噪声,LLM可能忽略关键信息;浪费token | 需要完整背景的复杂推理 |
最佳实践建议:
- 使用语义切片(按段落/标题),设置重叠窗口(如20-50 token)避免信息丢失。
- 根据任务动态调整:事实查询用小chunk,总结分析用大chunk。
- 可结合多粒度检索:同时用小chunk(高精度)和大chunk(高召回),结果融合。
代码示例(多种切片方式):
import re
from typing import List
def fixed_size_chunk(text: str, chunk_size: int = 512, overlap: int = 50) -> List[str]:
"""固定长度切片,带重叠"""
words = text.split()
chunks = []
for i in range(0, len(words), chunk_size - overlap):
chunk = ' '.join(words[i:i+chunk_size])
chunks.append(chunk)
return chunks
def semantic_chunk_by_paragraph(text: str) -> List[str]:
"""按段落切片"""
paragraphs = text.split('\n\n')
return [p.strip() for p in paragraphs if p.strip()]
def semantic_chunk_by_sentence(text: str, max_sentences: int = 5) -> List[str]:
"""按句子切片,每个chunk最多max_sentences个句子"""
sentences = re.split(r'(?<=[.!?])\s+', text)
chunks = []
for i in range(0, len(sentences), max_sentences):
chunk = ' '.join(sentences[i:i+max_sentences])
chunks.append(chunk)
return chunks
# 示例文本
sample_text = """人工智能是计算机科学的一个分支。它致力于研究如何使机器能够执行需要人类智能的任务。
机器学习是AI的子领域。深度学习是机器学习的一个分支,使用多层神经网络。
大语言模型如GPT-4、Deepseek能够生成高质量的文本。RAG技术结合检索和生成,可以有效减少幻觉。"""
print("固定长度切片(chunk_size=20词):")
for i, chunk in enumerate(fixed_size_chunk(sample_text, chunk_size=20)):
print(f"Chunk {i}: {chunk[:100]}...")
print("\n按段落切片:")
for i, chunk in enumerate(semantic_chunk_by_paragraph(sample_text)):
print(f"Chunk {i}: {chunk}")
print("\n按句子切片(最多2句):")
for i, chunk in enumerate(semantic_chunk_by_sentence(sample_text, max_sentences=2)):
print(f"Chunk {i}: {chunk}")
问题5:(腾讯)大模型推理阶段有哪些常用的解码策略?请分别解释Greedy Search、Beam Search、Top-K Sampling和Nucleus Sampling(Top-P)的原理、优点及局限性。
考察重点: 大模型推理,工程落地细节。
解答:
| 解码策略 | 原理 | 优点 | 局限性 | 适用场景 |
|---|---|---|---|---|
| Greedy Search | 每一步选概率最高的token | 简单、快速、确定性 | 容易陷入局部最优,缺乏多样性 | 短答案、确定性任务(如代码补全) |
| Beam Search | 维护k条候选序列,每步扩展后保留总分最高的k条 | 找到近似全局最优,质量较高 | 计算量大,仍然缺乏多样性 | 机器翻译、文本摘要 |
| Top-K Sampling | 只从概率最高的K个token中采样 | 比贪心多样,过滤低概率token | K固定,可能过滤掉合理token或包含太差token | 故事生成、创意写作 |
| Nucleus Sampling | 选择累积概率达到p的最小token集合,从中采样 | 动态调整候选集,适应概率分布 | 计算稍复杂 | 现代大模型默认选择(如GPT-4) |
Temperature的作用:
- 修改logits: p i = exp ( z i / T ) ∑ j exp ( z j / T ) p_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)} pi=∑jexp(zj/T)exp(zi/T)
- T < 1 T<1 T<1:概率分布更尖锐(更确定); T > 1 T>1 T>1:更平滑(更多样)
- 通常与Top-K/Top-P结合使用。
常见组合:
- 代码生成:Temperature=0.2, Top-P=0.95
- 创意写作:Temperature=0.8, Top-P=0.9, Top-K=50
- 事实问答:Temperature=0(贪心)
代码示例(实现解码策略):
import torch
import torch.nn.functional as F
def greedy_decode(logits):
"""贪心解码"""
return torch.argmax(logits, dim=-1)
def top_k_sampling(logits, k=50, temperature=1.0):
"""Top-K采样"""
logits = logits / temperature
# 保留top-k
top_k_logits, top_k_indices = torch.topk(logits, k)
# 转换为概率
probs = F.softmax(top_k_logits, dim=-1)
# 采样
sampled_idx = torch.multinomial(probs, 1)
return top_k_indices[sampled_idx]
def top_p_sampling(logits, p=0.9, temperature=1.0):
"""Nucleus采样(Top-P)"""
logits = logits / temperature
sorted_logits, sorted_indices = torch.sort(logits, descending=True)
cum_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)
# 找到累积概率超过p的位置
mask = cum_probs > p
mask[..., 1:] = mask[..., :-1].clone()
mask[..., 0] = False
sorted_logits[mask] = float('-inf')
# 重新归一化并采样
probs = F.softmax(sorted_logits, dim=-1)
sampled_idx = torch.multinomial(probs, 1)
return sorted_indices[sampled_idx]
# 模拟logits (batch=1, vocab=1000)
vocab_size = 1000
logits = torch.randn(1, vocab_size)
print("贪心解码结果:", greedy_decode(logits).item())
print("Top-K采样结果:", top_k_sampling(logits, k=50).item())
print("Top-P采样结果:", top_p_sampling(logits, p=0.9).item())
3. 热点关联题(2026年最新趋势,大厂重点关注)
问题1:多模态大模型(VLM)的核心挑战是什么?CLIP模型的工作原理是什么?它是如何实现图像与文本模态连接的?
考察重点: 多模态热点,大厂AI创新岗需求。
解答:
多模态大模型核心挑战:
- 模态对齐:如何让模型理解图像中的“狗”和文本“dog”是同一概念。
- 数据稀缺:高质量图文/视频文本对标注成本高。
- 计算资源:处理高分辨率图像+长文本,显存需求巨大。
- 跨模态推理:如“图像中的人在笑,问为什么”,需要联合理解。
CLIP模型工作原理:
CLIP(Contrastive Language-Image Pre-training)通过对比学习对齐图文。
训练阶段:
- 输入:一批图像-文本对(如N个对)
- 图像编码器(ViT或ResNet)输出图像嵌入 I i I_i Ii
- 文本编码器(Transformer)输出文本嵌入 T i T_i Ti
- 计算相似度矩阵 S i j = I i ⋅ T j S_{ij} = I_i \cdot T_j Sij=Ii⋅Tj(形状 N×N)
- 对比损失:最大化对角线(正确配对)的相似度,最小化非对角线(错误配对)的相似度
推理阶段:
- 将图像通过图像编码器,文本通过文本编码器,得到各自的嵌入向量。
- 计算余弦相似度,取最高相似度的类别作为预测。
模态连接方式:
- 双塔结构:图像和文本编码器独立,通过对比学习拉近配对样本的嵌入距离。
- 线性投影:通常在编码器后加一个线性层,将嵌入映射到同一空间。
代码示例(简化版CLIP风格对比学习):
import torch
import torch.nn as nn
import torch.nn.functional as F
class SimpleCLIP(nn.Module):
def __init__(self, image_dim=512, text_dim=512, proj_dim=256):
super().__init__()
self.image_proj = nn.Linear(image_dim, proj_dim)
self.text_proj = nn.Linear(text_dim, proj_dim)
self.temperature = nn.Parameter(torch.ones([]) * 0.07)
def forward(self, image_feats, text_feats):
# image_feats: (batch, image_dim), text_feats: (batch, text_dim)
I = F.normalize(self.image_proj(image_feats), dim=-1)
T = F.normalize(self.text_proj(text_feats), dim=-1)
# 计算相似度矩阵
logits = I @ T.T # (batch, batch)
# 对比损失: 对角线为正样本
labels = torch.arange(len(logits), device=logits.device)
loss_i = F.cross_entropy(logits, labels) # 图像->文本
loss_t = F.cross_entropy(logits.T, labels) # 文本->图像
loss = (loss_i + loss_t) / 2
return loss
# 模拟特征
batch = 4
image_feats = torch.randn(batch, 512)
text_feats = torch.randn(batch, 512)
model = SimpleCLIP()
loss = model(image_feats, text_feats)
print(f"CLIP对比损失: {loss.item():.4f}")
问题2:SFT、RLHF、DPO的核心区别是什么?DPO为什么不需要显式奖励模型?在实际应用中,如何选择合适的模型对齐方式?
考察重点: 大模型对齐技术,2026年热点。
解答:
三者核心区别:
| 方法 | 全称 | 输入数据 | 训练方式 | 优点 | 缺点 |
|---|---|---|---|---|---|
| SFT | Supervised Fine-Tuning | 指令-回答对 | 监督学习(交叉熵) | 简单,稳定 | 依赖高质量数据,无法避免有害输出 |
| RLHF | Reinforcement Learning from Human Feedback | 比较数据(A好/B好) | 训练奖励模型+PPO | 效果最好,符合人类偏好 | 复杂,不稳定,需训练4个模型 |
| DPO | Direct Preference Optimization | 比较数据(A好/B好) | 直接从偏好学习,无奖励模型 | 简单稳定,效果接近RLHF | 需要精心构造偏好数据 |
DPO为什么不需要显式奖励模型?
DPO从Bradley-Terry模型推导出:最优策略下,偏好概率只依赖于两个回答的概率比。通过重参数化,DPO将偏好学习转化为一个直接优化策略的损失函数:
L D P O ( π θ ; π r e f ) = − E ( x , y w , y l ) [ log σ ( β log π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − β log π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ] L_{DPO}(\pi_\theta; \pi_{ref}) = -\mathbb{E}_{(x,y_w,y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right] LDPO(πθ;πref)=−E(x,yw,yl)[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))]
其中 π r e f \pi_{ref} πref是SFT后的模型(固定), π θ \pi_\theta πθ是待优化模型。这样,只需偏好对 ( y w , y l ) (y_w, y_l) (yw,yl),无需训练奖励模型。
如何选择对齐方式?
| 场景 | 推荐方法 | 原因 |
|---|---|---|
| 有少量高质量指令数据 | SFT | 最简单,能快速获得基础能力 |
| 有大量人类偏好比较数据,追求最佳效果,资源充足 | RLHF | 效果天花板最高 |
| 有偏好数据,但希望简单稳定实现 | DPO | 2026年主流选择,效果好且易实现 |
| 完全没有偏好数据 | 无法对齐 | 先收集数据或使用RLAIF(AI反馈) |
代码示例(DPO核心损失实现):
import torch
import torch.nn.functional as F
def dpo_loss(policy_chosen_logps, policy_rejected_logps,
reference_chosen_logps, reference_rejected_logps,
beta=0.1):
"""
policy_chosen_logps: 当前模型对较好回答的log概率
policy_rejected_logps: 当前模型对较差回答的log概率
reference_*: 参考模型(通常是SFT后的模型)的log概率
beta: 温度参数,控制偏离参考模型的程度
"""
# 计算log比值
chosen_ratios = policy_chosen_logps - reference_chosen_logps
rejected_ratios = policy_rejected_logps - reference_rejected_logps
# DPO损失
losses = -F.logsigmoid(beta * (chosen_ratios - rejected_ratios))
return losses.mean()
# 模拟数据
batch_size = 4
policy_chosen = torch.randn(batch_size) * 2
policy_rejected = torch.randn(batch_size) * 2
ref_chosen = torch.randn(batch_size) * 2
ref_rejected = torch.randn(batch_size) * 2
loss = dpo_loss(policy_chosen, policy_rejected, ref_chosen, ref_rejected)
print(f"DPO Loss: {loss.item():.4f}")
问题3:大模型“幻觉”问题的产生原因是什么?纯文本LLM和VLM的幻觉表现形式有何不同?有哪些缓解策略?
考察重点: 大模型落地痛点,大厂工程化需求。
解答:
幻觉产生原因:
- 训练数据偏差:模型过度记忆训练集中的虚假关联。
- 解码策略:采样引入随机性,可能生成低概率但错误的词。
- 知识截止:模型不知道训练后发生的事实。
- 内缺失:模型为了保持流畅性而“编造”答案。
- 注意力不集中:长上下文中忽略关键信息。
纯文本LLM vs VLM幻觉表现形式:
| 模态 | 幻觉类型 | 示例 |
|---|---|---|
| 文本LLM | 事实性幻觉 | “爱因斯坦发明了电话” |
| 忠实性幻觉 | 给定文章说“A国降雨量500mm”,模型回答“800mm” | |
| VLM(视觉语言模型) | 物体幻觉 | 图像中没有“杯子”,模型说“桌上有个杯子” |
| 属性幻觉 | 图像中猫是白色,模型说“黑猫” | |
| 关系幻觉 | 图像中人在左边,狗在右边,模型说“狗在人的左边” |
缓解策略(按效果排序):
| 策略 | 原理 | 效果 |
|---|---|---|
| RAG | 检索外部知识库,让模型基于事实回答 | 强 |
| 提示工程 | “如果你不确定,请说不知道” + 少样本示例 | 中等 |
| Self-Consistency | 多次采样,取多数答案 | 中等 |
| CoT(思维链) | 要求模型逐步推理,减少跳跃 | 中等 |
| 对比解码 | 比较两个模型(大vs小)的logits差异 | 较强 |
| 反馈训练(RLHF) | 训练模型对不确定的回答拒绝回答 | 强 |
代码示例(简单的RAG缓解幻觉):
# 伪代码展示RAG如何缓解幻觉
def rag_response(query, retriever, llm):
# 1. 检索相关文档
docs = retriever.retrieve(query, top_k=3)
context = "\n".join(docs)
# 2. 构建强调事实的prompt
prompt = f"""你是一个基于事实的助手。请只根据以下知识库回答。如果知识库中没有相关信息,请直接说“根据现有知识无法回答”。
知识库: {context}
问题: {query}
答案:"""
# 3. 生成
answer = llm.generate(prompt)
return answer
# 对比无RAG时模型可能编造答案
print("无RAG: 模型可能产生幻觉")
print("有RAG: 答案被限制在检索内容中,幻觉大幅减少")
问题4:Agent的核心架构是什么?Agent为什么会陷入死循环?如何设计降级策略和人工兜底机制?
考察重点: Agent热点,大厂AI进阶应用需求。
解答:
Agent核心架构(以ReAct为代表):
用户输入
↓
┌─────────────────────────────────┐
│ Agent Loop │
│ ┌──────┐ ┌──────┐ ┌──────┐ │
│ │Thought│→│ Action│→│Observe│ │
│ └──────┘ └──────┘ └──────┘ │
│ ↑ ↓ │
│ └──────────────┘ │
└─────────────────────────────────┘
↓
最终答案
- Thought:思考下一步做什么。
- Action:调用工具(搜索、代码执行、API)。
- Observation:观察工具返回结果。
死循环原因:
- 重复无效操作:反复搜索同一个词但找不到答案。
- 逻辑矛盾:观察到结果与之前结论冲突,来回切换。
- 缺少停止条件:模型不知道何时应该停止并给出最终答案。
- 工具调用失败:连续多次调用同一工具返回错误。
降级策略与人工兜底:
| 策略 | 实现方式 | 触发条件 |
|---|---|---|
| 最大步数限制 | 设置最大迭代次数(如10步),超时停止 | 每次Agent调用计数 |
| 重复检测 | 记录最近N步的action+input,出现重复则强制停止 | 检测到相同动作+参数 |
| 置信度阈值 | 当模型输出答案的置信度低于阈值时,不执行动作 | 使用logits或额外评估模型 |
| 人工兜底 | 关键操作需要人类确认,或最后一步转人工客服 | 高风险场景(如支付、删除) |
| 回退策略 | 若Agent失败,使用简单规则或检索直接回答 | Agent抛出异常 |
代码示例(带降级的Agent框架):
import time
class SimpleAgent:
def __init__(self, llm, max_steps=5):
self.llm = llm
self.max_steps = max_steps
self.history = [] # 记录(thought, action, observation)
def run(self, user_query):
for step in range(self.max_steps):
# 1. 调用LLM生成思考+动作
prompt = self._build_prompt(user_query, self.history)
response = self.llm.generate(prompt)
# 解析thought和action
thought, action, action_input = self._parse(response)
# 2. 重复检测
last_actions = [(h['action'], h['action_input']) for h in self.history[-3:]]
if (action, action_input) in last_actions:
print("检测到死循环,触发降级策略")
return self._fallback_response(user_query)
# 3. 执行动作
observation = self._execute_action(action, action_input)
self.history.append({
'thought': thought,
'action': action,
'action_input': action_input,
'observation': observation
})
# 4. 判断是否给出最终答案
if action == "Final Answer":
return observation
# 超出最大步数,降级
print("超过最大步数限制,使用兜底回复")
return "抱歉,我暂时无法处理这个复杂问题,请联系人工客服。"
def _fallback_response(self, query):
"""降级策略:使用简单检索或直接道歉"""
# 可调用一个轻量级QA模型或返回默认信息
return "系统检测到重复操作,已停止。请简化您的问题后重试。"
def _execute_action(self, action, action_input):
# 模拟工具调用
if action == "Search":
return f"搜索结果: 关于{action_input}的信息..."
elif action == "Calculate":
try:
return str(eval(action_input))
except:
return "计算错误"
else:
return "未知动作"
def _parse(self, response):
# 简化解析逻辑
return "思考", "Search", "test query"
# 使用示例
agent = SimpleAgent(llm=None, max_steps=5)
result = agent.run("帮我查询今天的天气")
print(result)
问题5:大模型推理优化的常用方法有哪些?KV Cache、量化、蒸馏、剪枝的核心思路是什么?它们分别解决什么问题?
考察重点: 大模型工程优化,初级岗核心竞争力。
解答:
| 优化方法 | 核心思路 | 解决的问题 | 效果 | 代价 |
|---|---|---|---|---|
| KV Cache | 缓存已生成的token的K、V向量,避免重复计算 | 解码阶段重复计算历史token | 提速2-5倍 | 增加显存占用 |
| 量化 | 降低权重和激活的精度(如INT8、INT4) | 模型体积大,推理慢 | 体积减少75-90%,速度提升2-4倍 | 轻微精度损失 |
| 蒸馏 | 小模型(学生)学习大模型(教师)的输出分布 | 模型过大,无法部署 | 体积减少10-100倍 | 质量有损失 |
| 剪枝 | 移除不重要的权重、神经元或注意力头 | 模型冗余参数多 | 体积减少20-50% | 需要微调恢复精度 |
KV Cache详解:
- 自回归生成时,每生成一个新token,需要计算它与所有历史token的注意力。
- 没有KV Cache:每次重新计算所有历史token的K、V → 复杂度O(n²)
- 有KV Cache:缓存之前的K、V,新token只计算自己的K、V并与缓存做注意力 → 复杂度O(n)
量化详解(以INT8为例):
- 将FP16权重 W W W 映射到INT8: W i n t 8 = round ( W / s ) + z W_{int8} = \text{round}(W / s) + z Wint8=round(W/s)+z,其中 s s s是缩放因子, z z z是零点。
- 推理时反量化为FP16计算,或直接使用INT8矩阵乘法(需要硬件支持)。
代码示例(KV Cache模拟):
import torch
import torch.nn.functional as F
def self_attention_with_cache(q, k, v, past_kv=None):
"""
q: (batch, seq_len_q, head, dim)
k, v: (batch, seq_len_kv, head, dim)
past_kv: 缓存的(k, v)元组
"""
if past_kv is not None:
past_k, past_v = past_kv
k = torch.cat([past_k, k], dim=1) # 拼接历史K
v = torch.cat([past_v, v], dim=1) # 拼接历史V
# 计算注意力
scores = torch.matmul(q, k.transpose(-2, -1)) / (dim ** 0.5)
attn = F.softmax(scores, dim=-1)
out = torch.matmul(attn, v)
return out, (k, v)
# 模拟生成过程
batch, head, dim = 1, 8, 64
past_kv = None
generated = []
for step in range(5):
q = torch.randn(batch, 1, head, dim) # 当前step的query
k = torch.randn(batch, 1, head, dim)
v = torch.randn(batch, 1, head, dim)
out, past_kv = self_attention_with_cache(q, k, v, past_kv)
generated.append(out)
print(f"Step {step+1}, KV cache 长度: {past_kv[0].shape[1]}")
# 可以看到KV cache长度随步数线性增长,但避免了重新计算历史
量化代码示例(使用bitsandbytes):
# 需要安装: pip install bitsandbytes
import torch
import bitsandbytes as bnb
# 模拟一个线性层
linear_fp16 = torch.nn.Linear(1024, 4096).half()
x = torch.randn(1, 1024).half()
# FP16推理
out_fp16 = linear_fp16(x)
# 4-bit量化(使用bitsandbytes)
linear_4bit = bnb.nn.Linear4bit(1024, 4096, quant_type="nf4")
linear_4bit.load_state_dict(linear_fp16.state_dict(), strict=False)
out_4bit = linear_4bit(x)
print(f"FP16输出: {out_fp16[0, :5]}")
print(f"4-bit输出: {out_4bit[0, :5]}")
print("量化后模型体积减小约75%,精度损失极小")
结语
至此,我们完成了《初级人工智能工程师面试题宝典》的全部内容。本文涵盖:
- 机器学习基础:四大经典算法、过拟合/欠拟合、评估指标、XGBoost调优、特征工程、交叉验证、联邦学习等。
- 深度学习与大模型:CNN/RNN/Transformer、激活函数、位置编码(ROPE)、注意力变体(MQA/GQA)、LoRA/QLoRA、RAG、解码策略、多模态(CLIP)、模型对齐(SFT/RLHF/DPO)、幻觉缓解、Agent架构、推理优化(KV Cache/量化/蒸馏/剪枝)。
面试准备的最后建议:
- 理论+代码双修:本文所有代码建议亲手运行、修改参数、观察结果。
- 构建知识体系:不要孤立记忆知识点,理解它们之间的联系(例如:为什么Transformer需要位置编码→ROPE如何改进→GQA如何优化推理)。
- 关注行业动态:2026年的面试一定会问到最近发布的模型特性(如Deepseek V3的MoE架构、LLaMA 3的GQA配置等)。
- 模拟面试:找同学或使用AI模拟面试官,针对每个问题限时回答。
- 项目驱动:准备一个完整项目(如基于RAG的客服机器人、LoRA微调垂直领域模型),并能用本文知识点解释每个技术选型。
最后,祝愿每一位读者都能斩获心仪的Offer,在AI浪潮中乘风破浪!
🌟 感谢您耐心阅读到这里!
💡 如果本文对您有所启发欢迎:
👍 点赞📌 收藏 📤 分享给更多需要的伙伴。
🗣️ 期待在评论区看到您的想法, 共同进步。
🔔 关注我,持续获取更多干货内容~
🤗 我们下篇文章见~
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)