深度学习题目（仅供参考）

2301_78450837

850人浏览 · 2025-06-17 16:16:29

2301_78450837 · 2025-06-17 16:16:29 发布

一、注意力和transformer

一、选择题

注意力机制的核心步骤不包括？
A. 计算注意力分布
B. 加权平均输入信息
C. 随机丢弃部分输入
D. 打分函数计算相关性
答案：C（硬性注意力虽随机选择输入，但核心步骤仍为分布计算与加权）
Transformer 中使用的注意力打分函数是？
A. 加性模型
B. 缩放点积模型
C. 双线性模型
D. 余弦相似度
答案：B（公式为dkQ⋅KT，避免高维梯度消失）
以下哪项不是 Transformer 编码器的组件？
A. 掩码自注意力
B. 层归一化
C. 残差连接
D. 前馈神经网络
答案：A（掩码自注意力属于解码器，用于屏蔽未来位置）

二、填空题

注意力机制中，softmax 函数的作用是将打分函数输出转化为__________。
答案：概率分布（注意力权重）
自注意力模型中，输入序列通过线性变换生成 Q、K、__________三个向量。
答案：V（Value）
Transformer 的位置编码分为绝对位置编码和__________，前者基于__________函数实现。
答案：相对位置编码；正弦和余弦

三、简答题

简述软性注意力与硬性注意力的区别。
答：
- 软性注意力对所有输入加权求和，可微，如机器翻译中对齐所有单词；
- 硬性注意力随机选择部分输入（如聚焦图像某区域），不可微，需用强化学习训练，计算效率更高但稳定性差。
为什么 Transformer 需要位置编码？自注意力如何结合位置信息？
答：
- 自注意力本身不具备序列顺序感知能力，位置编码通过正弦 / 余弦函数为每个位置生成唯一向量，与词嵌入相加后输入模型，让模型理解单词顺序（如 “我吃饭” 和 “吃饭我” 的差异）。
解释残差连接在 Transformer 中的作用。
答：
- 残差连接通过x+SubLayer(x)避免深层网络退化，当子层输出为 0 时，直接传递输入x（恒等映射），保证梯度流通，解决梯度消失问题，允许模型堆叠更多层（如 BERT 的 12 层 / 24 层结构）。

二、绪论

一、选择题

下列关于人工智能、机器学习、深度学习的关系描述正确的是？
A. 机器学习包含人工智能，深度学习是机器学习的子集
B. 深度学习包含机器学习，机器学习是人工智能的子集
C. 人工智能包含机器学习，深度学习是机器学习的子集
D. 人工智能包含深度学习，机器学习是深度学习的子集
答案：C
人工神经元的输出计算不包括以下哪个步骤？
A. 输入信号加权求和
B. 激活函数非线性变换
C. 反馈连接记忆存储
D. 偏置项添加
答案：C
深度学习与传统机器学习的核心区别在于？
A. 是否使用 GPU 加速
B. 是否自动学习特征表示
C. 是否需要标注数据
D. 是否处理图像数据
答案：B

二、填空题

1956 年的________会议首次提出 “人工智能” 概念，被视为 AI 学科诞生的标志。
答案：达特茅斯
人工神经网络的三要素包括激活规则、________和学习算法。
答案：拓扑结构
深度学习中，通过多层网络自动提取特征的过程称为________。
答案：表示学习

三、机器学习概述

一、选择题

下列属于无监督学习的是？
A. 图像分类
B. 客户分群聚类
C. 房价预测
D. 围棋策略学习
答案：B（聚类属于无监督学习，其他选项为监督学习或强化学习）
线性回归中，L2 正则化的作用是？
A. 使参数稀疏化（变为 0）
B. 防止过拟合，平滑参数
C. 加速收敛速度
D. 提高模型拟合能力
答案：B（L2 正则化通过惩罚大参数，减少方差，防止过拟合）
极大似然估计假设数据服从某种分布，其核心目标是？
A. 最大化先验概率
B. 最小化预测误差
C. 最大化观测数据出现的概率
D. 最小化结构风险
答案：C

二、填空题

机器学习四要素包括数据、模型、________和优化算法。
答案：学习准则（或损失函数 / 风险函数）
监督学习的优化目标是拟合函数 y=f(x) 或________。
答案：条件概率 p(y∣x)
线性回归中，当特征矩阵 X 不可逆时，可通过________方法求解参数。
答案：岭回归（或 L2 正则化）

四、前馈神经网络

一、选择题

下列激活函数中，哪一个存在 “死亡神经元” 问题？
A. tanh
B. ReLU
C. sigmoid
D. GELU
答案：B（ReLU 在负输入时输出为 0，若梯度长期为 0 则神经元 “死亡”）
前向传播中，隐藏层节点的输出计算顺序是？
A. 先激活函数，再线性变换
B. 先线性变换，再激活函数
C. 仅线性变换
D. 仅激活函数
答案：B（先计算净输入z=Wx+b，再应用激活函数）
反向传播算法的核心依据是？
A. 链式法则
B. 奥卡姆剃刀
C. 大数定律
D. 中心极限定理
答案：A（通过链式法则计算复合函数梯度）

二、填空题

通用近似定理表明，多层感知器可通过增加______层神经元数量，以任意精度拟合复杂函数。
答案：隐藏
sigmoid 函数的导数表达式为______。
答案：σ′(x)=σ(x)(1−σ(x))
前馈神经网络中，输入层到隐藏层的权重矩阵维度为m×n，则输入特征维度为______，隐藏层节点数为______。
答案：n；m

五、卷积神经网络

一、选择题

下列哪项不属于卷积神经网络的结构特征？
A. 局部连接
B. 权重共享
C. 全连接层
D. 空间次采样
答案：C（全连接层是 CNN 的组成部分，但非结构特征）
等宽卷积的填充量计算方式为？
A. P=0
B. P=K−1
C. P=(K−1)/2
D. P=K
答案：C（等宽卷积通过填充 (K−1)/2 保持输出尺寸与输入一致）
残差网络解决的核心问题是？
A. 梯度爆炸
B. 网络退化
C. 过拟合
D. 计算量过大
答案：B（残差连接通过恒等映射避免深层网络训练误差上升）

二、填空题

卷积神经网络中，权重共享的作用是__________。
答案：减少参数数量，提取通用特征
空洞卷积通过插入__________来扩大感受野。
答案：空洞（或零）
ResNet 的残差单元输出公式为__________。
答案：y=x+F(x)

六、循环神经网络

一、选择题

RNN 在反向传播时梯度消失的主要原因是？
A. 激活函数导数累乘小于 1
B. 学习率设置过小
C. 输入序列过长
D. 权重矩阵初始化过大
答案：A（激活函数导数如 tanh'∈[0,1]，累乘导致梯度衰减）
LSTM 中控制历史信息丢弃比例的门是？
A. 输入门
B. 遗忘门
C. 输出门
D. 重置门
答案：B
GRU 与 LSTM 的主要区别是？
A. GRU 没有记忆单元
B. GRU 合并了遗忘门和输入门
C. GRU 使用双向传播
D. GRU 参数更多
答案：B
RNN 前向传播中，隐层状态更新公式正确的是？
A. ht=σ(Uxt+Wht−1)
B. ht=Uxt+Wht−1
C. ht=tanh(Uxt⋅Wht−1)
D. ht=tanh(Uxt+Wht−1)
答案：D

二、填空题

RNN 反向传播算法的全称是__________。
答案：反向传播通过时间（BPTT）
LSTM 的记忆单元更新公式为__________。
答案：ct=ft⋅ct−1+it⋅c~t
梯度爆炸的解决方案通常是__________。
答案：梯度截断
GRU 中的 “更新门” 作用是控制__________。
答案：历史信息保留和新信息输入的比例

七、网络优化与正则化

一、选择题

下列哪项不是网络优化的难点？
A. 非凸优化问题
B. 梯度消失 / 爆炸
C. 凸优化目标函数
D. 超参数敏感
答案：C
小批量梯度下降（MBGD）的主要优势是？
A. 计算效率与梯度稳定性平衡
B. 绝对收敛到全局最优
C. 无需调参
D. 适合所有规模数据集
答案：A
Adam 优化算法结合了哪些技术？
A. 动量法与 Adagrad
B. 动量法与 RMSprop
C. SGD 与 Adadelta
D. 梯度截断与早停
答案：B

二、填空题

网络优化中，梯度消失的主要原因是__________和__________的累乘。
答案：激活函数导数、权重矩阵
批量归一化（BN）的主要目的是解决__________问题。
答案：内部协变量偏移
Dropout 通过随机丢弃神经元，等效于__________训练，提升模型泛化性。
答案：集成

八、模型的学习方式

一、选择题

下列属于集成学习中 Boosting 框架的算法是？
A. 随机森林
B. AdaBoost
C. Stacking
D. Bagging
答案：B
多任务学习中，硬共享模式的特点是？
A. 各任务独立训练，无参数共享
B. 共享底层网络，顶层任务特定
C. 通过正则化约束参数相似
D. 按任务相关性分层共享
答案：B
迁移学习中，源域与目标域特征空间相同但分布不同的场景属于？
A. 异构迁移
B. 同构迁移
C. 元学习
D. 终身学习
答案：B

二、填空题

集成学习的三大框架包括 Boosting、和。
答案：Bagging、Stacking
多视角学习中，通过交替标注未标记数据的方法称为__________。
答案：协同训练（Co-Training）
迁移学习中，利用预训练模型在目标任务微调的方法属于__________策略。
答案：预训练 - 微调

九、深度生成模型

一、选择题

下列属于生成模型的是？
A. 逻辑回归
B. 支持向量机
C. 生成对抗网络（GAN）
D. 随机森林
答案：C
GAN 的核心架构包含哪两个网络？
A. 编码器与解码器
B. 生成器与判别器
C. 前向网络与反向网络
D. 特征提取器与分类器
答案：B
生成模型学习的目标是？
A. 直接拟合条件概率 p(y∣x)
B. 学习数据的联合概率 p(x,y) 或边缘概率 p(x)
C. 寻找最优决策边界
D. 最大化分类准确率
答案：B

二、填空题

机器学习的两种范式是__________和__________。
答案：判别模型、生成模型
GAN 的目标函数设计遵循__________与__________的对抗优化原则。
答案：生成器、判别器
生成模型的两大核心步骤是__________和__________。
答案：密度估计、采样

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

AtomGit 2026年6月三方库下载量排行榜重磅发布！双榜格局稳固，生态深耕持续发力

AtomGit开源社区

cover

行业 Agent 黑客松圆满收官：打通行业落地“最后一公里”

AtomGit开源社区

cover

AtomGit 6 月：AtomCode CodingPlan 上线 GLM-5.2！

AtomGit开源社区

所有评论(0)

查看更多评论

2301_78450837

已为社区贡献3条内容