一、注意力和transformer

一、选择题

  1. 注意力机制的核心步骤不包括?
    A. 计算注意力分布
    B. 加权平均输入信息
    C. 随机丢弃部分输入
    D. 打分函数计算相关性
    答案:C(硬性注意力虽随机选择输入,但核心步骤仍为分布计算与加权)

  2. Transformer 中使用的注意力打分函数是?
    A. 加性模型
    B. 缩放点积模型
    C. 双线性模型
    D. 余弦相似度
    答案:B(公式为dk​​Q⋅KT​,避免高维梯度消失)

  3. 以下哪项不是 Transformer 编码器的组件?
    A. 掩码自注意力
    B. 层归一化
    C. 残差连接
    D. 前馈神经网络
    答案:A(掩码自注意力属于解码器,用于屏蔽未来位置)

二、填空题

  1. 注意力机制中,softmax 函数的作用是将打分函数输出转化为__________。
    答案:概率分布(注意力权重)

  2. 自注意力模型中,输入序列通过线性变换生成 Q、K、__________三个向量。
    答案:V(Value)

  3. Transformer 的位置编码分为绝对位置编码和__________,前者基于__________函数实现。
    答案:相对位置编码;正弦和余弦

三、简答题

  1. 简述软性注意力与硬性注意力的区别。

    • 软性注意力对所有输入加权求和,可微,如机器翻译中对齐所有单词;
    • 硬性注意力随机选择部分输入(如聚焦图像某区域),不可微,需用强化学习训练,计算效率更高但稳定性差。
  2. 为什么 Transformer 需要位置编码?自注意力如何结合位置信息?

    • 自注意力本身不具备序列顺序感知能力,位置编码通过正弦 / 余弦函数为每个位置生成唯一向量,与词嵌入相加后输入模型,让模型理解单词顺序(如 “我吃饭” 和 “吃饭我” 的差异)。
  3. 解释残差连接在 Transformer 中的作用。

    • 残差连接通过x+SubLayer(x)避免深层网络退化,当子层输出为 0 时,直接传递输入x(恒等映射),保证梯度流通,解决梯度消失问题,允许模型堆叠更多层(如 BERT 的 12 层 / 24 层结构)。

二、绪论

一、选择题

  1. 下列关于人工智能、机器学习、深度学习的关系描述正确的是?
    A. 机器学习包含人工智能,深度学习是机器学习的子集
    B. 深度学习包含机器学习,机器学习是人工智能的子集
    C. 人工智能包含机器学习,深度学习是机器学习的子集
    D. 人工智能包含深度学习,机器学习是深度学习的子集
    答案:C

  2. 人工神经元的输出计算不包括以下哪个步骤?
    A. 输入信号加权求和
    B. 激活函数非线性变换
    C. 反馈连接记忆存储
    D. 偏置项添加
    答案:C

  3. 深度学习与传统机器学习的核心区别在于?
    A. 是否使用 GPU 加速
    B. 是否自动学习特征表示
    C. 是否需要标注数据
    D. 是否处理图像数据
    答案:B

二、填空题

  1. 1956 年的________会议首次提出 “人工智能” 概念,被视为 AI 学科诞生的标志。
    答案:达特茅斯

  2. 人工神经网络的三要素包括激活规则、________和学习算法。
    答案:拓扑结构

  3. 深度学习中,通过多层网络自动提取特征的过程称为________。
    答案:表示学习

三、机器学习概述 

一、选择题

  1. 下列属于无监督学习的是?
    A. 图像分类
    B. 客户分群聚类
    C. 房价预测
    D. 围棋策略学习
    答案:B(聚类属于无监督学习,其他选项为监督学习或强化学习)

  2. 线性回归中,L2 正则化的作用是?
    A. 使参数稀疏化(变为 0)
    B. 防止过拟合,平滑参数
    C. 加速收敛速度
    D. 提高模型拟合能力
    答案:B(L2 正则化通过惩罚大参数,减少方差,防止过拟合)

  3. 极大似然估计假设数据服从某种分布,其核心目标是?
    A. 最大化先验概率
    B. 最小化预测误差
    C. 最大化观测数据出现的概率
    D. 最小化结构风险
    答案:C

二、填空题

  1. 机器学习四要素包括数据、模型、________和优化算法。
    答案:学习准则(或损失函数 / 风险函数)

  2. 监督学习的优化目标是拟合函数 y=f(x) 或________。
    答案:条件概率 p(y∣x)

  3. 线性回归中,当特征矩阵 X 不可逆时,可通过________方法求解参数。
    答案:岭回归(或 L2 正则化)

 

四、 前馈神经网络

一、选择题

  1. 下列激活函数中,哪一个存在 “死亡神经元” 问题?
    A. tanh
    B. ReLU
    C. sigmoid
    D. GELU
    答案:B(ReLU 在负输入时输出为 0,若梯度长期为 0 则神经元 “死亡”)

  2. 前向传播中,隐藏层节点的输出计算顺序是?
    A. 先激活函数,再线性变换
    B. 先线性变换,再激活函数
    C. 仅线性变换
    D. 仅激活函数
    答案:B(先计算净输入z=Wx+b,再应用激活函数)

  3. 反向传播算法的核心依据是?
    A. 链式法则
    B. 奥卡姆剃刀
    C. 大数定律
    D. 中心极限定理
    答案:A(通过链式法则计算复合函数梯度)

二、填空题

  1. 通用近似定理表明,多层感知器可通过增加______层神经元数量,以任意精度拟合复杂函数。
    答案:隐藏

  2. sigmoid 函数的导数表达式为______。
    答案:σ′(x)=σ(x)(1−σ(x))

  3. 前馈神经网络中,输入层到隐藏层的权重矩阵维度为m×n,则输入特征维度为______,隐藏层节点数为______。
    答案:n;m

五、卷积神经网络

一、选择题

  1. 下列哪项不属于卷积神经网络的结构特征?
    A. 局部连接
    B. 权重共享
    C. 全连接层
    D. 空间次采样
    答案:C(全连接层是 CNN 的组成部分,但非结构特征)

  2. 等宽卷积的填充量计算方式为?
    A. P=0
    B. P=K−1
    C. P=(K−1)/2
    D. P=K
    答案:C(等宽卷积通过填充 (K−1)/2 保持输出尺寸与输入一致)

  3. 残差网络解决的核心问题是?
    A. 梯度爆炸
    B. 网络退化
    C. 过拟合
    D. 计算量过大
    答案:B(残差连接通过恒等映射避免深层网络训练误差上升)

二、填空题

  1. 卷积神经网络中,权重共享的作用是__________。
    答案:减少参数数量,提取通用特征

  2. 空洞卷积通过插入__________来扩大感受野。
    答案:空洞(或零)

  3. ResNet 的残差单元输出公式为__________。
    答案:y=x+F(x)

六、循环神经网络 

一、选择题

  1. RNN 在反向传播时梯度消失的主要原因是?
    A. 激活函数导数累乘小于 1
    B. 学习率设置过小
    C. 输入序列过长
    D. 权重矩阵初始化过大
    答案:A(激活函数导数如 tanh'∈[0,1],累乘导致梯度衰减)

  2. LSTM 中控制历史信息丢弃比例的门是?
    A. 输入门
    B. 遗忘门
    C. 输出门
    D. 重置门
    答案:B

  3. GRU 与 LSTM 的主要区别是?
    A. GRU 没有记忆单元
    B. GRU 合并了遗忘门和输入门
    C. GRU 使用双向传播
    D. GRU 参数更多
    答案:B

  4. RNN 前向传播中,隐层状态更新公式正确的是?
    A. ht​=σ(Uxt​+Wht−1​)
    B. ht​=Uxt​+Wht−1​
    C. ht​=tanh(Uxt​⋅Wht−1​)
    D. ht​=tanh(Uxt​+Wht−1​)
    答案:D

二、填空题

  1. RNN 反向传播算法的全称是__________。
    答案:反向传播通过时间(BPTT)

  2. LSTM 的记忆单元更新公式为__________。
    答案:ct​=ft​⋅ct−1​+it​⋅c~t​

  3. 梯度爆炸的解决方案通常是__________。
    答案:梯度截断

  4. GRU 中的 “更新门” 作用是控制__________。
    答案:历史信息保留和新信息输入的比例

七、网络优化与正则化

一、选择题

  1. 下列哪项不是网络优化的难点?
    A. 非凸优化问题
    B. 梯度消失 / 爆炸
    C. 凸优化目标函数
    D. 超参数敏感
    答案:C

  2. 小批量梯度下降(MBGD)的主要优势是?
    A. 计算效率与梯度稳定性平衡
    B. 绝对收敛到全局最优
    C. 无需调参
    D. 适合所有规模数据集
    答案:A

  3. Adam 优化算法结合了哪些技术?
    A. 动量法与 Adagrad
    B. 动量法与 RMSprop
    C. SGD 与 Adadelta
    D. 梯度截断与早停
    答案:B

二、填空题

  1. 网络优化中,梯度消失的主要原因是__________和__________的累乘。
    答案:激活函数导数、权重矩阵

  2. 批量归一化(BN)的主要目的是解决__________问题。
    答案:内部协变量偏移

  3. Dropout 通过随机丢弃神经元,等效于__________训练,提升模型泛化性。
    答案:集成

八、模型的学习方式

一、选择题

  1. 下列属于集成学习中 Boosting 框架的算法是?
    A. 随机森林
    B. AdaBoost
    C. Stacking
    D. Bagging
    答案:B

  2. 多任务学习中,硬共享模式的特点是?
    A. 各任务独立训练,无参数共享
    B. 共享底层网络,顶层任务特定
    C. 通过正则化约束参数相似
    D. 按任务相关性分层共享
    答案:B

  3. 迁移学习中,源域与目标域特征空间相同但分布不同的场景属于?
    A. 异构迁移
    B. 同构迁移
    C. 元学习
    D. 终身学习
    答案:B

二、填空题

  1. 集成学习的三大框架包括 Boosting、
    答案:Bagging、Stacking

  2. 多视角学习中,通过交替标注未标记数据的方法称为__________。
    答案:协同训练(Co-Training)

  3. 迁移学习中,利用预训练模型在目标任务微调的方法属于__________策略。
    答案:预训练 - 微调

 九、深度生成模型

一、选择题

  1. 下列属于生成模型的是?
    A. 逻辑回归
    B. 支持向量机
    C. 生成对抗网络(GAN)
    D. 随机森林
    答案:C

  2. GAN 的核心架构包含哪两个网络?
    A. 编码器与解码器
    B. 生成器与判别器
    C. 前向网络与反向网络
    D. 特征提取器与分类器
    答案:B

  3. 生成模型学习的目标是?
    A. 直接拟合条件概率 p(y∣x)
    B. 学习数据的联合概率 p(x,y) 或边缘概率 p(x)
    C. 寻找最优决策边界
    D. 最大化分类准确率
    答案:B

二、填空题

  1. 机器学习的两种范式是__________和__________。
    答案:判别模型、生成模型

  2. GAN 的目标函数设计遵循__________与__________的对抗优化原则。
    答案:生成器、判别器

  3. 生成模型的两大核心步骤是__________和__________。
    答案:密度估计、采样

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐