面试经验|AI产品经理|经典算法知识

久菜盒子工作室

578人浏览 · 2026-04-20 09:00:00

久菜盒子工作室 · 2026-04-20 09:00:00 发布

(一)机器学习和深度学习的关系

参考答案：

深度学习是机器学习的一种，二者是包含关系，比如机器学习还包含强化学习等诸多其他算法。一般要谈机器学习与深度学习的区别，我们最好是将其视为深度学习与传统的机器学习方法的区别。下面引用花书的两张图，来说明这种包含关系。

人工智能 AI，一种是基于知识的，我们人类专家直接将规则写好，然后让AI 运行这个规则的流程，例如一般单机游戏中的 AI 。另一种就是机器学习，我们不写出规则，而是让机器在数据中学习到这些规则。

下图中阴影部分是表示每个算法中机器可以学习到的部分，我们从左到右依次进行讲解：

（1）基于规则的系统，机器没有可以学习的，程序员写好程序交给机器去执行就行了。

（2）经典的机器学习方法，人类设计好特征，然后将特征送给可学习的特征映射器（分类，回归等）。本篇文章重点讲经典的机器学习方法与深度学习的区别。

（3）表示学习，对于浅层神经网络，我们只学到简单的特征。对于深层神经网络，开始我们学到简单特征，之后随着网络深度的增加，我们的网络将进一步整合之前的简单特征得到更加高级更加抽象的特征。最右边的这个就是深度学习。

(二)机器学习和深度学习的区别

参考答案：

以下将从三个方面来说明二者之间的区别。

（1）算法流程之间的区别

经典的机器学习方法：输入-->人工抽取特征-->决策树或逻辑回归等算法-->结果。

深度学习：输入-->可学习网络-->结果。

我们可以看到，在深度学习中，并不会人工进行特征的选取，整个过程是一种端到端的学习方式。而在经典机器学习方法中，需要使用人工去精心设计特征，而这些特征第一耗费人力，第二不一定就能找到最适合的哪一个特征。早期用于图像分类的手工特征，例如图像均值，方差，Forstner 算子、SUSAN 算子和 SIFT算子等。深度学习在算法上有两个优势：精度高，操作简单。

（2）速度上的区别

因为深度学习的模型本身比较大，所以模型需要进行多轮的大量的数据训练，才可以收敛，因此在训练上，深度学习要比经典的机器学习方法要慢很多。但是，在推理阶段，深度学习的执行时间将大大缩短，尤其是在 GPU 的硬件加持下。

（3）数据以及硬件的依赖

深度学习比经典的机器学习方法的模型参数要多得多，因此常常深度学习需要训练的数据也是非常大的，比如 imagenet 这样大的数据集加速了深度学习的发展。另一方面，想要训练的快，就需要使用运算速度非常快的 GPU，因为无论卷积还是 transformer两者在网络结构上都是可以并行运算的，这正好符合 GPU的特性。一般使用 GPU 可以加速几十倍的速度，相比于 CPU 。数据的增加和硬件的飞速发展也促使了近年来深度学习的关注量要远远超过经典的机器学习方法。

(三)什么是 K 近邻算法

参考答案：

K-近邻算法(K Nearest Neighbor)又叫 KNN 算法，指如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。也就是对于新输入的实例，从数据集中找到于该实例最邻近的 k 个实例，那么这k 个实例大多数属于某一个类，那么就把该实例放到该类中。

KNN 算法不仅可以用于分类，还可以用于回归。通过找出一个样本的 k 个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。

(四)什么是 KNN 算法的实现原理

参考答案：

存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前 k 个最相似的数据，这就是 k-近邻算法中 k 的出处，通常 k 是不大于20的整数。最后，选择 k 个最相似数据中出现次数最多的分类，作为新数据的分类。

(五)KNN 算法的优缺点

参考答案：

优点

1.简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；

2.可用于数值型数据和离散型数据；

3.训练时间复杂度为 O(n)；无数据输入假定；

4.对异常值不敏感

缺点

1.计算复杂性高；空间复杂性高；

2.样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；

3.一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。

4.最大的缺点是无法给出数据的内在含义。

(六)什么是线性回归算法

参考答案：

线性回归是利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。线性回归模型是相对简单的回归模型，对一个或多个自变量之间的线性关系进行建模，可用最小二乘法求模型函数。

回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

(七)线性回归算法的实现原理

参考答案：

线性回归算法的目的是来找到一条函数表达式，从而能够最好的拟合给定的数据集。

当得到这条函数表达式的时候，讲所有已知的点代入到这个函数表达式之间，就会得到一个函数值，而这个函数值减去真实值之后就会得到一个误差，将所有的误差平方后求和就是这个函数表达式整体的一个误差，这种将所有误差平方求和的方法叫做残差平方和。得到的结果越大，就说明预测值和实际值差距越大，得到的结果越小，就说明预测值和实际值差距越小，当结果为 0 时，证明所有的点都在这个函数表达式上。

举个例子，在二维平面上一些点随机的分布在一条线的两侧，那么线性回归的目的就是找到这条线的函数表达式，得到这条线的函数表达式就能处理未知的点，就能够求出他的结果值。

(八)线性回归算法的应用场景(广告投放)

参考答案：

假如，现在部门要推出一款产品。为了让产品卖得更好，就到处去投放广告，让大家都知道这个产品，激发大家购买的欲望。因为一般来说，广告投放得越多，钱花得越多，知道的人越多，产品卖得越多。

那根据历史累计的广告投放经费和销售额，我们可以画出一张关系图，图上每个点对应的 X 轴代表广告费，Y 轴代表销售额。结合这张图我们可看出，有些坐标点的收益相对较高，有些坐标点的收益相对较低，大概率它们是符合线性关系的。

已知线性回归方程是 Y = AX + B，将已有数据代入到这个方程中，然后求得出一组 A 和 B 的最优解，最终拟合出一条直线，使得图中每个点到直线的距离最短，也就是上面说的损失函数最小。这样，我们就能通过这个最优化的 A和 B 的值，进行估算广告经费和销售额的关系了。

(九)线性回归算法的优缺点

参考答案：

优点：

1.运算速度快，由于算法简单，符合非常简洁的数学原理，所以线性回归算法不管时建模速度还是预测速度都是非常快的。

2.可解释性很强，由于最终可以得到一个数学函数表达式，根据计算出的系数就可以明确的知道每个变量的影响大小。

3.善于获取数据集中的线性关系。

缺点：

1.预测的精确度较低，由于获得的模型只是要求最小的损失，而不是数据良好的拟合，所以精确度比较低。

2.不相关的特征会影响结果，对噪声数据处理比较难。

3.不适用于非线性数据。

4.容易出现过拟合，尤其是数据量不大的情况。

(十)什么是逻辑回归算法

参考答案：

简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。注意，这里用的是“可能性 ”，而非数学上的“概率 ”，logisitc 回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘。

(十一)逻辑回归算法的优缺点

参考答案：

优点：

(1)对率函数任意阶可导，具有很好的数学性质，许多现有的数值优化算法都可以用来求最优解，训练速度快;

(2)简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响;

(3)适合二分类问题，不需要缩放输入特征;

(4)内存资源占用小，因为只需要存储各个维度的特征值;

(5)直接对分类可能性进行建模，无需事先假设数据分布，避免了假设分布不准确所带来的问题

(6)以概率的形式输出，而非通过知识直接判断是 0 还是 1，对许多利用概率辅助

决策的任务很有用

缺点：

(1)不能用逻辑回归去解决非线性问题，因为 Logistic 的决策面是线性的;

(2)对多重共线性数据较为敏感;

(3)很难处理数据不平衡的问题;

(4)准确率并不是很高，因为形式非常的简单(非常类似线性模型)，很难去拟合数据的真实分布;

(5)逻辑回归本身无法筛选特征，有时会用 gbdt 来筛选特征，然后再上逻辑回归。

(十二)朴素贝叶斯算法的实现原理

参考答案：

朴素贝叶斯（NB）是一种基于贝叶斯定理和特征条件独立假设的分类方法。本质上朴素贝叶斯模型就是一个概率表，其通过训练数据更新这张表中的概率。为了预测一个新的观察值，朴素贝叶斯算法就是根据样本的特征值在概率表中寻找最大概率的那个类别。

之所以称之为「朴素」，是因为该算法的核心就是特征条件独立性假设（每一个特征之间相互独立），而这一假设在现实世界中基本是不现实的。

简单来说，朴素贝叶斯分类器假设在给定样本类别的条件下，样本的每个特征与其他特征均不相关，对于给定的输入，利用贝叶斯定理，求出后验概率最大的输出。

朴素贝叶斯的基本思想：如果一个事物在一些属性条件发生的情况下，事物属于 A 的概率>属于 B 的概率，则判定事物属于 A。

假设我们有一个数据集，它是由两类数据构成，数据分布如下图所示：

p1(x,y)表示数据点(x,y)属于类别 1（图中用圆点表示的类别）的概率 p2(x,y)表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

如果 p1(x,y) > p2(x,y)，那么类别为 1。

如果 p2(x,y) > p1(x,y)，那么类别为 2。

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

(十三)朴素贝叶斯算法的优缺点

参考答案：

优点：

1. 算法简单且易于实现：朴素贝叶斯算法基于简单的概率统计原理，模型参数估计简单，算法实现相对容易。

2. 高效性：朴素贝叶斯算法具有高效的训练和预测速度，适用于大规模数据集。

3. 对小样本数据有效：朴素贝叶斯算法在处理小样本数据时表现良好，因为它通过特征条件独立假设来估计参数，减少了参数估计的不确定性。

4. 对缺失数据友好：朴素贝叶斯算法能够处理缺失数据，通过忽略缺失特征的条件概率来进行分类预测。

缺点：

1. 特征条件独立假设过于简单：朴素贝叶斯算法假设特征之间相互独立，这在实际应用中并不总是成立。特征之间的相关性可能会导致分类结果的偏差。

2. 对输入数据分布的假设：朴素贝叶斯算法假设特征的分布满足条件独立性，但在实际情况中，特征之间的关系可能是复杂的，导致模型的偏差。

3. 处理连续特征困难：朴素贝叶斯算法对连续特征的处理相对困难，通常需要进行离散化处理，这可能会导致信息损失。

4. 类别之间的类别比例影响结果：朴素贝叶斯算法对类别之间的类别比例敏感，如果训练样本中某个类别的样本数量远大于其他类别，可能会导致分类结果的偏差。

(十四)朴素贝叶斯算法的应用案例(要不要购买延误险)？

参考答案：

最近看到一则新闻，王女士从 2015 年开始，凭借自己对航班和天气的分析，成功地购买了大约 900 次飞机延误险并获得延误赔偿，累计获得保险理赔金高达300 多万元。那么她是怎么决定要买延误险的呢？

其实，航班延误最主要的原因就是天气变化，包括起飞地及降落地的天气；除此之外，也有机场和航空公司的原因。假设这些原因之间并没有互相影响，每一项对于飞机最终是否延误的影响都是独立的，王女士集齐过去的数据，就可以计算出每一个条件与飞机延误的概率。比如，在总体上延误的概率为 20%，不延误

的概率为 80%。在飞机延误的情况下，“起飞地天气=晴天 ”的概率为 20%，“降落地天气=雨天 ”的概率为 40%， “机场=首都机场 ”的概率为 35%， “航空公司=南方航空 ”的概率为 5%；在不延误的情况下，这些属性的概率分别为 60%、 55% 、45% 、55%。

那么这个时候，有一架南方航空公司的航班，从北京飞往上海，北京天气是晴天，上海天气是雨天，那么，我们就可以根据上面的概率算出来不延误的综合概率 =80% × 60% × 55% × 45% × 55% = 0.0065412，延误的综合概率=20% × 20% × 40% × 35% × 5% = 0.00028，从这个结果来看，不延误的可能性要高于延误的可能性，所以这次不需要买延误险。

(十五)决策树算法的实现原理？

参考答案：

决策树算法的原理是根据已知数据集的特征和决策树算法是.种常用的机器学习算法，它可分类结果，构建一颗树形结构，通过对待分类样才进行特征比较和分类判断，实现对新样本的分类预测

决策树算法的基本原理是根据信息熵和信息增齐对数据集进行划分，构建一棵树形结构。在决策树中，每个节点代表一个特征，每个分支代表这个特征的一个取值，个叶子节点代表一个分类结果

信息简是度量信息不确定性的一种方法，它的作越大，表示信息的不确定性越高。在决策树算法中，我们希望通过划分从而提高分类的准确性。信息增益是指在某个特征上划分数据集前后数据集，让信息熵减少，即让信息不确定性降低信息熵的减少量。我们希望选择信息增益最大的毕征作为当前节点的划分标准，从而构建决策树。

(十六)决策树算法的应用案例(预测用户违约)？

参考答案：

银行客户流失是指银行的客户终止在该行的所有业务并销号。但在实际运营中，对于具体业务部门，银行客户流失可以定位为特定的业务终止行为。商业银行的客户流失较为严重，流失率可达20% 。而获得新客的成本是维护老客户的 5 倍。因此，从海量客户交易数据中挖掘出对流失有影响的信息，建立高效的客户流失预警体系尤为重要。

客户流失的主要原因有：价格流失、产品流失、服务流失、市场流失、促销流失、技术流失、政治流失。有些时候表面上是价格导致的客户流失，但实际上多重因素共同作用导致了客户的流失。比如说，不现实的利润目标、价格结构的不合理、业务流程过于复杂、组织结构的不合理等等。维护客户关系的基本方法：追踪制度，产品跟进，扩大销售，维护访问，机制维护。

因此建立量化模型，合理预测客群的流失风险是很有必要的。比如：常用的风险因子，客户持有的产品数量、种类，客户的年龄、性别，地理区域的影响，产品类别的影响，交易的时间间隔，促销的手段等等。根据这些因素及客户流失的历史数据对现有客户进行流失预测，针对不同的客群提供不同的维护手段，从而降低客户的流失率。

(十七)决策树算法的优缺点？

参考答案：

1.决策树所产生的预测规则的形式为：如果 x r 1 ∈ A 1 …且 x r m ∈ A m ，那么 Y ＝y，很容易解释。

2.在树的生长过程中，对定序或连续自变量而言只需使用变量取值的大小顺序而不使用具体取值。因为对这些自变量进行任何单调增变换（例如，取对数）都不

改变变量取值的大小顺序，而对自变量进行任何单调减变换（例如，取倒数）把原来取值的大小顺序完全颠倒；所以这些变换都不会改变划分的结果。因此，在建立决策树时，无需考虑自变量的转换（但注意，有时需要考虑因变量的转换）。

3. 因为决策树只使用了定序或连续自变量取值的大小顺序，它对自变量的测量误差或异常值是稳健的。

4.决策树能够直接处理自变量的缺失值。如第二章所述，如果数据中有多个自变量存在缺失，决策树可用来插补这些自变量的缺失值。

5.决策树可以用作变量选择的工具。

缺点：

1.每个非叶节点的划分都只考虑单个变量，因此很难发现基于多个变量的组合的规则。例如，可能按照2 x 1 +3 x 2 的值划分比较好，但决策树只会考虑按照 x 1 或

x 2 的值进行划分，很难发现这样的组合规则。

2.为每个非叶节点选择最优划分时，都仅考虑对当前节点划分的结果，这样只能够达到局部最优，而无法达到全局最优。

3.正因为决策树是局部贪婪的，树的结构很不稳定。例如，若将学习数据集随机分割为不同的训练数据集和修正数据集，可能对于某次分割， x r 1 被选作根节点的划分变量，而对于另一次分割， x r 2 （ r 2 ≠ r 1 ）被选作根节点的划分变量，之后继续划分下去，这两棵树的结构差异会非常大。这种差异也可能使得两棵树的预测性能存在很大差异。而这些差异仅仅是由学习数据集随机分割的差异带来的！此外，因为不同结构的树隐含的预测规则存在不同的解释，所以这种结构不稳定性也降低了决策树的可解释性。

(十八)什么是决策森林算法？

参考答案：

随机森林是一种基于决策树的集成算法。随机森林通过构建多个决策树来进行分类，每个决策树都是基于随机抽样的训练数据集构建的。在构建每个决策树的过程中，我们会随机选择一个特征子集来进行特征选择，并在每个节点上选择最佳的特征进行分割。通过集成多个决策树的预测结果，随机森林可以减少过拟合的风险，并提高模型的泛化能力

(十九)SVM 算法的实现原理？

参考答案：

SVM（支持向量机）是一种用于分类和回归分析的机器学习算法。它基于构建一个最优的超平面，可以将不同类别的数据分隔开来，从而实现分类。

具体来说， SVM 的算法原理如下：

寻找最优的超平面：在给定的训练数据中， SVM 算法会寻找一个最优的超平面，使得将数据分为两个类别的间隔最大化。

核函数的应用：对于非线性分类问题， SVM 采用核函数将数据映射到高维空间中，使得在该空间中可以使用线性超平面分割数据。

求解优化问题： SVM 通过求解一个凸二次规划问题来确定最优的超平面。该问题的目标是找到一个最小的误分类率，并最大化分类边界的间隔。

支持向量的确定：在确定最优的超平面后， SVM 算法将寻找支持向量，即离最优超平面最近的训练数据点。这些数据点在分类过程中起到了关键的作用。

分类器的构建：基于最优的超平面和支持向量，SVM 可以构建一个分类器，用于对新的数据进行分类。

总体来说， SVM 是一种强大的分类器，可以处理线性和非线性分类问题。它的核心思想是最大化分类边界的间隔，并利用支持向量来确定最优的超平面，从而实现高效的分类。

(二十)SVM 算法的优缺点？

参考答案：

优点

1. 能够处理高维数据

SVM 算法的核心思想是将数据映射到高维空间中，使得数据在该空间中更容易被分离。这种映射方式可以通过选择不同的核函数来实现，例如线性核、多项式核、高斯核等。因此， SVM 算法能够处理高维数据，不受维度灾难的影响。

2. 具有较强的泛化能力

SVM 算法采用结构风险最小化原则进行模型选择，即在保证训练误差最小的同时，尽可能地减小泛化误差。这种原则能够有效地避免过拟合现象的发生，使得 SVM 算法具有较强的泛化能力。

3. 适用于小样本数据

由于 SVM 算法采用间隔最大化原则进行分类，因此其分类效果不仅与训练样本的数量有关，还与训练样本的分布情况有关。当训练样本数量较小时，SVM算法能够更好地处理数据分布不均匀的情况。

4. 可以处理非线性问题

SVM 算法通过核函数的选择，可以将非线性问题转化为线性问题进行处理。例如，通过选择高斯核函数，可以将数据映射到无限维空间中，从而实现对非线性问题的分类。

5. 具有较好的鲁棒性和可解释性

SVM 算法对异常点的鲁棒性较好，可以有效地避免异常点对分类结果的影响。此外， SVM 算法的分类结果具有较好的可解释性，能够清晰地描述不同类别之间的区别。

缺点

1. 对参数的敏感性

SVM 算法中存在多个参数需要进行调节，例如核函数的选择、正则化参数的选择等。这些参数的选择对分类结果有较大的影响，需要进行反复试验和调整。如果参数选择不当，可能会导致分类效果较差。

2. 计算复杂度高

SVM 算法的计算复杂度较高，尤其是对于大规模数据集和高维数据集，计算时间和计算空间都会很大。此外， SVM 算法的训练过程需要多次迭代，也会增加计算的复杂度。

3. 对数据的缩放敏感

SVM 算法对数据的缩放敏感，如果数据没有进行归一化处理，可能会导致分类结果的偏差。

4. 对噪声数据敏感

SVM 算法对噪声数据敏感，如果数据中存在噪声数据，可能会导致分类结果的偏差。因此，在使用SVM 算法进行分类之前，需要对数据进行预处理，去除噪声数据。

5. 仅适用于二分类问题

SVM 算法仅适用于二分类问题，对于多分类问题需要进行多次二分类处理。此外，对于不平衡的数据集， SVM 算法可能会出现分类偏差的问题。

(二十一)K-means 算法实现原理？

参考答案：

K-means 是一种常用的聚类方法，它将数据划分为 K 个相似的簇，其中每个簇的中心为该簇内所有数据点的均值。以下是 K-means 的基本原理和步骤：

原理： K-means 基于一个简单的想法：相似的数据点应该在空间中彼此靠近，并且可以通过计算每个点到各个簇中心的距离来找到这些点的簇标签。

步骤：

初始化：首先选择 K 个数据点作为初始的簇中心。这可以是随机选择，也可以是使用某种启发式方法。

分配数据点：对于数据集中的每一个数据点，计算其到 K 个中心的距离，并将其分配到距离最近的中心所在的簇。

更新簇中心：对于每一个簇，计算簇中所有数据点的均值，将均值作为新的簇中心。

收敛判断：比较新的簇中心与上一次迭代的簇中心，如果簇中心没有（或只有微小的）变化，算法结束。否则，返回第 2 步。

结束：当簇中心不再变化或达到预定的迭代次数时，算法结束。

需要注意的是，K-means 的结果可能会受到初始中心的影响，导致局部最优。为了获得更好的聚类结果，通常会多次运行算法，每次使用不同的初始中心，然后选择最好的结果。

(二十二)应用案例： K-means 算法对用户分层？

参考答案：

RFM 模型是衡量客户价值和客户创利能力的重要工具和手段。根据美国数据库营销研究所 Arthur Hughes 的研究，最近一次消费时间间隔（Recency），消费频率（Frequency），消费金额（Monetary），这三个要素构成了数据分析最好的指标，通过这 3 个指标对用户进行分类，根据不同类别的用户进行精准营销。