我入行那会最烦的就是这三个词混着用。媒体张口闭口"AI 颠覆世界",面试官问"你做过机器学习吗",论文标题里全是 Deep Learning。懵了很久才理清楚。

AI 不是什么神秘黑科技,这三个词的关系也没那么复杂。

先说 AI

AI 是一个目标,不是一个技术。

2026 年了,大家对 AI 的想象基本被 ChatGPT 焊死了——觉得 AI 就是一个对话框,问啥答啥。实际上 AI 这个概念 1956 年就有了,达特茅斯会议上几个科学家(麦卡锡、明斯基、香农、罗切斯特)聚在一起开了一个夏天的会,首次提出了"Artificial Intelligence"这个词。他们的愿景很简单:让机器表现出智能行为。

至于怎么实现,他们自己也不知道。

后来的几十年,出现了好几条路线。一条是符号主义(Symbolic AI)——把人类知识写成逻辑规则,让机器推理。比如"所有鸟都会飞,企鹅是鸟,所以企鹅会飞。" 运行一下,发现结论错了,于是补一嘴"但企鹅不会飞"。这条路线碰到了一个无法绕开的墙——世界上的常识太多了,你写不完。另一个致命问题是,人自己都说不清很多判断是怎么做的:你一眼认出一只猫,你能用规则解释一下你是怎么做到的吗?

另一条路线是连接主义(Connectionism)——用简单的计算单元模仿大脑神经元。这个想法 1943 年就有了(McCulloch-Pitts 神经元模型),但受限于算力和数据,一直被符号主义压着打。直到 2012 年,AlexNet 在 ImageNet 图像识别比赛上把错误率从 26% 直接砸到 16%,深度学习开始全面爆发。因为 GPU 有了,数据有了,以前跑不动的模型现在能跑了。

这就是 AI 的简史。三次浪潮:第一次用规则(50 年代到 80 年代),第二次用统计(90 年代到 2000 年出头),第三次用深度神经网络(2012 至今)。每次失败的原因不一样,但每次崛起的动力都是同一个:某个方法在某件事情上效果碾压了之前所有办法。

所以 AI 不是什么新概念,六十多岁了。只是最近十年才变得"能用"。

再说机器学习

机器学习是 AI 的一种实现方式。

传统的编程是什么样的?你写规则,计算机执行。

输入 → [人类写的规则] → 输出

比如你要做个垃圾邮件过滤器。传统做法:写几百条规则——“标题含’中奖’→ 垃圾”、“发件人是陌生地址且正文含链接 → 垃圾”、“正文全部大写 → 垃圾”。规则多了互相打架,漏一个垃圾邮件就得再加一条规则,永无止境。

机器学习的做法:

输入 + 正确答案 → [机器自己找规律] → 模型

你收集 10 万封邮件,每封标注好"垃圾"或"正常",丢给机器。机器自己会找出规律。它找出的规律不是人类可读的 if-else 规则,而是一堆数字(权重)。下次来一封新邮件,它跑一遍计算,输出一个结论。

机器学习本质上做的是拟合。你有一堆数据点,想找一条曲线尽量穿过它们。这条曲线不是人画的,是"学"出来的。

机器学习有三条路

这个不是废话,入门的时候知道这三种范式能帮你快速识别一个问题是哪类问题。

监督学习(Supervised Learning)

每条训练数据都有标签。给你照片,告诉你"这张是猫"、“这张不是猫”。你拿这些标注好的数据训练模型。

这是工业界最常用的一类。回归问题(预测房价)和分类问题(猫狗识别)都在这里面。

无监督学习(Unsupervised Learning)

数据没有标签,让模型自己去找结构。最常见的应用是聚类:一堆用户行为数据,模型自己把用户分成几类——“高消费低频次”、“低消费高频次”、“只看不买”——你不预先告诉它分几类、每类是什么,它自己发现的。

还有一个近年很火的应用:自监督学习。把一张图随机遮掉一块,让模型去补全;把一句话的后半段遮掉,让模型去预测。GPT 预训练阶段做的本质上就是这件事——用海量无标注文本自己学语言规律。这个思路现在是大模型的基础。

强化学习(Reinforcement Learning)

不给正确答案,给奖励信号。做得好了给糖吃,做砸了扣分,模型自己去试各种策略。

AlphaGo 就是这么练的。没有人告诉它"第 37 手应该下这里",它自己跟自己下了几千万盘棋,赢了加一分,输了扣一分,最后学会了。ChatGPT 训练里也用了一部分强化学习(RLHF,人类反馈强化学习),让人给模型的回答打分,然后用这个分数去调模型。

三种范式不是互斥的,现在前沿的方法经常混着用。

深度学习又是什么

深度学习是机器学习的一个子集,用的是多层神经网络。

"深"就是层数多。2012 年的 AlexNet 也就 8 层,现在的大模型动辄上百层。

传统机器学习有个痛点:你得先手工从原始数据里提取特征。原始数据(图片像素、语音波形、文本字符)直接丢给传统 ML 模型效果很差,必须有人先"翻译"一遍。

比如做手写数字识别,你得先写代码把一张 28x28 的图处理成"轮廓有多圆"、“笔画走向”、"连通域个数"这种特征向量。这些特征设计得好不好直接决定了最终效果,而设计特征是门手艺活——要靠领域知识,靠经验,靠运气。

深度学习的革命性就在这:你把原始像素丢进去就行了。前面几层自己学会识别边缘和纹理,中间层学会组合成形状和部件,后面层学会认整个物体。没有一个工程师在设计"猫的耳朵应该是什么形状的纹理",全是网络自己从数据里学出来的。

语音识别同理。以前要手工做 MFCC(梅尔倒谱系数)特征,现在端到端的深度模型直接从波形出文字。

这个特性叫表征学习(Representation Learning),是深度学习把传统方法按在地上摩擦的根本原因。

一个不学术但管用的类比

AI = 把车从一个地方开到另一个地方(目标)。

传统编程 = 在轨道上跑(规则全写好了)。

机器学习 = 让它自己学开车,你在副驾驶告诉它对还是错(有标注数据)。

深度学习 = 给它看几百万小时的开车视频,它自己悟出来方向盘和车轮的关系(不用你设计特征)。

这玩意现在能干什么、不能干什么

媒体吹的:AI 要取代人类了、AI 有意识了、3 年后程序员失业。

实际情况:

能干的:大规模数据处理(人脸识别、语音转文字、搜索排序)、模式识别(医学影像筛查、缺陷检测)、内容生成(写文案、翻译、代码补全)——特点是训练数据量大、任务边界清晰、不需要真正的"理解"和"推理"。

不能干的:真正的因果推理(为什么 A 导致 B)、开放世界的常识判断、知道自己不知道(模型对于不懂的东西倾向于编一个看起来合理的答案,而不是说"我不确定")。

记住一句话:现在的 AI 是极其强大的模式匹配器,不是会思考的东西。

那个著名的"AI 会写诗但不会系鞋带"说的也是这个道理——它见过几十亿行文本,见过无数写诗的模式,但它没见过"系鞋带"的数据。AI 的能力边界被训练数据框死了。

收一下

AI 是目标,机器学习是方法,深度学习是当前最好用的那把工具。

  • 机器学习是 AI 的子集,但不是唯一的子集(还有基于规则的系统、专家系统)
  • 深度学习是机器学习的子集,但不是唯一的子集(还有决策树、支持向量机、贝叶斯方法等等)
  • 你每天用到的 AI 产品,背后的算法大概率是深度学习

下一篇我们把深度学习拆开,看看一个"神经元"到底在算什么。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐