告别碎片化:一篇文章建立AI的全局认知地图|AI原理到工程化应用·系列开篇
摘要:本文从AI发展史的五次范式变迁出发,结合Rich Sutton的《The Bitter Lesson》与Scaling Laws,系统梳理了深度学习、神经网络、大模型涌现的核心原理。涵盖神经网络内部机制(加权求和、激活函数、反向传播)、特征可视化与涌现机制,以及AI的能力边界判断框架。面向非算法背景的开发者,不依赖数学公式,建立完整的AI全局认知地图。
阅读约需:15分钟 | 适合人群:对AI有好奇心、厌倦碎片化信息、想系统理解AI原理与工程化应用的非算法人员
你可能有过这样的感受——
每天被AI新闻轰炸:今天GPT又升级了,明天某个大模型又刷新了榜单。你也用过ChatGPT、用过各种AI工具,感觉它们确实很厉害。但当别人问你"AI到底是怎么工作的",你发现自己说不清楚。
三种困境,你可能至少中了一种:
- 碎片化:刷了无数AI文章,看完每篇都懂,合上手机却拼不出一张完整的图
- 只知其用不知其理:会用ChatGPT写文案,但不知道它为什么能"说话"——同样是由0和1组成的程序,为什么Word只能排版,ChatGPT却能写诗?
- 底层原理劝退:想系统学一下,打开教材就是矩阵求导和偏微分方程——对非算法背景的人来说,这几乎等于在说"别学了"
我试着抛开那些劝退的数学公式,去拼凑一张真正能落地的"全局地图"。是否存在一条学习路径——不需要啃数学公式,不需要算法背景,但能真正理解AI的工作原理、知道它为什么有效、清楚它的能力边界、甚至能把它应用到实际工程中去?
这是我开启这个「从原理到工程化」系统学习计划的出发点。我会用通俗的语言梳理AI的核心原理,关注工程化应用,探讨AI的能力边界和发展前景。
这篇文章是整个系列的开篇——我们先建立一张AI的全局认知地图。
💡 提示:本文信息量较大,建议收藏后阅读。
本文脉络
- AI发展简史:五次范式变迁
- The Bitter Lesson 与 Scaling Laws
- 深度学习与AI、机器学习的关系
- 神经网络内部机制
- 特征可视化与涌现机制
- AI的能力边界
- 核心备忘卡
- 回顾与思考
一、AI发展简史:五次范式变迁,每次为什么赢了又输了?
理解AI,最好的起点不是公式,而是历史。每一次"胜利"都解决了一个核心瓶颈,每一次"失败"又暴露了新的天花板。看懂这段历史,AI的脉络就清晰了。
范式变迁全景
1956 ─ 符号AI ──────────────── 赢:逻辑推理能力突破
│ 输:无法处理模糊、不确定的现实世界
↓
1980 ─ 专家系统 ────────────── 赢:知识工程化,特定领域超越人类
│ 输:知识爆炸,规则无法穷尽,无法泛化
↓
1990 ─ 传统机器学习 ─────────── 赢:数据驱动,概率建模,处理不确定性
│ 输:严重依赖人工特征工程,天花板明显
↓
2012 ─ 深度学习 ────────────── 赢:端到端学习,自动特征提取,可规模化
│ 输:数据饥渴,黑盒不可解释
↓
2020 ─ 大模型 ──────────────── 进行中:规模涌现,通用能力
挑战:可靠性、成本、推理能力、对齐
符号AI时代(1956-1980s):逻辑的胜利与局限
AI的起点,是逻辑。
早期研究者相信,智能的核心是符号推理——像数学证明一样,从公理出发,推导结论。“如果所有人都会死,苏格拉底是人,那么苏格拉底会死。”
这套方法在下棋、定理证明上确实赢了。
但现实世界,不是靠逻辑能穷尽的。你想用规则描述"照片里有没有猫"?你得定义猫的耳朵形状、毛发纹理、各种姿势、光线条件……写不完的。
说个我自己的血泪史。2018年我还在写传统后端,为了做一个"用户风险识别"模块,我硬写了200多条if-else规则——“如果登录IP异地扣2分”、“如果短时间内注册3个账号扣5分”。维护到第3个月,规则互相矛盾,改一条崩三条,最后整个模块推翻重写。那一刻我才真正理解,为什么符号AI走不通。
逻辑赢了,但世界不是逻辑能穷尽的。
专家系统时代(1980s):知识的力量与诅咒
到了80年代,研究者换了一个思路:与其让AI自己做逻辑推理,不如把人类专家的知识直接编码进去。医疗诊断系统、地质勘探系统、工业控制——一时间专家系统遍地开花。
但这些系统很快撞上了一堵墙:知识获取瓶颈。
每一条规则都需要专家手工编写,而真实世界的规则数量远超任何专家的认知。更致命的是,专家系统无法泛化——一个血液病诊断系统对皮肤病一无所知,连"借鉴"的能力都没有。
知识够用,但泛化不行——换个领域就从零开始。
传统机器学习时代(1990s-2010s):数据说话了
这次转变是根本性的:不写规则了,让数据说话。
支持向量机(SVM)、随机森林、梯度提升机(GBM)——这些方法不再需要手工编码规则,而是从数据中自动学习分类边界。朴素贝叶斯做垃圾邮件过滤,隐马尔可夫模型做语音识别。Kaggle竞赛里,XGBoost统治了表格数据。
但传统机器学习有一个致命短板:它仍然依赖人工设计的"特征"。
什么是特征?就是你对原始数据做的预处理——对于房价预测,你可能选"面积"、“卧室数量”、"地段评分"作为特征。选什么特征、怎么组合,全靠人的经验。
我以前做传统后端开发时,最怕的就是和数据科学家对接口——他们调参像玄学,我写死规则像搬砖。这就是传统ML的痛点:特征工程决定了模型的上限,也成了传统机器学习的玻璃天花板。
数据驱动确实管用,可特征工程的天花板也很快到头了。
深度学习时代(2012-2020):让网络自己找特征
2012年,AlexNet在ImageNet图像识别比赛中以压倒性优势夺冠——错误率比第二名低了近一半。这个结果在当时非常震撼。
深度学习的核心突破就一句话:网络自动学习特征,而不是人来设计特征。 给网络原始像素,它自己学会第一层检测边缘、第二层检测纹理、第三层检测部件、更高层检测完整物体。人不需要告诉网络"猫有尖耳朵"——网络自己从几百万张图片中归纳出这个模式。
这个自动化特征提取的能力,让深度学习在图像、语音、文本等非结构化数据上取得了革命性的突破。但它也有短板:需要海量标注数据,模型像黑盒难以解释,训练成本高昂。
自动化是做到了,可解释性却丢了。
深度强化学习——深度学习时代的另一条线索值得一提。在同一时期(2013-2017),强化学习与深度学习结合产生了Deep RL。
如果说深度学习擅长"认识世界"(这是什么?),强化学习则擅长"在世界上行动"(该怎么做?)。
2013年DQN用深度网络玩Atari游戏,2016年AlphaGo击败李世石——这些靠的不是标注数据,而是"试错+奖励"的自学习。
更重要的是,Deep RL的思想后来被用到LLM的RLHF(基于人类反馈的强化学习,详见第三节)中,让ChatGPT从"文本预测器"变成了"遵循指令的助手"。
这并非独立的范式,而是深度学习时代在"决策"和"对齐"方向上的延伸。
大模型时代(2020-至今):量变到质变
当深度神经网络的参数从数百万膨胀到数千亿,当训练数据从ImageNet扩展到整个互联网文本,一个意想不到的现象出现了:
模型不仅在做"被训练做的事",还涌现出了训练目标之外的能力。 这谁也没预料到。
GPT-3、GPT-4、Claude、Gemini——这些大语言模型展现出了翻译、推理、代码生成、创意写作等通用能力。它们不再是为单一任务设计的专用系统,而是具有广泛适用性的"基础模型"。
这就是涌现(Emergence):当规模超过某个临界点,系统出现了小规模时不存在的能力。就像一个水分子没有"潮湿"属性,但足够多的水分子聚集在一起,"潮湿"就涌现出来了。
挑战也随之而来:模型会产生幻觉(自信地说出错误信息),推理能力有限,训练和部署成本极高,价值观对齐也远未解决。
通用性有了,规模涌现也来了——但可靠性、成本和可控性,眼下还远没解决。
二、从历史到启示:The Bitter Lesson 与 Scaling Laws
五次范式变迁背后,藏着一个反复出现的规律。
Rich Sutton在2019年用一篇不到两页的短文《The Bitter Lesson》精准地概括了这个规律——如今引用量已超过很多顶会论文。
The Bitter Lesson:一个反复被验证的规律
Sutton的核心论点一句话就能说完:
在AI发展史上,利用大规模算力的通用方法(搜索 + 学习),最终总是碾压依赖人类领域知识的手工设计方法。
前面五次范式变迁,说到底都是同一个剧本的重演:人精心设计的规则被更通用的、依赖算力和数据的方法所取代。国际象棋如此,围棋如此,语音识别如此,计算机视觉也如此。
Sutton称之为"苦涩",是因为这个教训对AI研究者来说实在太残酷了:
“Seeking an improvement in performance by making systems that think the way we think is a tempting but counterproductive path.”
试图通过让系统像人类一样思考来提升性能——这条路很诱人,但适得其反。
AI研究者最自然的冲动,就是把自己对世界的理解编码进系统。短期内有效,让人很有成就感。但长期来看,这些手工知识会让系统越来越复杂、越来越僵硬,最终成为进步的阻碍而非助力。
他总结到,只有两种方法被证明能持续利用算力增长:
“The two methods that seem to scale arbitrarily in this way are search and learning.”
能随计算规模无限扩展的两种方法是:搜索和学习。
- 搜索——在可能性空间中寻找最优解(如深度学习中的搜索、蒙特卡洛树搜索)
- 学习——从数据中自动提取模式和表示(如监督学习、强化学习)
“The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.”
70年AI研究最大的教训是:利用计算的通用方法,最终总是最有效的,而且优势巨大。
拓展思考:Scaling Laws——越大真的越好吗?
如果说The Bitter Lesson是定性观察,那Kaplan等人在2020年发表的《Scaling Laws for Neural Language Models》就是定量验证。
他们发现了一个精确的幂律关系:模型的性能随着参数量、数据量、计算量的增加,按照可预测的幂律曲线持续提升。
说白了就是:在目前的架构范式下,砸更多算力和数据是"可预期"能提升性能的,而不是碰运气。
但这也引出了一个更深层的问题——
通用方法 + 有限算力,能否通向AGI?
The Bitter Lesson和Scaling Laws揭示了一个重要规律:在给定范式下,放大规模可以持续产生收益。
但没回答——也回答不了的是:这条路是否有尽头?
当前主流的AI范式——基于Transformer的自回归预测模型——有它的结构性局限:
- 更准确地说,它就是一个"下一个token预测器",没有真正的规划和推理能力
- 依赖海量训练数据,无法像人类一样从少量样本中学习
- 没有世界模型——没有对物理因果关系的真正理解
- "思考"是一次性前向传播,没有持续迭代的反思过程
Sutton的洞察——通用方法 + 算力碾压专用知识——在狭义AI领域被反复验证。但AGI(通用人工智能)要求的不仅是缩放现有架构,更可能需要算法范式的根本性革新。
Scaling Laws告诉我们更大就会更好,但它没告诉我们"更好"的上限在哪——是通往AGI的康庄大道,还是一条越来越平缓、最终触及平台的渐近线?
目前AI领域对此存在激烈分歧:一派认为继续Scale就能涌现出AGI级智能;另一派认为需要新的架构突破(如世界模型、因果推理、神经符号混合)。
图片来源:Kaplan et al. (2020), “Scaling Laws for Neural Language Models”, Figure 1。展示语言模型测试损失与模型参数量、数据集大小、训练计算量之间的幂律缩放关系。
三、什么是深度学习?它和AI、机器学习是什么关系?
历史告诉我们"深度学习赢了",但它到底是什么?这一节厘清几个基础但也容易混淆的概念。
主要参考Francois Chollet《Deep Learning with Python》第一章——公认的对"深度学习"极为清晰的入门定义。
AI、机器学习、深度学习的关系
这三个词不是同义词,它们有清晰的包含关系:
人工智能 (AI)
└── 机器学习 (ML) —— 从数据中学习规则,而非手工编写规则
└── 深度学习 (DL) —— 用多层神经网络从数据中自动学习"表示"
图示:AI、ML、DL三者的嵌套包含关系。图片来源:Goodfellow, Bengio & Courville, 《Deep Learning》 Figure 1.4(MIT Press, 2016),CC-BY-NC-SA 4.0。
用一句话区分:AI是目标,机器学习是方法,深度学习是当前公认最强的实现工具。
两种编程范式:规则的终结
Chollet在书的第一章用一个精妙的对比,定义了机器学习的核心:
| 经典编程 | 机器学习 | |
|---|---|---|
| 输入 | 规则 + 数据 | 数据 + 期望答案 |
| 输出 | 答案 | 规则(即模型) |
| 逻辑 | 人写规则,机器执行 | 机器从例子中自己归纳规则 |
| 适合 | 逻辑清晰、边界明确的问题 | 模糊、复杂、规则无法穷举的问题 |
说人话:经典编程是你告诉计算机"怎么做",机器学习是你给计算机看大量"例子+答案",让它自己琢磨出"怎么做"。
三种学习范式:监督、无监督与强化学习
| 监督学习 | 无监督学习 | 强化学习 | |
|---|---|---|---|
| 怎么学 | 给标注好的"题目+答案" | 只给数据,没有答案 | 做对了奖励,做错了惩罚 |
| 类比 | 老师带你刷题 | 自己找规律 | 训练宠物——做对给零食 |
| 典型任务 | 图像分类、垃圾邮件识别 | 聚类、降维、生成模型 | 游戏AI、机器人控制 |
| 代表 | CNN做图像分类 | K-Means、GAN | AlphaGo、ChatGPT的RLHF |
强化学习和大语言模型的关系:
- GPT在预训练阶段做的事叫自监督学习——让数据自己出题(“预测下一个token”),答案天然存在于原文中
- 但光会预测下一个词不够:RLHF(基于人类反馈的强化学习)让ChatGPT从"文本补全器"变成了"遵循指令的助手"
- 没有RLHF,ChatGPT就只是一个高级文本补全器
"深度"到底是什么意思?
Chollet的定义非常直白:"深度"指的是网络层数的深度,即连续表示层的数量。
为什么层数这么重要?因为每一层都在学习数据的某种"表示"(representation):
- 浅层:学简单的——边缘、颜色、音素
- 中层:把简单特征组合成复杂特征——纹理、形状、音节
- 深层:把复杂特征组合成抽象概念——“猫的脸”、“一句话的情感倾向”
表示学习:深度学习的灵魂
Chollet全书最核心的概念就是表示(representation):
通俗理解:面对一堆乱糟糟的原始数据,直接处理非常困难。深度学习做的事,就是自动把数据一步步"变换"成更清晰、更容易处理的形式。
举个直观的类比——做菜:
- 原始数据 = 一堆没洗的菜、没切的肉、没调的酱
- 传统ML的人工特征工程 = 你亲自洗菜、切菜、配菜——需要经验和手艺
- 深度学习的表示学习 = 一个自动料理机,你只管把原材料倒进去,它自己完成择、洗、切、炒的全过程
深度学习做的就是"自动找到那个让问题变简单的角度"。
深度学习的三要素
无论多复杂的神经网络,训练过程都由三个要素构成一个循环:
输入 → [神经网络(随机参数)] → 预测结果 → 损失函数 → 反向传播 → 更新参数
- 参数(权重):网络里每个连接的强度,初始是随机值
- 损失函数:衡量"预测结果"和"正确答案"的差距
- 反向传播 + 梯度下降:自动计算"每个参数该往哪个方向调、调多少"
从深度学习到大模型的关键跳板:Transformer——2017年Google提出Transformer架构,其核心"自注意力机制"让网络能同时关注输入中的所有位置。GPT、BERT、Claude等所有主流大模型都基于此架构。详细原理我们后续专文拆解。
四、AI工作原理:神经网络的内部机制
⚠️ 防劝退提示:本节涉及神经网络的底层直觉,但只需要初中数学的"加减乘除"就能看懂。觉得烧脑可以直接跳过,不影响后续阅读。
前面讲了AI的历史和概念。但一个核心问题始终悬在空中:同样的0和1,Word只能排版,为什么ChatGPT就能写诗?
这一节我们从3Blue1Brown的神经网络可视化教程出发,用尽量直观的方式拆解神经网络的内部机制。
神经网络长什么样?
给一张28×28像素的手写数字图片,判断是0-9中的哪个数字。
图示:来自 3Blue1Brown 神经网络课程的经典MNIST网络可视化。
一个神经元就是一个简单的数字容器,存放着一个0到1之间的值(叫"激活值")。
信息怎么从一层流到下一层?
每一层到下一层的传递,做了三件事:
第一步:加权求和
# 伪代码:一个神经元如何计算激活值
weighted_sum = sum(input[i] * weight[i] for i in range(len(input))) + bias # 加权求和+偏置
output = activation_function(weighted_sum) # 激活函数:ReLU=max(0,x),引入非线性
- 权重(Weight):表示"上一层这个神经元对当前神经元有多重要"
- 正权重 = “支持的证据”,负权重 = “反对的证据”
通俗类比:想象你要决定"今天要不要出门"。你会考虑多个因素——"天气好不好"权重高,“快递到了没"权重低。权重就描述了这种"不一样的影响力”。
第二步:加偏置
- 偏置(Bias) 是一个阈值——“这个神经元有多容易被激活”
- 偏置越高,神经元越容易被激活——偏置相当于"起跑线"
通俗类比:偏置就像一个"门槛的高低"。门槛越低,轻轻一迈就过去了。
第三步:过激活函数
- 最常用的ReLU函数非常简单:
max(0, x)——负数一律变0,正数保持原样 - 为什么需要激活函数?因为如果没有非线性变换,100层网络叠起来也只能做线性变换,等于一层。
层的工作原理:逐层抽象
假设网络要识别"9":
第一层隐藏层 → "横线检测器"
第二层隐藏层 → "9检测器"(圈圈检测器 + 竖线检测器)
输出层 → "这是9的置信度"
核心理解:没有一个神经元"知道"什么是9。但通过分工协作 + 逐层组合——底层检测边缘,中层组合成部件,高层组合成完整数字——整个网络表现出了"识别数字"的能力。
权重和偏置从哪来?训练过程简述
# 训练循环的伪代码:神经网络如何从数据中学习
for epoch in range(num_epochs): # 重复训练多轮
prediction = neural_network(inputs) # 前向传播:输入→预测输出
loss = loss_function(prediction, ground_truth) # 计算损失:预测与真实值的差距
gradients = backpropagate(loss) # 反向传播:计算每个参数的梯度
update_parameters(gradients, learning_rate) # 梯度下降:沿梯度方向微调参数
- 初始状态:随机——所有权重和偏置都是随机数
- 计算差距:用损失函数算出"差了多少"
- 反向传播:逐层计算"每个参数对差距负了多少责任"
- 梯度下降:把每个参数往"减小差距"的方向微调一小步
- 反复循环:重复几万到几百万次
第一次跑通反向传播代码那天,我盯着loss曲线下降了0.001,非常激动——虽然0.001看起来微不足道,但那一刻我真切地感觉到:机器在"学习"。
文本和语音识别也是同样的原理——只是"逐层抽象"的对象不同:
- 图像:像素 → 边缘 → 纹理 → 部件 → 完整物体
- 语音:声波 → 音素 → 音节 → 单词 → 语句含义
- 文本:字符 → 词片 → 短语 → 句子语义 → 段落主旨
五、从0和1到智能涌现:特征可视化与涌现机制
🎯 恭喜闯过原理关! 本节更轻松——我们用肉眼可见的图片回答:这些简单操作的叠加,真的能产生"智能"吗?
Chris Olah:站在网络中间看它看到了什么
Olah是Anthropic的联合创始人,他开发了特征可视化技术,直接"看到"神经网络的每一层在关注什么。
| 网络层级 | 检测的内容 | 类比 |
|---|---|---|
| 浅层 | 边缘方向、颜色对比、简单纹理 | 视觉的"字母" |
| 中层 | 图案组合:纽扣、狗耳朵、车轮 | 视觉的"单词" |
| 深层 | 完整概念:人脸、动物种类 | 视觉的"句子" |
从0和1到涌现:量变如何引发质变?
核心答案:不是0和1本身变了,是0和1的组织方式和规模发生了质变。
第一跳:从"人写规则"到"机器学规则"
0/1 → 逻辑门 → 传统软件 → 深度神经网络
(AND/OR) (精确执行 (让机器自己从
人的规则) 数据中学规则)
第二跳:从"小规模"到"超大规模"
小模型 → 大模型 → 涌现
(百万参数) (千亿到万亿参数) (量变引发质变)
关键洞察:涌现不是魔法,它是规模积累越过临界点后的自然结果。
图示:GoogLeNet各层神经元响应的特征可视化。图片来源:Olah et al. (2017) Feature Visualization, Distill(CC-BY-4.0许可)。
六、AI的能力边界:能做什么,不能做什么?
这是Andrew Ng《AI for Everyone》课程的核心议题,同时参考了Chollet在《On the Measure of Intelligence》中的批判性分析。
ANI vs AGI
| ANI(狭义人工智能) | AGI(通用人工智能) | |
|---|---|---|
| 定义 | 只做一件特定任务很厉害 | 能做任何人类能做的事 |
| 现状 | 所有今天的AI都是ANI | 不存在,且没有明确的时间表 |
今天所有让你惊叹的AI——ChatGPT、Midjourney、自动驾驶——全都是ANI。
“1秒规则”
当前AI最擅长做人类用不到1秒思考就能完成的任务。
✅ AI擅长: 模式识别型任务、有大量标注数据的任务、允许一定误差率的任务
❌ AI不擅长: 深度因果推理、常识理解、少样本学习、持续规划和适应、真正的创造力
AI自动化的是任务(task),不是工作(job)。
Chollet的批判视角
当前AI系统的"智能"和人类的"智能"可能根本不是一回事。
| 技能(Skill) | 智能(Intelligence) | |
|---|---|---|
| 当前AI | 极强 | 极弱——离开训练分布就退化 |
| 人类 | 需要训练 | 天生——举一反三、触类旁通 |
当前AI发展模式能否通向AGI?
当前范式的根本限制:
- 自回归预测的根本局限:在做相关性学习而非因果性理解
- 没有持续学习能力:训练完成后参数就固化了
- 缺乏世界模型:没有对物理因果关系的真正建模
- 不具备真正的推理和规划
主流AI科学家对此的态度分歧:
- Sam Altman(OpenAI):相信Scaling路径能通向AGI
- Yann LeCun(Meta):明确认为自回归LLM不是正确路径,需要世界模型
- Ilya Sutskever(Safe Superintelligence):认为当前范式有上限
关于意识:当前AI系统不具备意识,且在当前范式下不会产生意识。
当前的核心判断:AI很强但有其结构性局限。它是工具,不是生命。
七、核心备忘卡:AI为什么有效?
| 一句话 | 背后的原理 | |
|---|---|---|
| 1 | 一切智能任务说到底都是"函数" | AI做的事就是逼近非常复杂的函数 |
| 2 | 多层简单变换叠加 = 非常复杂的函数 | 100层×万级神经元的累积复杂度远超人工设计 |
| 3 | 规模积累到临界点,质变自然涌现 | 算力×数据×算法 → 参数越过临界点 → 新能力涌现 |
| 4 | AI擅长模式匹配,不擅长理解和推理 | 数据丰富+模式稳定 = 落地;因果推理+常识 = 仍有限 |
| 5 | 神经网络不是黑盒魔法 | 浅层→边缘,中层→纹理,高层→物体 |
八、回顾与思考
- 五次范式变迁的驱动力:越来越体现"算力驱动方法替代手工设计"的规律
- Sutton的苦涩教训:通用方法+算力终将胜过领域知识——你的问题有多复杂?
- AI的"理解"是真正的理解吗? 如果输出和人类专家没有区别,界限还重要吗?
- 能力边界:能落地 = 模式识别 + 大量数据 + 允许误差;被夸大 = 替代深度理解工作
- 非算法人员的学习路径:建立认知地图 → 理解基本原理 → 用AI工具解决实际问题 → 深入特定方向
📢 系列持续更新中:本系列「AI从原理到工程化」会持续更新。
参考资料(均可免费阅读):
- Rich Sutton, 《The Bitter Lesson》 (2019)
- Francois Chollet, 《Deep Learning with Python》 (Manning, 2nd Edition)
- 3Blue1Brown, Neural Networks Series
- Kaplan et al., 《Scaling Laws for Neural Language Models》 (arXiv, 2020)
- Chollet, 《On the Measure of Intelligence》 (arXiv, 2019)
- Andrew Ng, 《AI for Everyone》 (Coursera)
- Goodfellow et al., 《Deep Learning》 (MIT Press, 2016)
- Olah et al., 《Feature Visualization》 (Distill, 2017)
- Vaswani et al., 《Attention Is All You Need》 (arXiv, 2017)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)