课程导入

2012年,在澳大利亚悉尼举行的一场计算机视觉比赛,吸引了全世界的目光。

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)是计算机视觉领域最具影响力的比赛之一。参赛者需要训练能够识别图片中物体的模型,参赛队伍包括来自世界各地顶尖大学的实验室和科技公司的研究团队。

在之前的比赛中,最好的成绩错误率约为26%,这意味着每四张图片就有一张识别错误。这个错误率虽然看起来不低,但已经是非常艰难的任务了,因为 ImageNet 包含了上万种不同的物体类别。

然而,这一年,一个来自多伦多大学的团队,以一种革命性的方法,以15.3%的错误率一举夺魁。更令人震惊的是,他们的错误率比第二名低了将近10个百分点——这是一个巨大的差距,在计算机视觉比赛中是前所未有的。

这个团队的方法叫做 AlexNet,它的核心是一种叫做“深度神经网络”的技术。

这场比赛,标志着深度学习革命的开始。

课程目标

  • 理解深度学习的基本概念和核心思想
  • 掌握神经网络的基本结构和训练方法
  • 了解卷积神经网络(CNN)的工作原理
  • 认识深度学习为什么能够引发革命

核心内容

一、神经网络的生物灵感

要理解深度学习,我们首先要理解什么是神经网络。

虽然名字里有“神经”两个字,但现代的神经网络并不是对人脑神经系统的精确模拟,而是一种受到生物学启发的数学模型。

让我们先来看看人脑是如何处理信息的。

人脑大约有860亿个神经元,每个神经元通过突触与其他神经元相连。当一个神经元接收到足够强烈的信号时,它就会被“激活”,向其他神经元发送信号。这种“激活-传递”的模式层层传递,就形成了我们的大脑活动。

1943年,科学家沃伦·麦卡洛克和沃尔特·皮茨提出了一个人工神经元的数学模型,这就是著名的“MCP神经元”。这个模型非常简单:它接收多个输入,对每个输入乘以一个权重,然后求和,最后通过一个激活函数产生输出。

虽然这个模型非常简单,但它揭示了一个重要的原理:复杂的智能可以从简单的单元通过大量的连接来实现。

二、从感知机到多层神经网络

1960年代,弗兰克·罗森blatt提出了感知机(Perceptron),这是最简单的人工神经网络。

感知机接收多个输入,对每个输入乘以权重,求和,然后通过一个激活函数输出结果。如果输出超过某个阈值,感知机就输出1,否则输出0。

感知机虽然简单,但它能够解决线性可分的问题。例如,它能够学会区分苹果和橙子——只要找到一个可以把两者分开的平面就可以了。

然而,1969年,马文·明斯基和西蒙·派珀特在一本著名的书中证明了一个令人沮丧的结论:感知机无法解决异或(XOR)问题。异或问题的意思是:当两个输入相同时输出0,不同时输出1。

这个发现让神经网络的研究陷入了低谷将近二十年。

直到1986年,大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯提出了反向传播(Backpropagation)算法,这个问题才得到解决。

反向传播算法的核心思想是:当我们知道正确答案时,可以计算输出与正确答案之间的误差,然后把这个误差反向传播到网络的每一层,调整每个连接的权重,使得误差减小。

通过反向传播,我们可以训练多层神经网络(也叫做“深度神经网络”),让它们学习复杂的非线性关系。

三、卷积神经网络:视觉的革命

虽然多层神经网络能够学习复杂的非线性关系,但在处理图像时,它有一个致命的缺点:需要把图像展开成向量,这会丢失空间信息。

1998年,杨·勒昆提出了 LeNet-5,这是一个专门用于识别手写数字的卷积神经网络。

卷积神经网络(CNN)的核心思想是利用图像的空间结构。它通过一系列的卷积层和池化层,逐层提取越来越抽象的特征。

卷积层:想象一下,你用一个放大镜在图像上移动,每移动到一个位置,你就计算这个区域内图像的特征。这个“放大镜”叫做卷积核,它的参数是可以通过学习得到的。

池化层:对卷积结果进行降采样,减少数据量,同时保持主要的特征信息。

全连接层:在提取了足够的特征之后,使用全连接层进行分类。

CNN 在图像识别领域取得了巨大的成功。从 2012 年的 AlexNet 开始,CNN 在 ImageNet 比赛中的错误率持续下降,到 2015 年,错误率已经降到了 3.6%,甚至超过了人类的识别准确率。

四、为什么是现在?深度学习的三大支柱

深度学习的概念其实早在1980年代就出现了,但为什么直到2012年才突然爆发呢?

这是因为深度学习的成功需要三个条件的支撑:

大数据:深度学习需要大量的训练数据。互联网的飞速发展产生了海量的图片、文本、语音数据,为深度学习提供了充足的“养料”。

强算力:训练深度神经网络需要大量的计算资源。GPU(图形处理器)的并行计算能力正好适合深度学习的训练需求。2012年后,更强大的GPU被广泛应用于深度学习训练,使得训练时间从原来的数周缩短到数天甚至数小时。

新算法:除了反向传播之外,研究者们还发展出了许多新的技术,如 Dropout、Batch Normalization、ReLU 激活函数等,这些技术让深度神经网络的训练更加稳定和高效。

这三大支柱的结合,让深度学习焕发出了前所未有的生命力。

五、深度学习的应用领域

深度学习的崛起,带来了人工智能在各个领域的突破:

计算机视觉:图像识别、目标检测、图像分割、人脸识别、自动驾驶

自然语言处理:机器翻译、文本分类、情感分析、问答系统、聊天机器人

语音识别:语音转文字、语音合成、声纹识别

医疗:疾病诊断、医学影像分析、药物研发

艺术:AI 绘画、AI 音乐创作、AI 写作

六、深度学习的局限性

尽管深度学习取得了巨大的成功,但它并不是万能的。

数据依赖:深度学习需要大量的标注数据,而获取高质量标注数据往往需要大量的人力和时间。

可解释性:深度神经网络是一个“黑箱”,我们很难理解它为什么会做出某个决策。这在医疗、金融等需要可解释性的领域是一个大问题。

对抗样本:通过对输入进行微小的、人类难以察觉的修改,就可以让深度神经网络产生完全错误的输出。这是一个潜在的安全隐患。

泛化能力:深度神经网络容易过拟合,在训练数据上表现很好,但在新数据上可能表现不佳。

知识点总结

  1. 神经网络:受生物学启发的数学模型,由大量的“神经元”通过连接组成
  2. 反向传播:训练多层神经网络的核心算法,通过误差反向传播调整权重
  3. 卷积神经网络(CNN):专门用于处理图像的神经网络结构
  4. 深度学习三大支柱:大数据、强算力、新算法

课后思考

  1. 深度学习和传统的机器学习有什么本质区别?它们各适合什么场景?
  2. 为什么深度学习需要大量的数据和计算资源?这对其应用有什么影响?
  3. 深度学习的可解释性问题会带来哪些挑战?如何解决这个问题?

结束语

深度学习的崛起,是人工智能发展史上的一个重要里程碑。它证明了即使不使用人工设计的特征,仅通过端到端的学习,机器也能够达到甚至超越人类的水平。

然而,深度学习也有它的局限性。它对大数据和强算力的依赖,以及可解释性差的问题,限制了它的进一步发展。

那么,有没有一种更好的方法,能够克服这些局限性?

答案是:也许我们需要一种全新的架构。

在下一章中,我们将看到一种革命性的新架构——Transformer,是如何彻底改变自然语言处理,甚至整个人工智能领域的。

感谢观看,我们下期再见!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐