深度学习的数学工程:不用代码就能看懂深度学习本质的数学手册
在过去数年里,深度学习发展迅猛,甚至被赞誉为“新电力”。这一领域在自动化应用与预测任务方面成绩斐然。深度学习模型本质上依托数学构建,因此,要想掌握深度学习,就必须理解模型背后的数学原理。
市面上诸多深度学习的学习资源大多侧重于编程, 同时尽可能淡化数学知识。还有一些资源聚焦于理论成果,却未对该领域的专业术语加以辨析。
想要纯粹钻研深度学习数学内核,《深度学习的数学工程:模型背后的数学原理》 会是理想选择。这本书被称为 “不用代码就能看懂深度学习本质的数学手册”。本书摒弃冗余内容,聚焦核心原理与前沿内容,引导读者读懂深度学习的本质。
《深度学习的数学工程:模型背后的数学原理》

- 零编程门槛:聚焦深度学习的数学本质,不依赖任何编程知识,适合AI行业工程、物理、数学等领域的读者,快速掌握神经网络、扩散模型等核心原理,实现真正的“跨学科贯通”。
- 体系化学习路径:涵盖当下热门的扩散模型、生成对抗网络、强化学习、图神经网络等前沿内容,既可按章节顺序逐层深入,也可按需跳转查阅特定模型,符合读者的阅读习惯。
除了数学,深度学习的实现当然离不开优质的软件、硬件以及数据的支持。然而, 本书的核心在于阐释深度学习的数学原理,而非聚焦于实际应用深度学习框架时的具体实现细节。此外,本书关注的是该领域的前沿进展,而非其历史演进。最后,尽量减少对人脑的深入探讨,也避免过度宽泛地将深度人工神经网络与实际生物神经元进行类比。尽管这些被弱化处理的方面都十分重要,但我们认为,在初次探索深度学习领域时,如果过于关注实现细节、历史背景或与生物神经系统的类比,就容易忽略深度学习的简洁性。
本书主要面向工程、信号处理、统计学、物理学、计量经济学、运筹学、定量管理学、纯数学、生物信息学、应用机器学习,甚至是应用深度学习领域的读者。具备这些领域背景知识的读者,能够借助本书获得对深度学习的精练认知。在需要回顾数学基础知识时, 本书附录提供了简要的复习材料,比如多元微积分的一些关键概念。
本书既适合按章节顺序逐章研读, 也可以根据读者需求在各章节间灵活跳转,快速查找所需信息。我们假定读者已具备至少大学本科三年级到四年级的数学基础。因此,书中会直接使用集合符号、矩阵、基础概率和微积分等知识,不再额外解释。即便如此,阅读本书并不要求读者预先掌握机器学习、统计学、优化理论或高级概率论等专业知识。我们致力于找到恰当的平衡点,让具有数学背景的非专业人士也能轻松地自学本书内容。
主要内容
本书共8章,另有两个附录。第1章至第4章对深度学习领域进行了简要概述,梳理了机器学习的关键概念,介绍了深度学习所需的优化理论,同时着重阐释了基础模型与核心概念。第5章聚焦前馈深度神经网络。第6章、第7章深入剖析深度学习的核心模型与架构,涵盖卷积神经网络、循环神经网络以及Transformer等。第8章涉及生成模型、强化学习和图神经网络等热门领域。附录A和附录B为读者提供数学方面的辅助支持。
各章主要内容如下:
第1章——引言。本章将全方位介绍深度学习, 展示其关键应用场景,并审视高性能计算的相关生态系统。我们会探讨大数据和高维数据相关议题,为后续章节奠定基础。此外,还会深入解读数据科学、机器学习和统计学习等关键术语,并结合本书语境进行阐释。同时,介绍ImageNet和MNIST等重要流行数据集,描述深度学习的发展历程。
第2章——机器学习原理。深度学习可视为机器学习的一个分支领域,因此本章将概述机器学习的关键概念和范式。读者将接触到监督学习、无监督学习以及学习的迭代优化等常见概念,还会了解训练集、测试集等概念,以及交叉验证和模型选择的基本原则。线性模型是本章探讨的重点之一,它同样可以通过迭代优化方法进行训练。本章将介绍最基础的梯度下降算法,并在第4章对其进行改进。梯度下降是训练几乎所有深度学习模型的基础方法。此外,还会探讨k均值聚类、主成分分析和奇异值分解等基础无监督学习算法。
第3章——简单神经网络。本章重点研究用于二分类的logistic回归模型(sigmoid函数),以及适用于多分类问题的多项式回归模型(softmax函数)。这些模型是浅层神经网络中颇受欢迎的类型。通过引入交叉熵损失等深度学习的基本原理和其他核心术语, 为后续构建更复杂的模型奠定基础。本章还将介绍一种简单的非线性自编码器架构,借此引入自编码器的一般概念。
第4章——优化算法。深度学习模型的训练过程本质上是对学习参数的优化, 因此深入理解优化算法以及适用于深度学习模型的特定优化算法(如ADAM算法)至关重要。本章将重点研究这些算法,详细剖析自动微分的多种形式,自动微分在深度学习计算梯度方面已不可或缺。此外,虽然部分其他优化方法在当代深度学习中热度稍减,但本章仍会进行探讨,包括各类一阶和二阶方法。
第5章——前馈深度神经网络。作为本书的核心章节,本章将定义并介绍通用的前馈深度神经网络,即多层感知机。在概述基本架构、探讨神经网络的表达力之后, 将深入研究训练过程的细节,包括理解用于梯度计算的反向传播算法。此外,还会探讨权重初始化、批量归一化和dropout等内容。
第6章——卷积神经网络。卷积神经网络能够自然地处理图像以及类似的空间格式数据。本章将深入探索卷积的概念, 并分析其在深度学习模型中的应用。介绍通道和一般卷积神经网络的概念后,进一步研究一些具有重大影响力且至今仍广泛应用的独特架构。最后, 探讨目标定位和人脸识别等与图像相关的关键任务。
第7章——序列模型。序列模型在处理文本等数据时至关重要,广泛应用于自然语言处理、对话智能体和机器翻译等领域。本章将深入探讨该领域的核心深度学习理念, 研究循环神经网络及其扩展形式,包括长短期记忆模型和门控循环单元模型等。随后探索编码器-解码器架构,逐
步引入注意力概念,并正式定义注意力机制。这一理念后来融入Transformer模型中,Transformer模型在诸多方面代表了当前大语言模型中使用的前沿模型。
第8章——特定架构与范式。本章将探讨用于各类任务的特定架构和范式的关键思想, 涵盖生成模型、强化学习和图神经网络等领域。在生成模型方面,首先深入研究变分自编码器架构,这是一种概率深度学习模型。接着拓展到马尔可夫层次变分自编码器,扩散模型是这类模型的一个特例。随后研究生成对抗网络, 它是第一代用于生成逼真图像的高效深度学习模型。之后转向强化学习研究,先介绍马尔可夫决策过程的基础知识,再探讨深度强化学习的实现方式。最后介绍图神经网络。本章涵盖的众多思想涉及多种范式,展示了深度学习模型如何调整或组合以满足特定需求。
作者简介
贝努瓦·利凯(Benoit Liquet):麦考瑞大学数学与物理科学学院教授。研究方向为高维数据、大数据、组学数据、模型选择、降维与半参数模型、多状态模型、生存模型和多重检验。
萨拉特·莫卡(Sarat Moka):悉尼新南威尔士大学数学与统计学院讲师,兼任麦考瑞大学数学与物理科学学院荣誉研究员。研究方向为计算统计学、应用概率、机器学习和深度学习。
尤尼·纳扎拉西(Yoni Nazarathy):昆士兰大学数学与物理学院副教授。研究方向为机器学习、应用概率、统计学、运筹学、仿真、科学计算、控制论、排队论、调度和数学教育。
本书目录


样章试读:






AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)