人工智能(AI) 机器学习(ML) 深度学习(DL),到底他们哥仨是什么关系?
从当今的总体发展来看,AI/ML仍然可以说是方兴未艾,其在各个行业和场景的应用仍然处于初始阶段,只有少数机器学习算法在业界被广泛应用。我们期待的是所有操作都是自动化的。将大量输入数据输入神经网络后,网络会自我训练并输出输出。
机器学习的一般性整体流程
机器学习的整体流程可以举例如下图所示:

其中第一步是从实际生活中收集数据。根据不同的场景,需要收集的数据类型会有所不同。大多数情况下,数据很可能已经存在于组织中,组织决定应用机器学习,希望从数据中获取更多有用的信息。根据数据和业务需求,可能需要考虑要应用哪种具体的算法,以及算法的输入和输出应该是什么。确定算法后,需要将数据处理成可以输入到想要执行的算法中的格式。如果把上面列出的三个主要流程分解开来,再添加一些并非来自技术层面而是来自业务层面的步骤,那么清单可以扩展如下。
为方便大家学习 这里给大家整理了一份学习资料包 需要的同学 根据下图自取即可

(1) 确定想要实现的结果
(2) 确定它对业务的影响
(3) 确定需要收集哪些类型的数据
(4) 确定想选择哪种算法
(5) 弄清楚如何实现该算法
(6) 解释选择该算法的理由
(7) 弄清楚如何处理原始数据,使其适合算法的输入
(8) 在极少数情况下,可能在现有算法中找不到完全符合分析目的的合适算法。在这种情况下,可能需要提出新的算法。
目前讨论的内容大部分侧重于算法部分,也就是下面列出的第 (4)、(5) 项。但实际上,整个数据流还涉及许多其他步骤,但从许多实际用例和来自不同领域应用机器学习的人员的访谈视频来看,步骤 (7) 是许多机器学习工程师在实际工作中必须完成的最大部分之一,这是目前大多数工程工作的现实情况。
常见的数据预处理举例
据估计,机器学习项目大约60%的成本用于数据准备(即数据预处理)。当然,数据准备与项目其他部分之间的具体成本分配将根据项目性质而有所不同,并且随着数据准备自动化技术/工具的发展,具体数据也会有所变化。但数据准备仍是许多机器学习项目中最重要的部分之一。
以下是一些常见的一般性示例,我们用此说明在将所收集的原始数据应用于想要使用的特定机器学习模型之前,需要执行哪些类型的数据处理。这并不意味着总是需要对所有模型进行所有这些数据处理。根据机器学习模型和原始数据的格式,预处理任务的类型会有所不同。这里只是想举例说明,列出常见/频繁的预处理形式。
将数据放入带标签的文件夹:截至目前,大多数神经网络算法都基于大量已知示例,我们称之为“带标签数据”。因此,一个必需步骤是准备这些带标签的数据。在许多情况下(例如,图像分类)收集大量图像,并将这些图像放入许多分类文件夹中。如果我们只需要对少数图像执行此操作,您可以尝试手动创建分类文件夹,并将相应的图像手动放入每个文件夹中。然而,如果图像数量成千上万,手动进行此类分类就不切实际了,就需要通过软件自动化这个过程。
调整图像大小或裁剪图像:大多数与图像分类相关的神经网络算法(例如 卷积神经网络CNN)需要特定大小的图像文件作为输入。但大多数要处理的图像大小与网络所需的大小并不相同。在这种情况下,需要调整图像大小或裁剪图像的一部分以适应网络的输入大小。
转换图像颜色:大多数与图像分类相关的神经网络算法(例如卷积神经网络CNN)需要特定层的图像文件作为输入。图像文件层与文件如何表示每个像素的颜色有关。例如,如果算法需要RGB颜色的图像,则该图像为三层。如果算法需要灰度图像,则该图像为单层。如果您的算法需要单层图像文件,并且获得了RGB彩色图像,则必须将RGB文件转换为灰度文件格式,反之亦然。
用一个词替换另一个词:这类任务主要与处理各种测试形式(例如聊天框、电子邮件、问答数据库等)数据的算法相关。由于不同的人倾向于使用不同的词来表达同一事物,因此在将这些数据输入网络之前,可能需要将许多不同的词转换为特定的常用词。
将序列数据转换为图像数据:由于用于图像分类的机器学习算法已经非常成熟,因此有很多案例将图像分类算法(例如卷积神经网络CNN)应用于非图像数据,例如语音识别或通信信号/数据分析。在这种情况下,我们需要将原始数据转换为某种形式的图像。然而,这种转换不像其他类型的预处理那样简单,而且往往因具体领域而异。将语音数据转换为频谱图,将射频时域信号转换为频谱图就是这类数据的一个很好的例子。
机器学习如何“学习”?
机器和人类学习的方式多种多样。将机器学习算法与人类学习过程进行比较非常困难,部分原因是存在太多差异,部分原因是我们无法确切了解学习过程中大脑内部的具体运作。人类认知的奥秘,包括其错综复杂的神经网络和无数的突触连接,至今仍未得到充分理解,这使得直接比较变得困难。同样,机器学习涵盖了从监督学习、神经网络到强化学习等各种技术,每种技术都有其独特的方法和应用,这使得任何简单的类比都更加复杂。
机器学习的算法有很多种,下图是基于机器学习/深度学习的模型:

这个过程简单概括如下:
1) 另一台机器(或软件)或人工准备大量训练数据(样本数据和数据标签对)。
2) 数据(训练样本)被输入到学习算法(神经网络)。
3) 机器学习算法评估训练数据并产生结果(例如,分类结果)。
4) 机器将产生的结果(估计结果)与期望结果进行比较。
5) 机器根据比较结果调整机器学习的内部参数。
6) 将另一个样本数据输入机器学习算法,然后转到步骤 iii)。
机器学习算法对成千上万的训练数据重复步骤 2)~6)。
为方便大家学习 这里给大家整理了一份学习资料包 需要的同学 根据下图自取即可

机器学习与人类学习行为的对比
在学习的世界里,人类和机器遵循着截然不同的路径——各自都有其自身的优势、局限性和节奏:对于人类学习,不知所措,情绪纠结,终其一生都在反复调整旋钮以找到合适的和谐;而人工智能模型则能够通过数学精度在几分钟内高效地调整权重。虽然人类学习是直觉的、情感丰富的、深度体验式的,但它也是缓慢的,而且往往是非线性的。而机器学习则依赖于规模、速度和重复,从而能够快速迭代和优化。
人类的学习行为
第一个例子捕捉到了人类学习中深刻的个人化和常常令人沮丧的人类学习的本质:一个不断试错、自我反省和渐进调整的过程。与机器不同,人类并没有明确的优化目标或基于梯度的方法。相反,学习受情感、社会环境以及通常模棱两可的反馈的影响。进步可能是缓慢且非线性的,需要数年甚至数十年的韧性和适应性。对于人类而言,学习不仅仅是一种技术调整,而是一项持续的、关乎生存的努力。
AI/ML的学习
与人类学习图中饱受情感困扰的人类学习者不同,AI/ML的学习过程系统化、无情感化且高效。机器学习的本质:一个由数学损失函数驱动、数据反馈引导的快速优化循环。人类的循环会持续一生,而机器的循环则规模化运行,能够在几分钟内完成数百万次迭代。没有困惑或事后诸葛亮——只有明确的目标和自动的重新校准。这凸显了一个根本的区别:机器通过在结构化、可量化的环境中最小化错误来学习,从而使它们能够达到人类无法比拟的精度和速度。然而,同样的效率是以牺牲人类学习固有的丰富性、灵活性和情境敏感性为代价的。
机器学习与人类学习的相似之处
由前面的内容可看到机器学习和人类学习的思路似乎截然相反:一个由代码和数据驱动,另一个由大脑和好奇心驱动——但实际上两者之间存在一些奇妙的重叠。两者都会吸收信息或经验来变得更加聪明,从反馈中获得提升以调整技能,并且可以通过更多的练习或数据来提升水平,尽管它们也可能过于专注于特定的东西。这些共同的特征让我们得以一窥学习的运作方式,以令人惊讶的方式将人工智能与人类智能连接在一起,即使细节上存在很大差异。
机器学习与人类学习的差异
如上所述,机器学习和人类学习可能看起来惊人地相似,这取决于如何看待它。但它们之间的差异也揭示了各自的优势和挑战,这为通过借鉴人类能力来推进机器学习技术提供了可能性。机器需要大量的数据准备和海量的数据输入才能有效地学习,而人类则可以通过直觉、情感和情境的引导,用更少的努力和更少的样本来掌握新技能。这些差异凸显了它们各自的优势和局限性,也为通过缩小与人类能力的差距来推进机器学习技术提供了激动人心的机会。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)