写在前面

本篇内容会大致讲解一下机器学习的相关概念类知识,让大家在后续学习相关内容时不至于面对一些词汇感到很陌生。

一、人工智能三大概念

  • 人工智能(Artificial Intelligence):模仿人的大脑,让计算机像人一样思考、学习、决策与解决问题。
  • 机器学习(Machine Learning):让计算机拥有自动学习的能力,无需经过人的显式编程。
  • 深度学习(Deep Learning):深度神经网络,大脑仿生,设计多层神经元模拟万事万物。

二、机器学习

我们以这个数据作为我们学习机器学习的示例数据集,我们希望通过这些特征,预测新的用户的月薪。

1.常用术语

  • 样本(sample):每一行数据,就是一个样本。
  • 特征(feature):每一列数据,就是一个特征。
  • 标签/目标(label/target):需要预测的数据,在示例中,月薪是需要预测的数据
  • 数据集(dataset):分为训练集(training set)与测试集(testing set)。其中训练集用来训练模型,测试集用来测试模型的效果。

2.算法分类

  • 监督学习

输入的数据必须有目标值,根据目标值是否连续,分为两类问题。

(1)分类问题:分类问题的特点是目标值是不连续的分类。比如说下面的案例,我们要预测用户的薪资返回是高、中还是低,这个就不是一个连续的数字,属于一个分类问题。

(2)回归问题:回归问题的特点是目标值是连续的数字,比如说我们示例案例中,预测用户的薪资,薪资就是一个连续的数字。

  • 无监督学习

无监督学习的特点就是,输入的数据集是没有目标值的。模型根据样本之间的相似性,对样本集进行聚类,以发现事物内部结构与相互关系。

  • 半监督学习

半监督学习的特点是,部分样本有目标值,部分样本没有目标值。

  • 强化学习

强化学习主要由四个要素构成,他们分别为Agent、环境状态、行动与奖励。

总的来说,Agent根据环境状态进行行动,以获得最多的累计奖励,这个就是强化学习。

  • 总的对比

3.建模流程概述

只介绍概念,不在这一篇细讲

  • 获取数据
  • 数据预处理

缺失值处理、异常值处理等

  • 特征工程

特征提取、特征预处理、特征降维

  • 模型训练

线性回归、逻辑回归、决策树、GBDT等

  • 模型评估

回归评测指标、分类评测指标、聚类评测指标

三、特征工程概念入门

  • 特征提取

从原始数据提取任务所需的相关特征

  • 特征预处理
  • 特征降维

保证数据的主要信息保留

  • 特征选择

选择重要的特征训练

  • 特征组合

多个特征合并一个特征

四、模型相关概念

1.模型拟合的几种结果

  • 拟合(fitting):用在机器学习领域,用来表示模型对样本点的拟合情况
  • 欠拟合(under-fitting)

模型在训练数据集表现差,在测试数据集表现差。潜在的原因可能是模型过于简单。

  • 过拟合(over-fitting)

模型在训练数据集表现好,在测试数据集表现差。潜在的原因可能是模型过于复杂,数据质量差,训练样本不足等。

2.泛化能力

泛化能力指的就是模型在新数据集(非训练数据)上的表现好坏能力。

如果说一个模型训练好后,面对各类数据输入都能达到一个令人满意的准确率,我们可以说这个模型的泛化能力优秀。

3.奥卡姆剃刀原则

给定两个具有相同泛化误差的模型,此时,较简单的模型比较复杂的模型更可取。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐