一、概念


AI: 人工智能  (像人一样模拟代替人类)

ML:机器学习 (从数据中获取规律,来了一个新的数据,产生一个新的预测)

        小结:1.提供数据(历史数据)

                   2.训练模型(公式)

                   3.提供测试数据

                   4.对测试数据进行预测

DL: 深度学习  (大脑仿生,一层一层的神经元模拟万事万物)

发展史:

        1.1956年提出“人工智能”这一术语

        2.1962.                跳棋 

        3.1997                 国际象棋

        4.2016 AlphaGo  围棋

====   大模型预训练模型  ====

        5.2017年,自然语音处理NLP的Transformer框架出现

        6.2022,chatGPT的出现,进入到大模型AIGC发展阶段

AI 发展三要素:

        数据、算法、算力

二、机器学习常用术语:


样本(sample):一行数据就是一个样本:多个样本组成数据集:有时一条样本被叫成一条记录

特征(feature):一列数据一个特征,有时也被称为属性

标签/目标(label/target):模型要预测的那一列数据。

特征是从数据中抽取出来的,对结果预测有用信息。。

训练集:用来训练模型的数据集

测试集:用来测试模型的数据集

x_train:训练集特征                        x_test:测试集特征

y_train:训练集标签             预测-> y_test:测试集标签

一般划分比例7:3,    8:2

训练集和测试集

三、机器学习算法分类

1.监督学习               

   (有特征、有标签)    即 (有训练数据 x_train + 有标签 y_train)

(预测结果) ->        案例:“猫狗分类/房价预测”

 有监督问题&回归问题

        如果标签是连续的 即回归

        如果标签是离散的 即分类 

🔹 离散 vs 连续(看输出空间)

类型

特点

典型例子

离散(Discrete)

取值有限或可数,值之间没有“中间状态”,强调“种类”或“状态”

猫/狗、是/否、手写数字0~9、用户等级A/B/C

连续(Continuous)

取值在某个区间内可以是任意实数,理论上无限可分,强调“大小”和“度量”

房价(350.2万)、温度(23.5℃)、点击率(0.037)、身高

🔹 分类 vs 回归(看任务目标)

任务

对应目标类型

预测本质

典型算法

评估指标

分类(Classification)

离散

是什么”(定性)

逻辑回归、SVM、决策树分类、随机森林、XGBoost分类、神经网络分类

准确率、精确率、召回率、F1、ROC-AUC

回归(Regression)

连续

是多少”(定量)

线性回归、岭/Lasso回归、决策树回归、SVR、XGBoost回归

MSE、RMSE、MAE、R²

2.无监督学习.     

   (有特征、无标签)   即 聚类分析,发现事务内部的关系

(发现潜在结构)        案例: “物以类聚人以群分”

3.半监督               

 (有特征、部分有标签,部分无标签)

 (降低数据标记的难度)

                大大降低标记成本

        拿部分有标签的数据进行训练 训练出来的模型,让他去给没有标签的数据进行预测标签!!

4.强化学习

(长期利益最大化)   ->  案例: 学下棋

         让机器自己学习,然后给机器奖励,让机器自己学习。

         得到更多奖励,强化去做能得到奖励的事情

        agent 根据环境状态进行行动获得最多的累计奖励。

四、机器学习建模流程

在整个建模流程中,数据基本处理、特征工程一般是耗时、耗精力最多的。

1.获取数据

        获取经验数据、图像数据、文本数据......

2.数据基本处理

        数据缺失值处理、异常值处理......

3.特征工程

利用专业背景知识技巧处理数据,让机器学习算法效果最好。

数据特征决定了机器学习的上限,而模型算法只是逼近这个上限而已

        <1> 特征提取

                从原始数据提取和任务相关特征

        <2>特征预处理 

                解决量纲问题:比如身高,体重 单位不统一  (归一化,标准化

        ( 比如有些特征对模型影响很大,比如房价有朝向,楼层,面积等等特征,其中面积影响就比较大,涉及到权重问题。)

        <3>特征降维    

                原始特征:[x₁, x₂, x₃, ..., xₙ]  (n维)
                    ↓ 降维处理
                新特征:[z₁, z₂, ..., zₖ]  (k维,k << n)

        <4>特征选择   

                从已经有的特征中,找出子集

                比如原来10个特征,选择其中6个来用 

        <5> 特征组合   

                利用已有的特征,组合成新的特征

                比如房子的 (朝向+面积)-> (新特征)

                把多个特征合并成一个特征,利用乘法或者加法来完成

4.机器学习(模型训练)
        <1> 线性回归
        <2> 逻辑回归
        <3> 决策数
        <4> GBDT
5.模型评估
        <1> 回归评测指标
        <2> 分类评测指标
        <3> 聚类评测指标

五、拟合

        1.拟合 fitting 用在机器学习领域,用来表示模型对样本点的拟合情况

        2.欠拟合 under-fitting 模型在训练集上表现很差、在测试集表现也很差

        3.过拟合 over-fitting  模型在训练集表现很好、在测试集表现很差

泛化 Generalization: 模型在新数据集(非训练数据)上的表现好坏能力。

奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型的优先选取。

这里可以理解为:

        开发过程:

                过拟合和欠拟合:模型在训练集测试集效果

        上线:

                泛化:评估模型在新数据集上的效果

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐