@[TOC]机器学习

第一章 机器学习概述

01 机器学习-大纲介绍

相关概述:AI ML DL
机器学习算法分类:监督学习 无监督学习 半监督学习 强化学习
机器学习三要素:数据 算力 算法
建模流程:
KNN算法(K近邻算法):近墨者黑,近朱者赤

02 课程介绍

1.人工智能三大概念
AI ML DL
人工智能之父:约翰麦卡锡
机器学习之父:亚瑟塞缪尔
2.机器学习的应用领域和发展史
3.机器学习常用术语
样本、特征、标签、

1.人工智能的三大概念

1.什么是人工智能
AI ->用计算机模拟人脑,让计算机像人类一样理性的思考,行动。
2.什么是机器学习
赋予计算机学习能力而不需要规则编程
先训练,再预测
3.深度学习
也加深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
4.案例总结
找西瓜
AI→给你一张图片,判断是否是西瓜
ML→基于大量西瓜图片,音频,视频,文本等,总结出规律→如何挑选一个还西瓜:纹路、颜色、回弹、瓜缔、颜色。。。
DL→基于西瓜的价格 产地 口感。。。搭建自己的知识库,例如:麒麟西瓜
5.三者关系
AI包含ML,ML包含DL
6.学习方式
基于规则的学习:程序员根据经验利用手工的if-else方式进行预测
学习方式:很多问题无法明确写下规则,比如图形、语音、视频
基于模型的学习:从数据中找规律
训练集x_train→找规律,找公式→y_train标签
测试集x_test y_test
基于模型学习,做房价预测
在这里插入图片描述
利用线性关系来模拟面积和房价之间的关系
Y=kx+b
k斜率→weight,权重
b截距→bias,偏重

总结
在这里插入图片描述

2.机器学习的应用领域和发展史

一.符号主义 20世纪50-70
1.达特茅斯会议
在这里插入图片描述
1956年-人工智能元年
约翰麦卡锡-人工智能之父
亚瑟塞缪尔-机器学习之父
2.1950年:图灵设计国际象棋程序
二 统计主义 20世纪80-2000
1993SVM
三 神经网络 21世纪初期
四 大模型训练模型 2017-至今

AI发展三要素
数据 算力 算法 三要素相互作用 是AI 发展的基石。
CPU–主要是IO密集型任务
GPU–主要适合计算密集型任务
TPU–张量计算

总结
在这里插入图片描述

3. 机器学习常用术语

样本、特征、标签
在这里插入图片描述

样本–sample–一行数据就是一个样本
特征–feature–一列数据就是一个特征,也称为属性
标签/目标–label/target–模型要预测的那一列数据

数据集可划分为:训练、测试集 比例:8:2 7:3
训练集 x_train y_train
测试集 x_test y_test

总结
1.样本和数据集
2.特征
3.标签
4.训练集和测试集

4.机器学习算法分类

1.有监督学习
-有特征有标签
欧氏距离:对应维度差值 平方和 开平方
切比雪夫距离
曼哈顿距离
闵式距离
-分类
分类问题
不连续、二分类、多分类
回归问题
连续 y=wx+b
2.无监督学习
-有特征没标签
-聚类:发现事物内部结构及相互关系,样本件相似性
3.半监督学习
-有特征,部分有标签,部分无标签
-让专家标注少量数据,利用已标记的数据训练一个模型→再利用模型去套用未标记数据→再询问领域专家分类结果与模型分类结果对比→进一步对模型提高改善
-优势:降低标记成本
4.强化学习
- 是机器学习的一个重要分支
- 寻找最短路径,以便获取最多奖励
- 智能体+环境+行动+奖励
总结
在这里插入图片描述在这里插入图片描述

5.机器学习的建模流程

1.获取数据–》2.数据基本处理–》3.特征工程–》4.机器学习(模型训练)–》5.模型评估
1.获取数据
图像 文本
2.数据基本处理
缺失值
异常值
3.特征工程
特征提取
特征预处理
特征降维
特征选取
特征组合
4.机器学习 模型训练
线性回归
逻辑回归
决策树
GBDT
5.模型评估
回归测评指标
分类评测指标
聚类评测指标
在这里插入图片描述

6 特征工程

0.特征过程概念入门
利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程。
数据和特征决定了机器学习的上限。
1.特征提取
会改变原数据
花瓣长度 花萼宽度
从原始数据中提取与任务相关的特征,构成特征向量。
2.特征预处理
归一化
标准化
原因:因量纲问题,有些特征对模型影响大、有些影响小,防止鲁棒性交叉
归一化 :x‘=(当前值-最小值)/(最大值-最小值)
3.降维
三维–》二维
4.特征选择
不会改变原数据
5.特征组合
MBI
在这里插入图片描述在这里插入图片描述
总结
在这里插入图片描述

7 模型拟合问题

拟合、过拟合、欠拟合、泛化
1.拟合 fitting
=模型在训练集和测试集的表现情况
欠拟合 under-fitting
=模型在训练集、测试集表现都不好
过拟合 over-fitting
=模型在训练集表现好,测试集表现不好
在这里插入图片描述
2.泛化 generalization
模型在新数据集(非训练数据)上表现好坏的能力
3.奥卡姆剃刀原则
给定两个具有相同泛化误差的模型,较简单的模型比较复杂的的模型更可取
总结
在这里插入图片描述
在这里插入图片描述

8.开发环境

基于python的scikit-learn库
pip install scikit-learn
官网:scikit-learn.org
classification 分类问题
Regression 回归问题
clustering 聚类问题
preprocessing 预处理
dimensionality 特征降维
model selection 模型选择
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐