搞搞YOLO数据集(学习笔记)(第五集)
·
📦 (2:12 - 3:01) 数据集准备流程总览
制作数据集需要解决 3 个核心问题:
- 图片从哪里来?(题)
- 标签从哪里来?(答案)
- 怎么划分数据集?(分成3套试题)
👉 完成后才能开始训练
🌐 (5:00 - 7:02) 数据集网站推荐
⭐ 1. Roboflow Universe(重点)/Kaggle
✔ 如何判断数据集质量?
| 情况 | 建议 |
|---|---|
| 图片很少(几十张) | ❌ 跳过 |
| 类别混乱 | ❌ 跳过 |
| 类别清晰 + 数量多 | ✅ 可用 |
✔ 下载方法选择:
-
-
YOLO格式(YOLO11)
-
不同格式只是标签的书写格式不同,但训练某种模型就必须要使用它接受的数据集格式
-
📸 (9:30 - 11:40) 自制数据集(重点)
数据来源:
✔ 图片来源
-
网上下载
-
爬虫(⚠️ 小心法律风险)
-
自己拍摄(推荐)
✔ 推荐方法:视频 → 图片
步骤:
-
拍视频
-
抽帧生成图片
🎯 拍摄原则(很重要)
你想让模型识别什么 → 就拍什么
要覆盖:
-
不同角度
-
不同光照
-
不同背景
🧰 (11:40 - 13:58) 自动提取图片
-
用Python脚本(AI帮你写)
-
从视频提取帧
👉 可调参数:
-
抽帧间隔(控制图片数量)
🏷 (13:58 - 16:10) 标签制作(核心)
📁 结构
labels/
├── classes.txt
✔ classes.txt
class1
class2
class3
✔ 标注工具:LabelImg
必须设置:
👉 格式 = YOLO(在LabelImg左侧可以选择)
✔ 标注规则(重点🔥)
👉 核心原则:
你希望模型怎么预测 → 就怎么标
📦 框的要求:
-
紧贴目标
-
不要太大
-
不要太小
🤖 (16:10 - 22:42) 半自动标注(效率神器)
🚀 思路
-
标一小部分数据
-
训练一个“学渣模型”
-
用模型自动预测
-
生成伪标签
-
人工微调
✔ 优点
-
大幅减少工作量
✂️ (24:19 - 25:55) 数据集划分
✔ 使用脚本自动随机划分train.val.test
生成:
images/
├── train
├── val
└── test
labels/
├── train
├── val
└── test
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)