搞搞YOLO数据集（学习笔记）（第五集）

2501_94220570

369人浏览 · 2026-05-04 11:26:21

2501_94220570 · 2026-05-04 11:26:21 发布

📦 (2:12 - 3:01) 数据集准备流程总览

制作数据集需要解决 3 个核心问题：

图片从哪里来？(题)
标签从哪里来？（答案）
怎么划分数据集？（分成3套试题）

👉 完成后才能开始训练

🌐 (5:00 - 7:02) 数据集网站推荐

⭐ 1. Roboflow Universe（重点）/Kaggle

✔ 如何判断数据集质量？

情况	建议
图片很少（几十张）	❌ 跳过
类别混乱	❌ 跳过
类别清晰 + 数量多	✅ 可用

✔ 下载方法选择：

- YOLO格式（YOLO11）
- 不同格式只是标签的书写格式不同，但训练某种模型就必须要使用它接受的数据集格式

📸 (9:30 - 11:40) 自制数据集（重点）

数据来源：

✔ 图片来源

网上下载
爬虫（⚠️ 小心法律风险）
自己拍摄（推荐）

✔ 推荐方法：视频 → 图片

步骤：

拍视频
抽帧生成图片

🎯 拍摄原则（很重要）

你想让模型识别什么 → 就拍什么

要覆盖：

不同角度
不同光照
不同背景

🧰 (11:40 - 13:58) 自动提取图片

用Python脚本（AI帮你写）
从视频提取帧

👉 可调参数：

抽帧间隔（控制图片数量）

🏷 (13:58 - 16:10) 标签制作（核心）

📁 结构

labels/
 ├── classes.txt

✔ classes.txt

class1
class2
class3

✔ 标注工具：LabelImg

必须设置：

👉 格式 = YOLO（在LabelImg左侧可以选择）

✔ 标注规则（重点🔥）

👉 核心原则：
你希望模型怎么预测 → 就怎么标

📦 框的要求:

紧贴目标
不要太大
不要太小

🤖 (16:10 - 22:42) 半自动标注（效率神器）

🚀 思路

标一小部分数据
训练一个“学渣模型”
用模型自动预测
生成伪标签
人工微调

✔ 优点

大幅减少工作量

✂️ (24:19 - 25:55) 数据集划分

✔ 使用脚本自动随机划分train.val.test

生成：

images/
 ├── train
 ├── val
 └── test

labels/
 ├── train
 ├── val
 └── test

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

交通管理在线服务系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

AtomGit开源社区

【2027最新】基于SpringBoot+Vue的流浪动物救助网站管理系统源码+MyBatis+MySQL

AtomGit开源社区

前后端分离中山社区医疗综合服务平台系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

AtomGit开源社区

所有评论(0)

查看更多评论

2501_94220570

@2501_94220570

已为社区贡献9条内容

搞搞YOLO数据集（学习笔记）（第五集）

2501_94220570

📦 (2:12 - 3:01) 数据集准备流程总览

🌐 (5:00 - 7:02) 数据集网站推荐

📸 (9:30 - 11:40) 自制数据集（重点）

所有评论(0)

温馨提示：您尚未绑定手机号

2501_94220570