📦 (2:12 - 3:01) 数据集准备流程总览

制作数据集需要解决 3 个核心问题:

  1. 图片从哪里来?(题)
  2. 标签从哪里来?(答案)
  3. 怎么划分数据集?(分成3套试题)

👉 完成后才能开始训练


🌐 (5:00 - 7:02) 数据集网站推荐

⭐ 1. Roboflow Universe(重点)/Kaggle


✔ 如何判断数据集质量?

情况 建议
图片很少(几十张) ❌ 跳过
类别混乱 ❌ 跳过
类别清晰 + 数量多 ✅ 可用

✔ 下载方法选择:

    • YOLO格式(YOLO11)

    • 不同格式只是标签的书写格式不同,但训练某种模型就必须要使用它接受的数据集格式


📸 (9:30 - 11:40) 自制数据集(重点)


数据来源:


✔ 图片来源

  1. 网上下载

  2. 爬虫(⚠️ 小心法律风险)

  3. 自己拍摄(推荐)


✔ 推荐方法:视频 → 图片

步骤:

  1. 拍视频

  2. 抽帧生成图片


🎯 拍摄原则(很重要)

你想让模型识别什么 → 就拍什么

要覆盖:

  • 不同角度

  • 不同光照

  • 不同背景


🧰 (11:40 - 13:58) 自动提取图片

  • 用Python脚本(AI帮你写)

  • 从视频提取帧 

👉 可调参数:

  • 抽帧间隔(控制图片数量)


🏷 (13:58 - 16:10) 标签制作(核心)


📁 结构

labels/
 ├── classes.txt

✔ classes.txt

class1
class2
class3

✔ 标注工具:LabelImg

必须设置:

👉 格式 = YOLO(在LabelImg左侧可以选择)


✔ 标注规则(重点🔥)

👉 核心原则:
你希望模型怎么预测 → 就怎么标

📦 框的要求:

  • 紧贴目标

  • 不要太大

  • 不要太小


🤖 (16:10 - 22:42) 半自动标注(效率神器)

🚀 思路

  1. 标一小部分数据

  2. 训练一个“学渣模型”

  3. 用模型自动预测

  4. 生成伪标签

  5. 人工微调

✔ 优点

  • 大幅减少工作量


✂️ (24:19 - 25:55) 数据集划分

✔ 使用脚本自动随机划分train.val.test

生成:

images/
 ├── train
 ├── val
 └── test

labels/
 ├── train
 ├── val
 └── test

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐