AI全自动本地数据处理工具，轻松搞定项目标注

Lee_jerome

298人浏览 · 2026-06-05 23:50:30

Lee_jerome · 2026-06-05 23:50:30 发布

项目背景：

最近涉及智慧安防类似的项目，发现针对不同场景yolo通用模型识别效果参差不齐，数据微调时标注过程繁琐，故自己全AI写了个本地工具方便数据处理（主要是现在有收费平台了），感觉用着还行，我相信很多小伙伴处理数据可能是直接交给AI生成脚本然后替换文件路径运行（确实麻烦），所以想着分享出来，能帮助到就行。由于项目是AI全生成，所以写得不好的地方见谅，后续我也会持续改进优化，也欢迎各位自行扩展和交流分享。

项目介绍：

项目GitHub地址：https://github.com/546546lqx/auto_tools
项目功能预览介绍：

1：数据集统计。用于快速了解一个数据集的整体质量和组成情况，通常会对图片目录和标注目录进行扫描，输出以下信息：

图片数量
标注文件数量
各类别出现次数
是否存在空标注
图片与标注是否一一对应

适用场景：

数据集导入前的质量检查
训练前确认类别分布是否均衡
定位缺失标注或异常样本

2：数据集清理。用于查找并处理数据集中常见的不一致问题，例如：

只有图片没有对应标注
只有标注没有对应图片
目录中存在无效或重复文件
需要预览清理结果而不是直接执行删除

适用场景：

整理历史数据集
迁移数据到新目录后做一致性检查
删除无效样本或冗余文件前的确认

注意：这个功能支持“仅预览”模式，方便你先查看即将处理的文件，再决定是否真正执行清理。

3：数据集划分。用于将一个完整数据集按照比例拆分成多个子集，常见为（目前还未设计测试集后续添加）：

`train`
`val`
`test`

适用场景：

新建训练集时快速拆分数据
调整训练/验证比例
生成适合 YOLO 训练目录结构的数据集

注意：你可以设置训练集和验证集比例。系统会根据输入目录中的数据组织方式完成划分，并输出划分结果。（目前只会对根目录中的images和labels生效）

4：重命名。用于统一图片和标注文件的文件名，确保图像与标签能够按照相同规则成对匹配。该功能通常支持：

自定义前缀
设置起始编号
设置编号位数
预览或直接执行重命名

适用场景：

修复混乱的历史文件名
统一不同来源数据集的命名规则
为后续划分、转换、训练做准备

5：格式转化。用于将其他标注格式转换为 YOLO 所需格式。当前项目中该功能与转换服务配合使用，可以处理数据集格式和多边形点位等信息。常见用途包括：

将 VOC 等格式转换为 YOLO
根据类别映射生成目标类别编号
输出适合训练的标准化标注文件

适用场景：

从第三方标注平台导出后统一转换
在不同训练框架之间迁移标注格式

6：视频抽帧。用于从本地视频文件或 RTSP 流中按指定间隔提取图片。页面支持任务式运行，启动后会在后台执行，并可查询进度或停止任务。主要能力包括：

支持本地视频文件路径
支持 RTSP 网络流地址
可设置抽帧间隔
可选择输出图片格式
可查看任务状态、已保存帧数和总帧数
支持主动停止正在运行的任务

适用场景：

从监控视频中提取训练图片
从录制视频中批量导出关键帧
快速构建图片样本库

7：多边形画框。用于绘制多边形区域并保存对应坐标信息，适合做区域型标注或辅助生成几何信息。该功能支持从图像尺寸和点位文本中生成最终结果。此外，页面还提供首帧预览能力，可以对视频流或其他图像源进行快速检查，帮助你确认输入源是否可用。

适用场景：

区域入侵、车道、边界等检测任务
需要记录多边形顶点坐标的场景
在视频流上预览首帧后再进行标注

8：自动化辅助标注。用于借助本地模型自动对图片进行目标检测并生成 YOLO 标注文件。该功能依赖本地模型目录，页面会列出可用模型，并支持上传模型到指定目录。主要流程通常是：

选择图片目录
选择标注输出目录
选择本地模型
填写类别映射关系
执行自动推理并输出标签文件

支持的模型管理能力包括：

扫描本地模型目录
列出当前可用模型
上传外部模型到项目模型目录

适用场景：

先自动生成初始标注，再人工修正
大批量图片的半自动标注
提高标注效率，降低重复劳动

项目本地部署（有余力的伙伴可以服务化部署）

这里就请各位参考项目咯！！！这个项目主要用于个人学习和本地数据处理实践，也欢迎大家在交流、学习和二次开发时参考。如果项目中的思路、结构或实现方式对你有所帮助，欢迎：

提出建议和改进意见
分享你的使用体验
在遵守开源协议和注明来源的前提下进行借鉴和二次开发
一起交流 YOLO 数据处理、标注工具和自动化流程相关经验

如果你在使用过程中发现问题，或者有更好的实现方式，也非常欢迎通过 Issue、讨论或其他方式交流。

感谢你的关注与支持。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

G-Star 精选开源项目推荐｜第二十期

AtomGit开源社区

cover

开源鸿蒙大学生创新大赛三大赛道全面开赛，176 万奖金池已就位

AtomGit开源社区

cover

G-Star 精选开源项目推荐｜第二十一期

AtomGit开源社区

所有评论(0)

查看更多评论

Lee_jerome

已为社区贡献1条内容