PaddleOCR - (1) PPOCRLabel数据标注

PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

项目地址：https://gitcode.com/gh_mirrors/pa/PaddleOCR

免费下载资源

潮流MI

2845人浏览 · 2022-03-15 20:56:56

潮流MI · 2022-03-15 20:56:56 发布

1、启动标注工具

cd ./PPOCRLabel # 将目录切换到PPOCRLabel文件夹下
python PPOCRLabel.py --lang ch

2、标注步骤

安装与运行：使用上述命令安装与运行程序。
打开文件夹：在菜单栏点击 “文件” - "打开目录" 选择待标记图片的文件夹[1].
自动标注：点击 ”自动标注“，使用PPOCR超轻量模型对图片文件名前图片状态[2]为 “X” 的图片进行自动标注。
手动标注：点击 “矩形标注”（推荐直接在英文模式下点击键盘中的 “W”)，用户可对当前图片中模型未检出的部分进行手动绘制标记框。点击键盘Q，则使用四点标注模式（或点击“编辑” - “四点标注”），用户依次点击4个点后，双击左键表示标注完成。
标记框绘制完成后，用户点击 “确认”，检测框会先被预分配一个 “待识别” 标签。
重新识别：将图片中的所有检测画绘制/调整完成后，点击 “重新识别”，PPOCR模型会对当前图片中的所有检测框重新识别[3]。
内容更改：双击识别结果，对不准确的识别结果进行手动更改。
确认标记：点击 “确认”，图片状态切换为 “√”，跳转至下一张。
删除：点击 “删除图像”，图片将会被删除至回收站。
保存结果：用户可以通过菜单中“文件-保存标记结果”手动保存，同时也可以点击“文件 - 自动保存标记结果”开启自动保存。手动确认过的标记将会被存放在所打开图片文件夹下的Label.txt中。在菜单栏点击 “文件” - "保存识别结果"后，会将此类图片的识别训练数据保存在crop_img文件夹下，识别标签保存在rec_gt.txt中[4]

注意

[1] PPOCRLabel以文件夹为基本标记单位，打开待标记的图片文件夹后，不会在窗口栏中显示图片，而是在点击 "选择文件夹" 之后直接将文件夹下的图片导入到程序中。

[2] 图片状态表示本张图片用户是否手动保存过，未手动保存过即为 “X”，手动保存过为 “√”。点击 “自动标注”按钮后，PPOCRLabel不会对状态为 “√” 的图片重新标注。

[3] 点击“重新识别”后，模型会对图片中的识别结果进行覆盖。因此如果在此之前手动更改过识别结果，有可能在重新识别后产生变动。

[4] PPOCRLabel产生的文件放置于标记图片文件夹下，包括一下几种，请勿手动更改其中内容，否则会引起程序出现异常。

文件名	说明
Label.txt	检测标签，可直接用于PPOCR检测模型训练。用户每保存5张检测结果后，程序会进行自动写入。当用户关闭应用程序或切换文件路径后同样会进行写入。
fileState.txt	图片状态标记文件，保存当前文件夹下已经被用户手动确认过的图片名称。
Cache.cach	缓存文件，保存模型自动识别的结果。
rec_gt.txt	识别标签。可直接用于PPOCR识别模型训练。需用户手动点击菜单栏“文件” - "保存识别结果"后产生。
crop_img	识别数据。按照检测框切割后的图片。与rec_gt.txt同时产生。

保存方式

PPOCRLabel支持三种保存方式：

自动保存：点击“文件 - 自动保存标记结果”后，用户每确认过一张图片，程序自动将标记结果写入Label.txt中。若未开启此选项，则检测到用户手动确认过5张图片后进行自动保存。
手动保存：点击“文件 - 保存标记结果”手动保存标记。
关闭应用程序保存

导出部分识别结果

针对部分难以识别的数据，通过在识别结果的复选框中取消勾选相应的标记，其识别结果不会被导出。

注意：识别结果中的复选框状态仍需用户手动点击保存后才能保留

3、数据集划分

在终端中输入以下命令执行数据集划分脚本：

cd ./PPOCRLabel # 将目录切换到PPOCRLabel文件夹下
例如：
py gen_ocr_train_val_test.py --trainValTestRatio 6:2:2 --datasetRootPath 需要划分的路径 
我的：
py gen_ocr_train_val_test.py --trainValTestRatio 6:2:2 --datasetRootPath ../train_data

参数说明：

trainValTestRatio 是训练集、验证集、测试集的图像数量划分比例，根据实际情况设定，默认是6:2:2
datasetRootPath 是PPOCRLabel标注的完整数据集存放路径。默认路径是 PaddleOCR/train_data 分割数据集前应有如下结构：

|-train_data
  |-crop_img
    |- word_001_crop_0.png
    |- word_002_crop_0.jpg
    |- word_003_crop_0.jpg
    | ...
  | Label.txt
  | rec_gt.txt
  |- word_001.png
  |- word_002.jpg
  |- word_003.jpg
  | ...

数据集划分之后的结构：

GitHub 加速计划 / pa / PaddleOCR

下载

最近提交(Master分支：4 个月前 )

0d41ffc9 5 天前

d523388e * add ppformulanet * rename loss * modify doc * add export code * modify yaml for global ref 6 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m