关于PaddleOCR-release-2.7代码训练自己的数据集出错的记录

PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

项目地址：https://gitcode.com/gh_mirrors/pa/PaddleOCR

免费下载资源

dyh_cy

348人浏览 · 2024-05-24 15:20:50

dyh_cy · 2024-05-24 15:20:50 发布

1、首先点名骂一下某度给的代码，我用的官方的标注工具，官方的转换代码，一训练就报错，这是就脚趾头做的代码吗？？
2、https://blog.csdn.net/weixin_51302403/article/details/134818251?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-134818251-blog-132078422.235%5Ev43%5Epc_blog_bottom_relevance_base6&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-134818251-blog-132078422.235%5Ev43%5Epc_blog_bottom_relevance_base6
参考这个大佬的连接，解决了问题了，
主要就是删掉代码中的\n，如图所示，红线标出来的地方都改了，再次运行就可以了
在这里插入图片描述

具体报错如下：
ppocr ERROR: When parsing line G:\zifu_shibie\train_data\rec\train\enhanced_
控制台会无限输出list out of range的报错

2、昨天标注的数据集训练会出现乱码，而且检测出来的字符不全，怀疑是数据集不够多，我就标注了100张
于是又多标注了一些，想着说吧两次标注的图片，crop_img直接复制过去，还有Label.txt和rec_gt.txt直接修改了就行了，结果是复制过去运行报错

但是在划分数据集的时候出现这个问题，运行的代码是
python gen_ocr_train_val_test.py --trainValTestRatio 6:2:2 --datasetRootPath=G:\zifu_shibie\origin222
其中\n部分的代码，也就是gen_ocr_train_val_test.py这里边的三个\n已经按照上述说明删除了。

Traceback (most recent call last):
File “gen_ocr_train_val_test.py”, line 149, in
genDetRecTrainVal(args)
File “gen_ocr_train_val_test.py”, line 96, in genDetRecTrainVal
splitTrainVal(root, recAbsTrainRootPath, recAbsValRootPath, recAbsTestRootPath, recTrainTxt, recValTxt,
File “gen_ocr_train_val_test.py”, line 32, in splitTrainVal
image_relative_path, image_label = label_record_info.split(‘\t’)
网上也没找到解决办法，折腾到大半夜也没找到啥问题
在这里插入图片描述如图所示，reg_gt.txt和Label.txt的最后只能有一个空行，这两个文件，多了空行，就会出现上述问题，尤其是两次分开标注，在复制文件时，要注意看看，记事本看不出来，用pycharm’可以

最后经过多次对比，发现reg_gt.txt多了一行，就是最后一行多了一个空行，估计是我回车了，删除空行后，重新运行数据集划分代码，问题解决

GitHub 加速计划 / pa / PaddleOCR

下载

最近提交(Master分支：4 个月前 )

0697d248 2 天前

04c989b7 5 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m