1.首先按照官方指南来操作

https://github.com/PaddlePaddle/PaddleOCR

2.训练自己的文本检测数据时要转换成其格式(json字符时注意要使用双引号,特殊字符要转换)

3.训练时发现内存会不断增加,最终会爆内存

a.首先把 configs/det/det_db_icdar15_reader.yml 配置里面的 num_workers设置为1。
b.将ppocr/data/reader_main.py的75行
return paddle.reader.multiprocess_reader(readers, False)
修改为
return function(0)
这样就可以正常训练了,感觉速度也没有变慢,好像还快了一点点。。。

win下面 python的 multiprocessing不好用,所以PaddleOCR在 win 下面会自动关闭多进程,所以上面用win 的兄弟可以正常训练,用 AIStudio 和 Linux 的就只能修改代码关闭多进程了。

参考:https://github.com/PaddlePaddle/PaddleOCR/issues/218

 

4.使用命令

 a.检测相关命令

   https://github.com/PaddlePaddle/PaddleOCR/blob/develop/doc/doc_en/detection_en.md

   python3 tools/infer_det.py -c configs/det/det_r50_vd_db.yml -o Global.checkpoints=./output/det_db/best_accuracy

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐