百度飞桨PaddleOCR 使用记录（踩坑记录）

AICVer

10230人浏览 · 2020-07-29 22:38:45

AICVer · 2020-07-29 22:38:45 发布

1.首先按照官方指南来操作

https://github.com/PaddlePaddle/PaddleOCR

2.训练自己的文本检测数据时要转换成其格式（json字符时注意要使用双引号，特殊字符要转换）

3.训练时发现内存会不断增加，最终会爆内存

a.首先把 configs/det/det_db_icdar15_reader.yml 配置里面的 num_workers设置为1。
b.将ppocr/data/reader_main.py的75行
return paddle.reader.multiprocess_reader(readers, False)
修改为
return function(0)。
这样就可以正常训练了，感觉速度也没有变慢，好像还快了一点点。。。

win下面 python的 multiprocessing不好用，所以PaddleOCR在 win 下面会自动关闭多进程，所以上面用win 的兄弟可以正常训练，用 AIStudio 和 Linux 的就只能修改代码关闭多进程了。

参考：https://github.com/PaddlePaddle/PaddleOCR/issues/218

4.使用命令

python3 tools/infer_det.py -c configs/det/det_r50_vd_db.yml -o Global.checkpoints=./output/det_db/best_accuracy

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 浪潮终章奏凯！GitCode & 文心大模型 & 智源研究院 AI 应用开发大赛圆满落幕

AtomGit开源社区

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，