OCR材料信息提取工具（附件中含代码和数据）

weixin_40744387

195人浏览 · 2026-06-02 14:34:19

weixin_40744387 · 2026-06-02 14:34:19 发布

OCR材料信息提取工具

在这里插入图片描述

功能说明

本工具可以从图片（JPG、PNG等）和PDF文件中自动识别并提取以下信息：

材料名称
规格/型号
数量
单位

提取的结果会自动保存到Excel文件中。

安装步骤

1. 安装Python依赖

pip install -r requirements.txt

注意：首次运行时，PaddleOCR会自动下载中文识别模型，可能需要几分钟时间。

2. 运行脚本

python ocr_to_excel.py

输出文件

运行完成后，会在当前目录生成 材料清单.xlsx 文件，包含以下列：

来源文件：原始文件名
材料名称：识别出的材料名称
规格：材料规格/型号
数量：材料数量
单位：计量单位

支持的文件格式

图片格式：JPG, JPEG, PNG, BMP, TIFF
文档格式：PDF

处理的目录

脚本会自动处理以下两个目录中的所有文件：

d://急救包(1)
d://2023年第18批

注意事项

确保图片清晰度足够，文字可辨认
OCR识别准确率受图片质量影响，建议处理后检查结果
首次运行会下载模型文件，请确保网络连接正常
如果识别效果不理想，可能需要调整图片对比度或分辨率

故障排除

如果遇到安装问题

如果PaddleOCR安装失败，可以尝试使用CPU版本：

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install paddleocr

如果识别结果不理想

检查原始文件是否清晰
对于扫描PDF，确保分辨率至少300dpi
可以手动调整识别参数（在代码中修改PaddleOCR初始化参数）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

海外动态代理行业彻底换代，AI 数据时代新标准已到来

AtomGit开源社区

2026年论文写作AI哪个好用？7款工具实测对比，轻松拿捏

AtomGit开源社区

2026年SEO+GEO优化指南：搜索排名机制解析与实用工具推荐

AtomGit开源社区

所有评论(0)

查看更多评论

weixin_40744387

@weixin_40744387

已为社区贡献2条内容

OCR材料信息提取工具（附件中含代码和数据）

weixin_40744387

OCR材料信息提取工具

功能说明

安装步骤

1. 安装Python依赖

2. 运行脚本

输出文件

支持的文件格式

处理的目录

注意事项

故障排除

如果遇到安装问题

如果识别结果不理想

所有评论(0)

温馨提示：您尚未绑定手机号

weixin_40744387