2026年5月最新发票查验验证码OCR识别AI模型
·
一. 2026年5月最新发票查验验证码OCR识别AI模型
核心价值:
1、一套模型,兼容新旧两种查验平台。
2、支持纯本地部署,内网环境安全调用——无需担心数据外泄,也不受网络限制。
3、4种在百万训练集上经过深度优化的高精度模型,兼顾速度与准确率,CPU/GPU均可极速推理。
关联视频:
https://www.bilibili.com/video/BV1mkQ8BoEaE/ (2026年最新发票查验验证码OCR模型)
https://www.bilibili.com/video/BV1g2aHzVE1J/ (验证码识别&自动化(rpa与接口)发票查验技术分享)
1.1 适用验证码样例




1.2 POST /mobile/recognize
功能: OCR 文字识别(多模型支持)
幂等性: 否
请求参数 (Body)
| 参数名 | 类型 | 必填 | 说明 | 示例 |
|---|---|---|---|---|
| image | string | 是 | Base64 编码的图片数据 | iVBORw0KGgo... |
| color | string | 否 | 文字颜色,默认 红色 |
红色 |
枚举值:
红色- 使用红色专用模型黑色- 使用黑色专用模型蓝色- 使用蓝色专用模型黄色- 使用黄色专用模型
请求示例
POST /mobile/recognize HTTP/1.1
Host: 127.0.0.1:5000
Content-Type: application/json
{
"image": "iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mNk+M9QDwADhgGAWjR9awAAAABJRU5ErkJggg==",
"color": "红色"
}
curl -X POST http://127.0.0.1:5000/mobile/recognize \
-H "Content-Type: application/json" \
-d '{"image": "iVBORw0KGgo...", "color": "红色"}'
响应
成功 (200)
{
"success": true,
"text": "DFK",
"confidence": 0.9970,
"time_ms": 45.50,
"color": "红色",
"uuid": "550e8400-e29b-41d4-a716-446655440000"
}
失败 (400)
{
"success": false,
"error": "无效的颜色值: 绿色,支持的颜色: 红色, 黑色, 蓝色, 黄色"
}
响应字段说明
| 字段名 | 类型 | 可空 | 说明 |
|---|---|---|---|
| success | boolean | 否 | 操作是否成功 |
| text | string | 否 | 识别结果文本 |
| confidence | float | 否 | 置信度,范围 0~1 |
| time_ms | float | 否 | 处理耗时(毫秒) |
| color | string | 否 | 识别使用的颜色 |
| uuid | string | 否 | 本次请求唯一标识 |
| error | string | 是 | 错误信息 |
识别Demo
web页面识别截图

API接口调用demo:

整体准确率>96%, cpu推理在50ms左右。
二、验证码训练要点:
2.1 数据集标注。
图片下载
图片分类–黑红蓝黄
图片标注–手动标注(自己超级费劲,找人标注很费钱)
数据集划分
train/hXcbJ7_fpcyyzm17759764531568849.png hXcbJ7
train/zrkN_fpcyyzm17757872430992347.png zrkN
train/Sca9Bf_fpcyyzm17759759171496836.png Sca9Bf
val/yA9X_fpcyyzm17758092163308441.png yA9X
val/闲妮SB_fpcyyzm17758066692628347.png 闲妮SB
val/DY2YFE_fpcyyzm17758066947707246.png DY2YFE
2.2 数据集构造:
重点部分:
字体、字符集、颜色、背景、干扰点、干扰线。
每种颜色自动生成样本40万张。
23456789ABCDEFGHIJKLMNPQRSTUVWXYZabcdefghijklmnpqrstuvwxyz
+常见汉字

构造验证码样例:(兼容新版验证码和旧版验证码)
构造-黑色样本部分样例(总数40w张)
构造-蓝色样本部分样例(总数40w张)
构造-红色样本部分样例(总数40w张)
2.3 模型训练。
2.4 模型评估。
2.5 模型导出。
2.6 模型测试 & 优化。
第一次训练之后,一定要在真实网站中进行测试,记录错误验证码。
再把错误验证码手动标注后添加到训练集中,进行微调训练或者二次训练。可纠正一些明显的错误。有效提升准确性。

2.7 模型导出onnx。
2.8 模型web服务化开发。
2.9 生产部署。
经测试,准确率>96%, cpu推理在50ms左右。

详情可看:
https://www.bilibili.com/video/BV1mkQ8BoEaE/ (2026年最新发票查验验证码OCR模型)
本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)