基于Intel OpenVINO优化的视觉语言模型发票识别应用,支持PDF批量处理和Excel导出
Intel AI PC创新应用征文-发票识别系统 - 基于Qwen3-VL
该项目已经上传git https://github.com/joedqq/Invoice_Recognition_System_Based_on_Qwen3_VL.git
灵感流地址 Invoice_Recognition_System_Based_on_Qwen3_VL · 灵感流
这里主要介绍如何在Windows系统下跑通该项目
一、环境配置
硬件规格:
-
CPU: AMD Ryzen 9 8945HX (32核心,最高4.45GHz)
-
内存: 32GB DDR5
-
存储: 1TB NVMe SSD
-
GPU: AMD Radeon Integrated Graphics + NVIDIA GeForce RTX 4070 (可选)
-
网络: 千兆以太网/Wi-Fi 6E
操作系统:
-
Windows 11 Pro 22H2 (64位)
-
Python 3.10.11
OpenVINO 版本:
-
OpenVINO 2025.4.0
-
Optimum Intel 1.16.1 (Intel 官方优化包)
依赖安装步骤:
嫌麻烦的可以直接使用项目的脚本自动创建环境和安装依赖。

-
创建虚拟环境
cd invoice-recognition python -m venv .venv .venv\Scripts\activate -
安装核心依赖
pip install -r requirements.txt -
下载模型 (使用 ModelScope)
pip install modelscope modelscope download --model Qwen/Qwen3-VL-4B-Instruct-int4-ov --local_dir ./Qwen3-VL-4B-Instruct-int4-ov -
启动应用
python invoice_recognition_app.py "Qwen3-VL-4B-Instruct-int4-ov"
二、应用场景说明
创新方向
本项目基于 Qwen3-VL 视觉语言大模型 和 OpenVINO 推理优化,打造了一个端侧智能发票识别系统,实现了从 PDF 解析到 AI 识别再到 Excel 导出的全流程自动化。
解决的实际问题
-
财务处理效率低下:传统人工录入发票信息耗时耗力,容易出错
-
PDF 文档处理复杂:不同格式的 PDF 文档需要不同的处理方式
-
模型推理速度慢:大模型在端侧设备上推理速度受限
-
结果导出不便捷:识别结果需要手动整理成 Excel 格式
面向用户群体
-
企业财务人员:批量处理报销发票、财务审计
-
小型企业主:简化财务流程,降低人力成本
-
税务工作者:提高税务申报效率和准确性
-
个人用户:管理个人发票,方便报销和记账
技术创新点
-
PDF 智能解析:自动识别 PDF 中的嵌入图片,无图片时自动整页截图
-
AI 视觉识别:基于 Qwen3-VL 大模型,支持复杂场景下的发票识别
-
OpenVINO 优化:使用 Intel 推理框架加速模型运行,在端侧设备上实现实时推理
-
Gradio 交互界面:提供用户友好的 Web 界面,无需编程知识即可操作
-
模块化设计:核心功能封装为独立类,便于扩展和维护
三、应用运行展示
3.1、整体界面

3.2、PDF解析


3.3、加载大模型

3.4、使用视觉模型进行解析,填写进excel


3.5、导出excel


这里好多未识别是因为我用的两张发票都是网上找的,很多都是马赛克,所有没有识别到。表头也可以自定义填写。有需要的财务朋友可以试试,可以大大节省人力。
四、总结与展望
端侧部署心得
-
模型优化至关重要:使用 OpenVINO 进行模型优化后,推理速度提升了约 3-5 倍,在 AMD Ryzen 9 8945HX 上实现了实时识别
-
硬件适配:通过
device="AUTO"配置,系统能自动选择最优的推理设备(CPU/GPU) -
内存管理:对大模型进行 int4 量化后,内存占用从 8GB 降至 2-3GB,适合普通 PC 部署
-
用户体验:Gradio 框架提供了开箱即用的 Web 界面,大大降低了使用门槛
当前局限
-
识别准确率:在复杂背景、低分辨率或模糊的发票图片上,识别准确率仍有提升空间
-
多语言支持:目前主要针对中文发票,需要扩展支持其他语言的发票
-
批量处理:对于大量发票的处理,系统响应时间会明显增加
优化方向
-
并行处理:优化批处理能力,提高多发票同时处理效率
-
模型蒸馏:使用知识蒸馏技术,训练更轻量的专用模型
-
边缘计算:探索在更小型设备上的部署方案
未来规划
-
功能扩展:支持更多类型的票据识别(如收据、银行回单等)
-
云端协同:实现端云协同推理,复杂任务上云处理
-
智能分类:添加发票自动分类和归档功能
-
API 服务:提供 RESTful API,集成到企业财务系统
-
移动应用:开发配套的移动应用,支持手机拍照识别
结语
本项目成功实现了基于 Qwen3-VL 视觉大模型的端侧发票识别系统,通过 OpenVINO 优化和模块化设计,在普通 PC 上实现了高效准确的发票识别。系统不仅解决了实际的财务处理问题,也展示了大模型在端侧部署的可行性和优势。
未来,我们将继续优化系统性能,扩展功能范围,为企业和个人用户提供更加智能、高效的发票处理解决方案。
当AI技术重塑感官,虚拟与现实的界限正在消融。
魔珐星云——以超写实数字人技术为核心,正在构建一个全新的虚拟生态。
诚邀您通过专属通道入驻,体验最前沿的虚拟互动技术,抢占Web3.0时代的先机。
👉 点击注册:https://c.c1nd.cn/9C9WW
💎 邀请代码: J3VA6QNSW2
未来已来,期待在星云中与你相遇。🌌
注册使用我的专属邀请码体验数字人ai男友、女友。
平板,电脑均可体验
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)