基于Intel OpenVINO优化的视觉语言模型发票识别应用，支持PDF批量处理和Excel导出

Joe1234i

474人浏览 · 2026-04-11 10:19:06

Joe1234i · 2026-04-11 10:19:06 发布

Intel AI PC创新应用征文-发票识别系统 - 基于Qwen3-VL

该项目已经上传git https://github.com/joedqq/Invoice_Recognition_System_Based_on_Qwen3_VL.git

灵感流地址 Invoice_Recognition_System_Based_on_Qwen3_VL · 灵感流

这里主要介绍如何在Windows系统下跑通该项目

一、环境配置

硬件规格：

CPU: AMD Ryzen 9 8945HX (32核心，最高4.45GHz)
内存: 32GB DDR5
存储: 1TB NVMe SSD
GPU: AMD Radeon Integrated Graphics + NVIDIA GeForce RTX 4070 (可选)
网络: 千兆以太网/Wi-Fi 6E

操作系统：

Windows 11 Pro 22H2 (64位)
Python 3.10.11

OpenVINO 版本：

OpenVINO 2025.4.0
Optimum Intel 1.16.1 (Intel 官方优化包)

依赖安装步骤：

嫌麻烦的可以直接使用项目的脚本自动创建环境和安装依赖。

创建虚拟环境

cd invoice-recognition
python -m venv .venv
.venv\Scripts\activate

安装核心依赖
```
pip install -r requirements.txt
```

下载模型 (使用 ModelScope)

pip install modelscope
modelscope download --model Qwen/Qwen3-VL-4B-Instruct-int4-ov --local_dir ./Qwen3-VL-4B-Instruct-int4-ov

启动应用

python invoice_recognition_app.py "Qwen3-VL-4B-Instruct-int4-ov"

二、应用场景说明

创新方向

本项目基于 Qwen3-VL 视觉语言大模型和 OpenVINO 推理优化，打造了一个端侧智能发票识别系统，实现了从 PDF 解析到 AI 识别再到 Excel 导出的全流程自动化。

解决的实际问题

财务处理效率低下：传统人工录入发票信息耗时耗力，容易出错
PDF 文档处理复杂：不同格式的 PDF 文档需要不同的处理方式
模型推理速度慢：大模型在端侧设备上推理速度受限
结果导出不便捷：识别结果需要手动整理成 Excel 格式

面向用户群体

企业财务人员：批量处理报销发票、财务审计
小型企业主：简化财务流程，降低人力成本
税务工作者：提高税务申报效率和准确性
个人用户：管理个人发票，方便报销和记账

技术创新点

PDF 智能解析：自动识别 PDF 中的嵌入图片，无图片时自动整页截图
AI 视觉识别：基于 Qwen3-VL 大模型，支持复杂场景下的发票识别
OpenVINO 优化：使用 Intel 推理框架加速模型运行，在端侧设备上实现实时推理
Gradio 交互界面：提供用户友好的 Web 界面，无需编程知识即可操作
模块化设计：核心功能封装为独立类，便于扩展和维护

三、应用运行展示

3.1、整体界面

3.2、PDF解析

3.3、加载大模型

3.4、使用视觉模型进行解析，填写进excel

3.5、导出excel

这里好多未识别是因为我用的两张发票都是网上找的，很多都是马赛克，所有没有识别到。表头也可以自定义填写。有需要的财务朋友可以试试，可以大大节省人力。

四、总结与展望

端侧部署心得

模型优化至关重要：使用 OpenVINO 进行模型优化后，推理速度提升了约 3-5 倍，在 AMD Ryzen 9 8945HX 上实现了实时识别
硬件适配：通过 device="AUTO" 配置，系统能自动选择最优的推理设备（CPU/GPU）
内存管理：对大模型进行 int4 量化后，内存占用从 8GB 降至 2-3GB，适合普通 PC 部署
用户体验：Gradio 框架提供了开箱即用的 Web 界面，大大降低了使用门槛

当前局限

识别准确率：在复杂背景、低分辨率或模糊的发票图片上，识别准确率仍有提升空间
多语言支持：目前主要针对中文发票，需要扩展支持其他语言的发票
批量处理：对于大量发票的处理，系统响应时间会明显增加

优化方向

并行处理：优化批处理能力，提高多发票同时处理效率
模型蒸馏：使用知识蒸馏技术，训练更轻量的专用模型
边缘计算：探索在更小型设备上的部署方案

未来规划

功能扩展：支持更多类型的票据识别（如收据、银行回单等）
云端协同：实现端云协同推理，复杂任务上云处理
智能分类：添加发票自动分类和归档功能
API 服务：提供 RESTful API，集成到企业财务系统
移动应用：开发配套的移动应用，支持手机拍照识别

结语

本项目成功实现了基于 Qwen3-VL 视觉大模型的端侧发票识别系统，通过 OpenVINO 优化和模块化设计，在普通 PC 上实现了高效准确的发票识别。系统不仅解决了实际的财务处理问题，也展示了大模型在端侧部署的可行性和优势。

未来，我们将继续优化系统性能，扩展功能范围，为企业和个人用户提供更加智能、高效的发票处理解决方案。

当AI技术重塑感官，虚拟与现实的界限正在消融。
魔珐星云——以超写实数字人技术为核心，正在构建一个全新的虚拟生态。
诚邀您通过专属通道入驻，体验最前沿的虚拟互动技术，抢占Web3.0时代的先机。
👉 点击注册：https://c.c1nd.cn/9C9WW
💎 邀请代码： J3VA6QNSW2
未来已来，期待在星云中与你相遇。🌌
注册使用我的专属邀请码体验数字人ai男友、女友。
平板，电脑均可体验

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 赋能前端开发：学习笔记与心得

本文探讨了AI技术对前端开发领域的变革性影响与实践经验。分享了三个关键方向的探索：1）利用Copilot、Cursor等工具提升编码效率，强调AI生成代码需人工审查；2）借助v0.dev和Midjourney加速UI构建与设计；3）实践浏览器端RAG应用，实现本地数据智能检索。文章指出前端开发者角色正从"实现者"转变为"编排者"，需求沟通和系统架构能力变得更

AtomGit开源社区

如何解决跨摄像头追踪中的换衣服与遮挡问题：基于镜像视界 Camera Graph™ × 轨迹张量的空间连续性解法

AtomGit开源社区

⛳️赠与读者[特殊字符]第一部分——内容介绍基于 GWO、DBO、DOA 的光伏电池参数辨识模型研究摘要在光伏发电系统高效运行与性能精准评估的实际需求下，光伏电池等效模型参数辨识成为

无人机三维航迹规划是指在三维空间环境中，根据无人机的飞行任务需求，结合环境中的障碍物分布、地形起伏、气象条件等约束因素，寻找一条从起点（初始位置）到终点（目标位置）的最优路径。与二维航迹规划相比，三维航迹规划需要考虑高度维度的约束，更贴合无人机实际飞行场景，其核心要求是在满足飞行安全的前提下，实现航迹的最优性，即路径最短、能耗最低、飞行时间最短等。