Intel AI PC创新应用征文-发票识别系统 - 基于Qwen3-VL

该项目已经上传git https://github.com/joedqq/Invoice_Recognition_System_Based_on_Qwen3_VL.git

灵感流地址 Invoice_Recognition_System_Based_on_Qwen3_VL · 灵感流

这里主要介绍如何在Windows系统下跑通该项目

一、环境配置

硬件规格:

  • CPU: AMD Ryzen 9 8945HX (32核心,最高4.45GHz)

  • 内存: 32GB DDR5

  • 存储: 1TB NVMe SSD

  • GPU: AMD Radeon Integrated Graphics + NVIDIA GeForce RTX 4070 (可选)

  • 网络: 千兆以太网/Wi-Fi 6E

操作系统:

  • Windows 11 Pro 22H2 (64位)

  • Python 3.10.11

OpenVINO 版本:

  • OpenVINO 2025.4.0

  • Optimum Intel 1.16.1 (Intel 官方优化包)

依赖安装步骤:

嫌麻烦的可以直接使用项目的脚本自动创建环境和安装依赖。

  1. 创建虚拟环境

    cd invoice-recognition
    python -m venv .venv
    .venv\Scripts\activate
  2. 安装核心依赖

    pip install -r requirements.txt
  3. 下载模型 (使用 ModelScope)

    pip install modelscope
    modelscope download --model Qwen/Qwen3-VL-4B-Instruct-int4-ov --local_dir ./Qwen3-VL-4B-Instruct-int4-ov
  4. 启动应用

python invoice_recognition_app.py "Qwen3-VL-4B-Instruct-int4-ov"

二、应用场景说明

创新方向

本项目基于 Qwen3-VL 视觉语言大模型 和 OpenVINO 推理优化,打造了一个端侧智能发票识别系统,实现了从 PDF 解析到 AI 识别再到 Excel 导出的全流程自动化。

解决的实际问题

  1. 财务处理效率低下:传统人工录入发票信息耗时耗力,容易出错

  2. PDF 文档处理复杂:不同格式的 PDF 文档需要不同的处理方式

  3. 模型推理速度慢:大模型在端侧设备上推理速度受限

  4. 结果导出不便捷:识别结果需要手动整理成 Excel 格式

面向用户群体

  • 企业财务人员:批量处理报销发票、财务审计

  • 小型企业主:简化财务流程,降低人力成本

  • 税务工作者:提高税务申报效率和准确性

  • 个人用户:管理个人发票,方便报销和记账

技术创新点

  1. PDF 智能解析:自动识别 PDF 中的嵌入图片,无图片时自动整页截图

  2. AI 视觉识别:基于 Qwen3-VL 大模型,支持复杂场景下的发票识别

  3. OpenVINO 优化:使用 Intel 推理框架加速模型运行,在端侧设备上实现实时推理

  4. Gradio 交互界面:提供用户友好的 Web 界面,无需编程知识即可操作

  5. 模块化设计:核心功能封装为独立类,便于扩展和维护

三、应用运行展示

3.1、整体界面

3.2、PDF解析

3.3、加载大模型

3.4、使用视觉模型进行解析,填写进excel

3.5、导出excel

这里好多未识别是因为我用的两张发票都是网上找的,很多都是马赛克,所有没有识别到。表头也可以自定义填写。有需要的财务朋友可以试试,可以大大节省人力。

四、总结与展望

端侧部署心得

  1. 模型优化至关重要:使用 OpenVINO 进行模型优化后,推理速度提升了约 3-5 倍,在 AMD Ryzen 9 8945HX 上实现了实时识别

  2. 硬件适配:通过 device="AUTO" 配置,系统能自动选择最优的推理设备(CPU/GPU)

  3. 内存管理:对大模型进行 int4 量化后,内存占用从 8GB 降至 2-3GB,适合普通 PC 部署

  4. 用户体验:Gradio 框架提供了开箱即用的 Web 界面,大大降低了使用门槛

当前局限

  1. 识别准确率:在复杂背景、低分辨率或模糊的发票图片上,识别准确率仍有提升空间

  2. 多语言支持:目前主要针对中文发票,需要扩展支持其他语言的发票

  3. 批量处理:对于大量发票的处理,系统响应时间会明显增加

优化方向

  1. 并行处理:优化批处理能力,提高多发票同时处理效率

  2. 模型蒸馏:使用知识蒸馏技术,训练更轻量的专用模型

  3. 边缘计算:探索在更小型设备上的部署方案

未来规划

  1. 功能扩展:支持更多类型的票据识别(如收据、银行回单等)

  2. 云端协同:实现端云协同推理,复杂任务上云处理

  3. 智能分类:添加发票自动分类和归档功能

  4. API 服务:提供 RESTful API,集成到企业财务系统

  5. 移动应用:开发配套的移动应用,支持手机拍照识别

结语

本项目成功实现了基于 Qwen3-VL 视觉大模型的端侧发票识别系统,通过 OpenVINO 优化和模块化设计,在普通 PC 上实现了高效准确的发票识别。系统不仅解决了实际的财务处理问题,也展示了大模型在端侧部署的可行性和优势。

未来,我们将继续优化系统性能,扩展功能范围,为企业和个人用户提供更加智能、高效的发票处理解决方案。

当AI技术重塑感官,虚拟与现实的界限正在消融。
魔珐星云——以超写实数字人技术为核心,正在构建一个全新的虚拟生态。
诚邀您通过专属通道入驻,体验最前沿的虚拟互动技术,抢占Web3.0时代的先机。
👉 点击注册:https://c.c1nd.cn/9C9WW
💎 邀请代码: J3VA6QNSW2 
未来已来,期待在星云中与你相遇。🌌
注册使用我的专属邀请码体验数字人ai男友、女友。
平板,电脑均可体验

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐