基于深度学习的智能监考系统（YOLOv12完整代码+论文示例+多算法对比）

矩阵因果科技

2941人浏览 · 2026-04-18 20:04:16

矩阵因果科技 · 2026-04-18 20:04:16 发布

摘要：本文面向考场与线上考试场景，设计并实现一套基于深度学习的智能监考系统，以“可实时发现异常行为、可追溯留痕、可批量导出复核”为核心目标。系统提供数据与代码可下载的完整工程，桌面端采用 PySide6/Qt 构建交互界面，支持图片/视频/本地摄像头输入的统一接入与互斥切换，并在推理过程中以处理进度条与耗时统计反馈运行状态。检测结果以“类别名+置信度+边界框”叠加显示，支持阈值在线调节、目标选择与高亮复核，可将结构化结果CSV 导出，并支持带框结果一键导出（单帧 PNG / 多帧 AVI）以便证据留存与后续抽检。系统内置本地 SQLite 数据管理，提供**登录/注册（可跳过）机制以区分会话与历史记录；同时提供模型选择/权重加载（.pt 热切换）**能力，可在不中断主流程的情况下切换类别信息与配色配置。算法侧覆盖 YOLOv5–YOLOv12（共 8 种）模型训练与部署链路，围绕 mAP、F1、PR、训练曲线等指标进行对比分析，给出精度与实时性的权衡结论与工程落地建议。文末提供完整工程与数据集链接。

➷点击跳转至文末所有涉及的完整代码文件页☇

1. 系统功能与效果

（1）登录注册：系统提供登录、注册与跳过三种入口，登录态在本次会话内生效，用于区分不同监考人员的历史记录与导出权限；若选择跳过，则以一次性匿名会话进入主界面，避免额外操作负担。账户信息与历史结果由本地 SQLite 统一管理，配合口令校验与基础会话隔离，在保证便捷性的同时提升数据安全与可追溯性。
在这里插入图片描述

（2）功能概况：进入系统后首先呈现概览页，集中展示最近一次检测摘要、常用入口与关键状态，帮助用户快速确认当前配置与记录是否一致。整体动线保持清晰，通常按“概览—图片检测—模型选择—结果复核与导出”完成一次闭环操作，并可随时回到概览定位最近记录与关键导出项。
在这里插入图片描述
（3）选择模型：系统支持在界面中选择不同 YOLO 系列模型并加载本地权重，切换后会同步刷新类别信息与可视化配色，避免不同模型间标签混淆。模型更换不需要退出主流程，便于在同一批素材上快速对比推理效果与稳定性，从而为实际监考场景选定更合适的精度与速度组合。
在这里插入图片描述
（4）图片检测（正常考试）：针对正常考试画面，系统以“类别名+置信度+边界框”在主显示区叠加结果，突出与监考相关的关键对象与状态，便于快速确认是否存在异常线索。用户可在线调节 Conf/IoU 等阈值，并对目标进行选择与高亮，以一致的规则完成多张样本的快速复核与统计。
在这里插入图片描述
（5）图片检测（疑似作弊）：当画面出现遮挡、低头频繁、多人同框或疑似交互等可疑迹象时，系统强调可疑目标的定位与可解释呈现，通过高亮与记录视图帮助监考人员迅速聚焦关键证据帧。该模式更关注“少漏检、便复核”的体验，便于对疑点样本进行二次放大查看、对比前后帧差异，并形成可追溯的异常条目。
在这里插入图片描述
（6）文件保存：系统支持将结构化结果导出，并提供带框结果的一键保存能力，便于证据留存与后续抽检复核。所有导出文件采用时间戳命名并统一归档，支持按文件名快速检索与追溯，降低批量管理中的混淆与重复覆盖风险。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

随着高校与职业资格考试的数字化与线上化推进，监考从“现场巡查”逐步扩展到“摄像头与屏幕协同”的远程模式，学术诚信风险随之转向更隐蔽、更碎片化的违规行为形态，例如替考、夹带、多人同屏与设备作弊等，这使得可量化、可复核的技术型监考需求显著上升。1 (Frontiers)

在实际考务中，纯人工监看面临注意力衰减、盲区覆盖与证据留存不一致等问题，而基于计算机视觉的智能监考能够将“可疑事件”从长时视频中自动检索出来，再交由监考人员二次核验，从而形成更符合考务流程的人机协同闭环。2 (Researching)

目标检测是智能监考中最直接、最可解释的视觉能力之一，它可以将“禁用物品”“非本人”“多人的出现”等线索以边界框与置信度的方式呈现，便于在界面端做高亮、回放与导出；与此同时，YOLO 系列在速度与精度权衡上长期占优，为桌面端实时推理与边缘部署提供了工程可行性。[3][15]

2.2 国内外研究现状

面向智能监考这一具体场景，研究关注点通常落在“实时性、可解释性与低误报”三者的折中：一方面，禁用物品（如手机、耳机）往往尺度较小且易被遮挡，另一方面，疑似作弊属于长尾事件，样本稀缺且跨考场分布差异显著，此外还存在光照变化、低码率压缩与多视角覆盖不足等工程约束。2 (Researching)

从检测范式看，两阶段方法以候选框机制提升定位精度，但在多路视频与高帧率场景下容易受到延迟与资源占用限制；例如 Faster R-CNN 通过区域建议网络实现端到端训练，奠定了两阶段检测的经典路线。4 单阶段方法将检测视为密集预测问题，在速度上更具优势，SSD 用多尺度特征图在一次前向中完成分类与回归，体现了早期实时检测的代表性思路。5 (arXiv)

为缓解密集检测中的类别不平衡与小目标漏检问题，研究提出了更贴合任务损失与样本挖掘的策略，Focal Loss 通过调制因子降低易样本权重并聚焦难样本，从而推动了单阶段检测器在精度上的跃升。6 在端到端方向，DETR 用 Transformer 将检测建模为集合预测，显著减少手工先验与后处理依赖，但其收敛与小目标表现也促使后续大量改进工作出现。[7] (arXiv)

为兼顾端到端与实时性，RT-DETR 以“实时 DETR”路线在 COCO 上给出较高的 AP 并强调推理速度优势，适合对部署一致性与后处理简化有要求的场景。[8] YOLOv10 则从训练分配与结构设计出发推进 NMS-free 的端到端部署，并在相近 AP 下给出相对 RT-DETR 的速度与复杂度优势描述。[14] 进一步地，YOLOv12 以“注意力为中心”的框架在 T4 上给出 YOLOv12-N 40.6% mAP 与 1.64 ms 延迟等指标，同时宣称在同等速度下优于 YOLOv10/YOLOv11 的轻量模型精度表现。[15] (arXiv)

在 YOLO 家族与工业化实践方面，YOLOX 以解耦头与 Anchor-free 等设计在 2021 年给出更强的速度精度边界，PP-YOLOE 也强调了在 COCO 上的 mAP 与推理帧率表现，并面向部署做了体系化优化。[9][10] 训练层面，DIoU/CIoU 将边界框回归从重叠面积扩展到中心距离与形状项，EIoU 进一步将宽高误差解耦以提升收敛与定位质量，这些损失与 NMS 变体常被用于提升小目标与遮挡条件下的定位稳定性。[18][19] (arXiv)

表 2-1 代表性方法对比（与智能监考场景的关联）

方法	范式/家族	代表数据集	关键改进点（概括）	优势与局限（面向监考）	指标示例（论文表述）	更适配的任务难点
Faster R-CNN	两阶段	PASCAL VOC/COCO	RPN+检测头端到端	精度强但延迟与算力开销更高	论文强调“近实时”并给出速度对比	低误检、强定位
SSD	单阶段	PASCAL VOC/COCO	多尺度特征图一次前向预测	速度快但小目标与遮挡仍敏感	文中给出 VOC 上 mAP 与 FPS 描述	多目标实时、轻量部署
YOLOX	单阶段 YOLO 分支	COCO	解耦头、Anchor-free 等	速度精度兼顾，工程落地成熟	文中给出 50.0 AP 与 68.9 FPS（Tesla V100）	小目标、多尺度
PP-YOLOE	单阶段 YOLO 分支	COCO	体系化训练与结构优化	精度与吞吐兼顾，适合批量推理	文中给出 51.4 mAP 与 78.1 FPS（T4, FP16 TensorRT）	实时性、稳定训练
RT-DETR	Transformer 检测器	COCO	强调实时的 DETR 改造	端到端友好但结构更复杂	文中给出 AP 与 FPS（T4）	简化后处理、部署一致性
YOLOv10	端到端 YOLO	COCO	NMS-free 训练分配与结构效率优化	强调端到端与低延迟	文中给出相对 RT-DETR 与 YOLOv9 的速度/延迟比例优势	低延迟、端到端部署
YOLOv12	注意力 YOLO	COCO	注意力为中心且强调速度不降	精度提升同时维持实时	文中给出 40.6% mAP 与 1.64 ms（T4）	遮挡、多尺度、实时
DIoU/CIoU / EIoU	损失函数/训练策略	多数据集通用	引入中心距离/形状项与宽高解耦	改善回归收敛与定位质量	论文报告“更快收敛/更好定位”	小目标定位、抖动抑制

表中“指标示例”与方法结论分别对应原论文摘要/实验描述。4[8][9][10][14][15][18][19] (arXiv)

2.3 要解决的问题及其方案

要解决的问题主要体现在以下四点：（1）监考画面通常为长时视频流，系统既要对禁用物品与异常行为保持较高检出率，又要控制误报与延迟，保证可用的实时交互体验；（2）考场环境差异显著，包含机位高度、光照、背景复杂度与画面压缩等变化，模型需要具备足够的泛化能力与稳定性；（3）桌面端交互既要让监考人员快速定位“正常考试”与“疑似作弊”的关键证据，又要支持阈值调参、目标高亮与多源互斥切换等完整流程；（4）结果数据与证据材料需要安全可追溯地存储与导出，兼顾本地隐私保护与后续复核效率。

对应地，本文系统方案可归纳为四点：（1）以 YOLOv12 为核心检测器，并与 YOLOv5 至 YOLOv12 的多版本模型进行训练与推理对比，结合迁移学习与数据增强提升对小目标与遮挡情形的鲁棒性；（2）基于 PyTorch 完成训练与推理，将检测流程与 PySide6/Qt 桌面交互集成，形成从多源输入、统一预处理、推理到可视化的端到端闭环；（3）支持本地权重加载并实现模型热切换，使类别信息与配色同步刷新，同时在界面侧提供置信度与 IoU 阈值调节、目标选择与高亮复核；（4）以时间戳命名实现证据文件的统一归档，支持 CSV、带框单帧与多帧视频导出，并采用 SQLite 在本地完成账户与记录管理以降低隐私与运维风险。

2.4 博文贡献与组织结构

本文的主要贡献包括：（1）围绕智能监考这一强工程约束场景，对目标检测与端到端实时检测路线进行综述，并给出与任务难点对应的取舍分析；（2）以 YOLOv12 为主线完成模型训练、推理与多版本对比，形成可复现实验流程与指标体系；（3）构建 PySide6/Qt 桌面端交互式监考系统，实现多源输入、可疑事件可视化、模型热切换与结果一键导出等闭环能力；（4）以本地 SQLite 与统一归档策略实现记录、证据与配置的可追溯管理，为后续考务复核提供稳定的数据支撑。

后续章节安排如下：第 3 章介绍数据集处理与标注规范，并说明类别统计与增强策略；第 4 章围绕 YOLOv12 给出模型结构、损失与训练要点；第 5 章展示 YOLOv5 至 YOLOv12 的实验对比与误差分析；第 6 章从分层架构角度说明 Qt 桌面端系统设计、账户流程与数据持久化实现；第 7 章总结全文并讨论轻量化、部署与数据闭环的未来工作方向。

3. 数据集处理

本文对应材料已给出：数据集共 2754 张图像，划分为 2083 张训练、457 张验证与 214 张测试，任务类别为三类——疑似作弊（cheating）、良好（good）、正常（normal）。从样例可见，画面覆盖线上与线下考场等多种监控视角，单帧中可能包含一名或多名考生，标注以目标框的方式把“需要被判别的主体”显式定位出来，为后续在桌面端实现可解释的框选与复核导出奠定基础。标签及其对应中文名如下：

Chinese_name = {"cheating": "疑似作弊", "good": "良好", "normal": "正常"}

在这里插入图片描述

从类别统计图可以直观看到样本呈现不均衡分布，“疑似作弊”相关实例数量明显高于另外两类，而“正常/良好”之间也存在差异，这类长尾与不均衡会直接影响模型的决策阈值与误报漏报倾向，尤其在监考场景中更需要控制“少漏检但不过度误报”的体验。结合标注框位置分布与宽高相关图可发现，目标中心更倾向出现在画面中部区域，同时目标尺度跨度较大，既包含占据画面较大比例的近景人物，也包含远景教室中较小的人体目标；这意味着训练阶段必须重视多尺度学习与遮挡鲁棒性，否则容易在“多人同框、远景小目标、局部遮挡”条件下出现漏检或类别混淆。
在这里插入图片描述

在数据划分上，本数据集的训练/验证/测试约为 75.6%/16.6%/7.8%，为了保证对比实验的公平性与可复现性，建议划分过程中固定随机种子并保持各类别在不同子集中的比例尽可能一致，同时在加载数据时对异常标注与缓存文件进行清理以避免脏数据干扰。预处理方面，系统侧推理与训练通常统一将输入缩放并填充到 640×640，以便对齐不同 YOLO 模型的输入口径；增强策略建议围绕监考难点进行选择，例如通过随机尺度与仿射变换覆盖机位变化，通过颜色扰动模拟光照差异，通过随机翻转与局部遮挡增强提升对遮挡与局部证据的敏感性，从而在“正常考试”与“疑似作弊”的细粒度差异上获得更稳定的泛化表现。
在这里插入图片描述

4. 模型原理与设计

本文系统默认以 YOLOv12 作为主线检测器，其整体仍遵循 YOLO 家族经典的单阶段范式：输入图像经过骨干网络抽取多尺度特征，颈部网络进行跨层融合与语义增强，最后由检测头在不同尺度上同时完成类别预测与边界框回归，从而在一次前向中输出候选框集合。对智能监考而言，这种“密集预测 + 多尺度输出”的结构天然适配同屏多人、远近尺度差异与局部遮挡等情况，并且便于在桌面端以“框 + 类别 + 置信度”的方式可解释呈现，形成“发现线索—人工复核”的工作流闭环。 (Ultralytics Docs)

YOLOv12 的关键变化在于“以注意力为中心”的设计取向：它将注意力机制更深入地放入主干与融合模块中，但又通过结构与算子层面的取舍维持实时性，其中代表性组件包括区域注意力（Area Attention）与 R-ELAN 等聚合结构。区域注意力可以写成标准注意力的形式：设输入特征为 $X\in\mathbb{R}^{H\times W\times C}$ ，通过线性映射得到 $Q=XW_Q,;K=XW_K,;V=XW_V$ ，则自注意力输出为
$\mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V,$
其中 $d$ 为通道维度或每头的维度；而 YOLOv12 的“区域注意力”思想是在 $H\times W$ 的特征图上沿水平或垂直方向等分为 $l$ 个区域（默认 $l = 4$ ），在保证感受野的同时降低全局注意力的计算与内存访问压力，使注意力模块更贴近实时检测的延迟约束。网络整体架构图如下图所示：
在这里插入图片描述

在训练目标上，YOLO 系列通常将检测学习拆为“分类 + 目标性/置信度 + 回归”三部分，本文也采用这一思路组织损失以便与多版本模型对齐比较，可写为
$\mathcal{L}=\lambda_{\text{box}}\mathcal{L}*{\text{box}}+\lambda*{\text{cls}}\mathcal{L}*{\text{cls}}+\lambda*{\text{obj}}\mathcal{L}*{\text{obj}}.$
其中 $\mathcal{L}*{\text{cls}}$ 与 $\mathcal{L}*{\text{obj}}$ 多用 BCE 类损失稳定优化， $\mathcal{L}*{\text{box}}$ 则常用 IoU 系列回归增强定位质量；以 CIoU 为例，
$\mathcal{L}_{\text{CIoU}} = 1-\mathrm{IoU} + \frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2} + \alpha v,$
$\rho(\cdot)$ 表示预测框中心与真实框中心的欧氏距离， $c$ 为最小外接框对角线长度， $v=\frac{4}{\pi^2}\big(\arctan\frac{w^{gt}}{h^{gt}}-\arctan\frac{w}{h}\big)^2$ 描述长宽比一致性， $\alpha$ 为权衡系数；在监考数据中，这类几何约束对“多人同框导致的边界贴近”“遮挡导致的框抖动”通常更友好，也更利于把“正常/良好/疑似作弊”的视觉证据稳定框定在可复核区域内。 (Ultralytics Docs)

推理阶段，系统将输入统一缩放与填充到固定尺寸（如 640×640）以对齐不同 YOLO 版本的输入口径，输出的候选框先经置信度阈值筛选，再通过 NMS 等后处理抑制重复框，最终得到 $KaTeX parse error: Expected 'EOF', got '_' at position 14: {(\text{class_̲id},\text{score…$ 的结构化结果并回投到原图坐标系。对智能监考来说，阈值与 NMS 的设置直接影响体验：偏低会带来“疑似作弊”误报增多、复核压力上升，偏高则可能在小目标或遮挡条件下漏掉关键线索，因此本文在桌面端保留 Conf/IoU 可调的交互入口，使监考人员能在“正常考试批量快速过检”和“疑似作弊重点复核”两种工作模式之间，按场景快速找到更合适的精度与召回平衡点。 (Ultralytics Docs)

5. 实验结果与分析

本章在 2754 张监考图像数据集上进行对比实验（训练/验证/测试为 2083/457/214），类别分别为疑似作弊（cheating）、良好（good）、正常（normal），统一输入分辨率按 640×640 口径处理；评价指标采用 Precision、Recall、F1，以及检测常用的 mAP50 与 mAP50-95，并记录端到端耗时分解为预处理、推理与后处理时间。所有速度数据均在 NVIDIA GeForce RTX 3070 Laptop GPU（8GB） 上采集，保证同一硬件与相同评测脚本下的横向可比性。

模型	规模	Params(M)	FLOPs(G)	Pre(ms)	Inf(ms)	Post(ms)	P	R	F1	mAP50	mAP50-95
YOLOv5nu	n	2.6	7.7	1.90	7.73	1.31	0.744	0.757	0.750	0.772	0.560
YOLOv6n	n	4.3	11.1	2.17	6.78	1.39	0.734	0.713	0.723	0.746	0.554
YOLOv7-tiny	n	6.2	13.8	2.28	14.74	4.06	0.715	0.695	0.705	0.671	0.439
YOLOv8n	n	3.2	8.7	1.95	6.83	1.39	0.757	0.734	0.746	0.764	0.576
YOLOv9t	n	2.0	7.7	1.87	16.51	1.29	0.748	0.745	0.746	0.778	0.600
YOLOv10n	n	2.3	6.7	2.08	11.24	0.63	0.739	0.730	0.735	0.759	0.571
YOLOv11n	n	2.6	6.5	2.11	9.44	1.42	0.742	0.721	0.731	0.764	0.569
YOLOv12n	n	2.6	6.5	1.91	12.47	1.37	0.738	0.733	0.736	0.760	0.573
YOLOv5su	s	9.1	24.0	2.28	8.45	1.51	0.765	0.746	0.755	0.772	0.575
YOLOv6s	s	17.2	44.2	2.22	8.59	1.45	0.732	0.729	0.731	0.749	0.563
YOLOv7	s	36.9	104.7	2.44	23.62	3.46	0.792	0.729	0.759	0.713	0.516
YOLOv8s	s	11.2	28.6	2.31	7.66	1.42	0.744	0.744	0.744	0.769	0.572
YOLOv9s	s	7.2	26.7	2.12	18.66	1.39	0.774	0.723	0.748	0.773	0.588
YOLOv10s	s	7.2	21.6	2.21	11.38	0.60	0.730	0.719	0.724	0.740	0.561
YOLOv11s	s	9.4	21.5	2.37	9.74	1.36	0.746	0.742	0.744	0.765	0.578
YOLOv12s	s	9.3	21.4	2.09	13.23	1.42	0.764	0.713	0.738	0.768	0.580

从 n 级模型看，整体 mAP50 分布在 0.671–0.778，F1 分布在 0.705–0.750，说明在“轻量参数”预算下已经能够满足多数在线监考的基础预警需求；其中 YOLOv9t 取得最高 mAP50（0.778）与最高 mAP50-95（0.600），但推理耗时明显偏高（16.51ms），更适合“离线抽检或低帧率复核”场景。若以实时交互为优先，YOLOv6n/YOLOv8n 的推理更快（约 6.8ms），而 YOLOv5nu 在速度仍可接受（7.73ms）的同时给出更高的 F1（0.750），在“正常考试快速过检”模式下往往更稳；相对而言，YOLOv7-tiny 不仅精度落后，后处理时间也更高，提示“模型小”并不必然带来端到端更快，结构与后处理开销对桌面端体验同样关键。

从 s 级模型看，mAP50 上限与 n 级接近甚至略有提升（最高 0.773），但速度差异更大：YOLOv8s 推理最快（7.66ms）且精度处于第一梯队（mAP50 0.769），属于“桌面端实时 + 可用精度”的典型折中；YOLOv9s 在 mAP50（0.773）与 mAP50-95（0.588）上表现最强，但推理耗时达到 18.66ms，更像“偏精度”的配置。YOLOv7 的 Precision 与 F1 很高（P 0.792，F1 0.759），但参数量、FLOPs 和推理耗时都显著增大，使其在 8GB 显存的常见笔记本 GPU 上不具备性价比；因此对于监考系统这种“长时运行 + 稳定交互”的任务，博主更倾向把 s 级模型作为“疑似作弊重点复核”的默认档位，把 n 级模型作为“低功耗实时巡检”的默认档位，并在 Qt 端提供一键切换以适配不同考务策略。

下图给出了 n/s 两组模型的 F1 与 mAP50 双条形对比（由实验结果直接绘制），可以直观看到：一方面，各模型间精度差距并不悬殊（多数集中在 0.74–0.78 的 mAP50 区间），另一方面“更高的 mAP50”并不必然对应更高的实时性，实际部署时更需要把推理耗时与误报成本一起纳入权衡。

在这里插入图片描述

图 5-1：n 级轻量模型在监考数据集上的 F1 与 mAP50 双指标对比。
图注：YOLOv9t 精度占优但延迟较高，YOLOv5nu/YOLOv8n 更偏向实时折中。

在这里插入图片描述

图 5-2：s 级中等规模模型在监考数据集上的 F1 与 mAP50 双指标对比。
图注：YOLOv8s 综合表现更均衡，YOLOv9s 在 mAP50-95 上更强但推理更慢。
在这里插入图片描述

进一步从误检漏检机理看，归一化混淆矩阵显示“疑似作弊”与“良好”之间仍存在一定混淆，同时“疑似作弊”更容易被当作背景漏掉，这与监考画面里遮挡、低清晰度以及“动作相似但语义不同”的细粒度差异高度一致；
在这里插入图片描述

PR 曲线也呈现出良好类更易学、疑似作弊更难学的现象（同一权重下 good 的 AP 明显高于 cheating），这解释了为什么在实际系统里需要同时提供 Conf/IoU 的在线调参入口。
在这里插入图片描述

结合 F1-Confidence 曲线可将默认阈值设在使整体 F1 最大的区域（例如约 0.47 附近），并在交互层设计两种预设：正常考试模式适当提高阈值以降低误报与复核负担，疑似作弊模式适当降低阈值以换取更高召回并配合“目标高亮 + 证据导出”完成二次核验。

从改进方向上，若目标是进一步压低“疑似作弊漏检”，更有效的路径通常不是盲目放大模型，而是围绕数据与训练策略做“对症优化”：例如补充手机/手部等强关联的难例与硬负样本、对疑似作弊类做类均衡采样或代价敏感学习、在视频端引入简单的时间一致性平滑以抑制瞬时误报，以及在 Qt 系统侧为“疑点帧”提供更明确的溯源与复查入口；这些改动往往能更直接地把算法提升转化为监考流程中的体验提升。

6. 系统设计与实现

6.1 系统设计思路

本系统采用分层架构组织桌面端工程，将“可视化与交互”与“推理计算”解耦：表现与交互层以 PySide6/Qt 客户端承载，围绕“左侧数据源与阈值控制—中央检测画面显示—右侧目标详情—底部记录与进度条”的固定布局完成监考工作流闭环；业务与会话管理层负责登录态、输入源互斥、阈值与统计的统一维护，并将用户操作抽象为稳定的任务请求；推理与任务调度层以事件驱动方式组织帧流，完成多源接入、预处理、YOLO 推理与后处理；数据持久化层将检测记录、账户配置与证据文件统一归档，保证可追溯与可复核。该分层方式的关键收益在于：界面侧专注体验一致性，算法侧专注吞吐与准确性，二者通过清晰的数据契约与任务边界协同演进。

跨层协同的主链路遵循“多源输入—统一预处理—模型推理—后处理/统计—前端可视化与交互闭环”的流水线：图片类输入强调一次性批量处理与可视结果复核，视频与摄像头输入强调持续帧流与可控的延迟抖动。为保证实时性与一致性，系统采用源互斥策略避免多路媒体争抢算力与 UI 线程资源，并在业务层维护 Conf/IoU 等阈值的单一真值源，使其与推理层过滤逻辑、前端高亮显示与统计字段保持同步；同时以进度条与用时统计反馈处理状态，降低长视频或批量图片场景下的不确定感。对于“正常考试快速过检”与“疑似作弊重点复核”两种监考模式，阈值与目标高亮选择作为核心交互入口，使监考人员能在召回与误报成本之间快速切换策略。

系统的可扩展性主要体现在三点：其一，模型权重与类别信息独立管理，支持本地权重热切换并同步刷新类别与配色；其二，统计与导出流程由业务层统一编排，确保 CSV、带框 PNG/AVI 与记录表字段口径一致，并通过时间戳命名实现批量管理与溯源；其三，主题与配置本地化保存，使常用阈值、默认模型与界面风格在不同场次监考间可复用。异常恢复方面，推理层对媒体读帧失败、模型加载失败与导出写入失败等情况进行隔离处理，避免单点异常导致 UI 卡死或会话状态错乱，从而满足长时运行的稳定性要求。

在这里插入图片描述

图 6-1 系统流程图（Draw.io XML）
图注：系统自初始化进入多源输入，完成预处理、YOLO 推理与后处理，并在 Qt 界面形成“阈值调参—目标高亮—记录与导出”的闭环；导出阶段采用时间戳命名，便于溯源与批量管理。

在这里插入图片描述

图 6-2 系统设计框图（Draw.io XML）
图注：框图体现“表现与交互层—业务与会话管理层—推理与任务调度层—数据持久化层”的模块边界与数据流向，模型权重管理贯穿推理与导出两端并向上同步类别与配色。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图 6-3 登录与账户管理流程图（Draw.io XML）
图注：流程覆盖登录/注册/校验/加载个性化配置与进入主界面的关键路径，并通过本地数据库实现账户与历史记录的持久化，保证监考过程的权限边界与可追溯性。

登录与账户管理流程从启动进入登录界面开始，系统首先判断是否已有账号：无账号则进入注册并将账户信息写入本地数据库，有账号则直接输入账号与口令并完成校验；校验成功后载入用户个性化配置（如主题、默认模型与最近记录）再进入主界面，失败则回到输入环节以避免会话污染。该流程的价值在于将“身份与权限”“历史记录与偏好”“检测主流程”三者在本地持久化机制下统一起来，使不同监考人员在同一设备上具备清晰的会话边界，同时为后续的结果复核与证据导出提供稳定的索引与追溯入口。

7. 项目资源链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

项目完整文件请见项目介绍及功能演示视频处给出:

完整项目及文档： https://newtopmat.feishu.cn/wiki/STcBwAef0ifpvZkTSkdc3v2Bnge

功能效果展示视频：热门实战｜《基于深度学习的智能监考系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 HOLDEN O L, NORRIS M E, KUHLMEIER V A. Academic Integrity in Online Assessment: A Research Review[J]. Frontiers in Education, 2021, 6: 639814. doi:10.3389/feduc.2021.639814.
2 冯岩, 卢磊. 基于Yolov5和Dlib的在线违规行为监控识别算法[J]. 光电子技术, 2023, 43(3): 276. doi:10.19453/j.cnki.1005-488x.2023.03.015.
3 邵延华, 张铎, 楚红雨, 张晓强, 饶云波. 基于深度学习的YOLO目标检测综述[J]. 电子与信息学报, 2022, 44(0): 1-12. doi:10.11999/JEIT210790.
4 REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[EB/OL]. arXiv:1506.01497, 2015.
5 LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[EB/OL]. arXiv:1512.02325, 2015.
6 LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[EB/OL]. arXiv:1708.02002, 2017.
[7] CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers[EB/OL]. arXiv:2005.12872, 2020.
[8] ZHAO Z, et al. RT-DETR: DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023.
[9] GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021.
[10] XU S, et al. PP-YOLOE: An evolved version of YOLO[EB/OL]. arXiv:2203.16250, 2022.
[11] LI C, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[EB/OL]. arXiv:2209.02976, 2022.
[12] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. arXiv:2207.02696, 2022.
[13] WANG C-Y, YEH I-H, LIAO H-Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024.
[14] WANG A, CHEN H, LIU L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024.
[15] TIAN Y, YE Q, DOERMANN D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025.
[16] ULTRALYTICS. Ultralytics YOLOv8 Documentation[EB/OL]. [2025-12-19].
[17] ULTRALYTICS. Ultralytics YOLO11 Documentation[EB/OL]. [2025-12-19].
[18] ZHENG Z, WANG P, LIU W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[EB/OL]. arXiv:1911.08287, 2019.
[19] ZHANG Y-F, REN W, ZHANG Z, et al. Focal and Efficient IOU Loss for Accurate Bounding Box Regression[EB/OL]. arXiv:2101.08158, 2021.