基于深度学习的石头剪刀布手势识别(YOLOv12完整代码+论文示例+多算法对比)
摘要:本文面向“石头-剪刀-布”三类手势的实时识别需求,构建一套端到端的深度学习桌面应用:训练与推理侧支持 YOLOv5–YOLOv12(共 8 种) 模型统一对比与部署,提供可下载的数据集与训练代码;交互侧基于 PySide6/Qt 实现图形化流程,覆盖 登录/注册(可跳过)、概览导航、图片/视频/本地摄像头多源输入、主显示区叠加框(类别名+置信度)、处理进度条 与用时统计。系统支持在界面内进行 模型选择/权重加载(.pt 热切换),切换后同步刷新类别信息与配色,并允许调节置信度阈值与 IoU 阈值以适配不同光照与遮挡场景;结果侧提供 CSV 导出、带框结果 一键导出(单帧 PNG / 多帧 AVI)、以及基于 SQLite 本地入库 的检测记录与账户管理,便于检索追溯与安全持久化。实验部分对各 YOLO 版本在同一数据集上进行精度与效率评测,给出 mAP、F1、PR 曲线与训练曲线等对比结论,为实际部署选择提供依据。文末提供完整工程与数据集下载链接。
文章目录
功能效果展示视频:热门实战|《基于深度学习的石头剪刀布手势识别》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
1. 系统功能与效果
(1)系统提供登录、注册与跳过三种入口,用户可在首次进入时选择一次性跳过以快速体验核心流程;完成登录后,会话在本次运行期间持续生效,并同步载入历史记录与个性化偏好。进入主界面后,操作动线清晰:先浏览概览信息,再进入图片检测等功能页,随后进行模型选择并完成导出与复查。账户信息与记录以本地数据库管理,配合口令校验与最小化暴露原则,兼顾易用性与基础安全。
(2)主界面以“左侧参数与数据源控制—中部可视化结果—右侧目标详情—底部记录与进度反馈”的布局组织交互,用户能够在一个视图内完成输入、推理、查看与导出。概览页聚合最近一次检测摘要与关键统计,便于快速回到上次工作现场。底部检测记录在不同功能页间保持一致的呈现与检索体验,支持按时间或文件名快速定位,并可对关键条目进行醒目提示以提升复查效率。
(3)模型选择支持从本地加载权重并即时切换当前推理模型,切换后类别集合与可视化配色会同步刷新,避免不同模型间的标签错配。常用配置(如阈值默认值、界面主题与显示偏好)支持本地持久化,保证多次启动的一致体验。对比多种 YOLO 版本时,用户可在同一数据与同一界面流程下完成切换与观察,从而更直观地权衡精度与速度。
(4)图片检测支持单张图像的即时推理与主显示区叠加框展示,检测结果以“类别名+置信度”的形式直观标注,并在右侧详情区域给出目标位置与分数等信息。用户可通过 Conf 与 IoU 的调节快速控制误检与漏检的平衡,并对感兴趣目标进行选择与高亮以辅助核查。检测过程会同步反馈用时与处理状态,确保交互节奏稳定且可预期。
”布“检测效果:
”石头”检测效果:
(5)文件保存围绕“可追溯、可复查、可批量管理”的目标设计,导出文件采用时间戳命名并保持统一的归档规则,便于后续检索与对照。系统支持保存带框结果图、导出结构化记录并与历史检测绑定,实现从可视化到数据分析的闭环。配合本地数据库的记录留存,用户可在不依赖外部服务的情况下完成长期归档与快速回溯。
2. 绪论
2.1 研究背景及意义
手势是一种低门槛、强直观的人机交互方式,能够在教育游戏、智慧家居与无接触交互等场景中降低操作成本,并以“动作即指令”的形式提升交互效率。1 在“石头-剪刀-布”这类三分类静态手势任务中,系统不仅需要给出类别结果,还需要在复杂背景与多尺度条件下稳定定位手部区域,以便为后续的记录、复查与可解释展示提供依据。3 传统两阶段检测器以候选框机制换取较强的精度上限,但在交互式桌面端实时推理中常面临计算开销与时延压力,从而影响连续帧体验与参数调节的即时反馈。2
从工程落地角度看,桌面端应用的价值并不止于“识别准确”,还包括可复现的训练评测、可热切换的模型权重、可追溯的结果归档与可控的本地数据治理。5 目标检测范式能够以边界框形式给出“在哪里、是什么”,使得误检与漏检具有可视化解释路径,便于用户在阈值调参、样本回溯与数据修订时形成闭环。4 因此,将轻量化检测模型与可交互的 Qt 桌面系统结合,在保证实时性与稳定性的前提下实现可视化、可导出与可对比评测,对“石头-剪刀-布”手势识别的工程化落地具有直接意义。12
2.2 国内外研究现状
围绕“石头-剪刀-布”静态手势识别的在线应用,现有研究与工程实践普遍面临背景干扰、手部自遮挡、尺度变化、光照漂移与类间形态相似等难点,这些因素会同时影响检测定位与分类判别的稳定性。14 为提升在真实场景中的鲁棒性,一类思路是先做手部检测或关键点跟踪,再进行手势分类,从而将“找手”与“判别”解耦并降低背景噪声的影响。[16] 以 MediaPipe Hands 为代表的端侧手部跟踪流水线强调在移动端实现实时性与较高的关键点质量,为静态手势分类提供了结构化特征入口。14
另一类主流路线是直接采用目标检测器对手势进行端到端检测,将类别与位置统一建模以适配多目标与多尺度需求。1 在通用检测领域,两阶段方法以候选区域为中心组织特征提取,在遮挡与复杂背景中具有一定优势,但代价是更高的推理开销与更复杂的部署路径。2 单阶段方法通过密集预测获得更高吞吐,SSD 将多尺度预测引入单阶段框架以增强对尺度变化的覆盖。3 面向前景背景极不均衡的密集检测问题,Focal Loss 通过抑制易样本损失占比来改善难样本学习,从而提升对“难负样本”与“低占比类别”的训练稳定性。4 在无需锚框的方向上,FCOS 用像素级回归的方式简化了锚框设计与匹配过程,为小目标与多尺度训练提供了更直接的建模路径。6
针对手势识别这一更贴近交互的任务场景,国内研究也在尝试以轻量化与鲁棒性为核心对 YOLO 系列进行定制化改造,例如通过更轻的骨干网络与损失设计提升速度并兼顾精度。15 程亚龙等以静态手势为目标,采用 MobileNetV3 替换 YOLOv5s 主干并引入注意力与距离度量相关策略,报告了参数量降低约 33%、计算复杂度降低约 54% 的轻量化收益。15 倪广兴等将改进 YOLOv5 与 MediaPipe 结合用于手势识别,报告参数量下降 34.5%、最终平均识别率达到 0.997,体现了“检测定位+结构化分析”的互补性。[17] 张常斌等提出 YOLOv5-GR,通过 GhostNet、Bi-FPN 与损失替换实现参数量减少 33.3% 且精度与基线持平的目标,强调了嵌入式与端侧部署导向的结构取舍。[18]
| 方法名称 | 范式/家族 | 数据集 | 关键改进技术 | 优势与局限性 | 关键性能指标 | 适用场景/对应难点 | 引用 |
|---|---|---|---|---|---|---|---|
| MediaPipe Hands | 检测+关键点流水线 | 自建/通用视频流 | 手掌检测与手部关键点回归的两阶段管线 | 端侧实时、关键点结构化强;在强遮挡与极端光照下仍需依赖检测稳定性 | on-device real-time(定性) | 交互式场景、需要结构化解释 | 14 |
| 改进YOLOv5静态手势检测模型 | YOLO(单阶段) | 6类静态手势(1524张) | 轻量骨干+注意力+多尺度策略与损失改造 | 更轻量、适配实时;类别扩展与复杂背景仍依赖数据覆盖 | 参数↓33%,计算复杂度↓54%(相对基线) | 多尺度、实时性与端侧资源约束 | 15 |
| IYOLOv5-Med | YOLO + MediaPipe | 手势数据(文中实验集) | 改进YOLOv5检测+关键点分析与朴素贝叶斯分类 | 鲁棒性提升、训练成本降低;系统复杂度较单模型更高 | 平均识别率0.997,参数↓34.5% | 光照变化、背景干扰、端侧轻量 | [17] |
| YOLOv5-GR | YOLO(单阶段) | ASL手势数据集 | GhostNet骨干+Bi-FPN+SIoU+先验框聚类 | 参数与速度友好;对跨域手型需依赖再训练 | 参数↓33.3%(相对基线) | 资源受限设备、实时检测 | [18] |
| RT-DETR | Transformer(端到端) | MS COCO | 高效混合编码器+高质量查询选择 | 去NMS端到端、速度可调;计算开销仍偏高于轻量YOLO | 53.1% AP,108 FPS(T4) | 端到端部署、追求高精度与稳定性 | 11 |
| YOLOv10 | YOLO(端到端) | MS COCO | NMS-free训练分配+效率驱动结构优化 | 端到端时延更优;对训练策略与实现一致性要求更高 | 相近AP下YOLOv10-S较RT-DETR-R18快1.8× | 低时延、可部署性与吞吐优先 | 13 |
从 YOLO 家族的技术演进看,工程界倾向于在“精度-速度-部署友好”三者之间寻找稳定折中,尤其是对交互式推理而言,稳定时延常比极限 AP 更直接影响用户体验。9 YOLOv6 以工业部署为导向系统化整合网络结构与训练策略,并给出在 T4 上的高吞吐与 AP 结果,体现了“可部署”目标下的工程化取舍。8 YOLOv7 强调可训练的 bag-of-freebies,在 COCO 上给出实时区间的高 AP 表现,说明通过训练策略与结构设计仍可持续挖掘单阶段检测器潜力。10 YOLOv9 通过可编程梯度信息与 GELAN 讨论深层网络的信息传递与参数利用率问题,为更轻量尺度下的精度提升提供了新的视角。12 YOLOv10 则进一步面向端到端部署削弱对 NMS 的依赖,并在抽象层面以“时延与冗余计算”为优化对象推进模型设计。13
系统层面研究也呈现出“多端部署+在线可视化+数据闭环”的趋势,尤其是在桌面端或边缘端场景中,推理链路需要同时支持多源输入、阈值同步、结果导出与可追溯归档。7 Ultralytics 体系将训练、验证、推理与导出流程统一封装,为 YOLO 系列在工程侧的快速评测与部署提供了更低成本的路径。[20] 在更近的版本迭代中,YOLO11 以工程化迭代方式持续更新能力边界,而 YOLO12 更偏向基准与研究用途并提示其训练稳定性与资源消耗特征,这为“选型时优先稳定可部署版本”的实践提供了直接依据。[19]
2.3 要解决的问题及其方案
围绕“石头-剪刀-布”手势识别的桌面端落地,本文需要解决的关键问题主要体现在以下四点:(1)在复杂背景、遮挡与光照变化下同时保证检测精度与交互式实时性,避免连续帧推理造成卡顿并影响阈值调参体验。(2)在不同摄像头成像风格与用户手型差异下保持模型的环境适应性与泛化能力,降低跨场景误检与漏检风险。(3)在桌面端交互层面提供直观且完整的功能闭环,使用户能够完成从输入、推理、可视化、对比到导出的全流程操作。(4)在数据处理、记录与存储层面提升效率与安全性,确保检测记录可追溯、可检索,并与账户体系形成一致的本地治理边界。
对应上述问题,本文给出面向系统一体化的解决方案:(1)以 YOLOv12 为核心参考模型并纳入 YOLOv5 至 YOLOv12 的多模型训练与对比评测,通过数据增强与迁移学习提升在多样场景下的稳健性,并以 mAP、F1、PR 曲线与训练曲线进行综合衡量。(2)基于 PyTorch 构建统一的训练与推理接口,并将推理后处理与阈值参数管理与桌面端联动,确保 Conf 与 IoU 调整能够即时反映在可视化结果中。(3)采用 PySide6/Qt 实现端到端桌面交互,支持图片输入与摄像头实时推理,并提供模型权重热切换以降低选型试错成本。(4)通过序列缓冲、时间戳命名、统一导出与 SQLite 本地库记录机制组织数据流与存储流,提升批量处理与回溯复查效率,同时保障账户与记录的本地化安全边界。
2.4 博文贡献与组织结构
本文的主要贡献与可复用价值体现在以下方面:(1)在手势识别的工程任务语境下给出较完整的检测范式综述与选型依据,并将手势任务难点与检测器关键设计建立对应关系。11(2)将 YOLOv5 至 YOLOv12 纳入统一训练与推理框架进行对比评测,为“石头-剪刀-布”这类交互式小类别任务提供可复现的精度与效率参考。13(3)实现基于 PySide6/Qt 的美观友好桌面端交互闭环,覆盖多源输入、阈值调参、可视化解释、导出归档与本地记录管理等核心能力。[20](4)提供包含权重热切换与本地持久化的系统化工程实践,使模型迭代与数据回溯形成低成本闭环。[19](5)整理并开放完整工程与数据集资源,便于读者复现实验并在此基础上扩展更多手势类别或部署形态。[21]
全文组织如下:第 3 章介绍数据集来源、标注规范、划分与增强策略,并结合手势遮挡与光照漂移等难点解释数据处理设计。第 4 章围绕 YOLO 检测器的结构、损失与训练策略给出原理性阐述,并说明与本任务实时性需求的耦合关系。第 5 章给出 YOLOv5 至 YOLOv12 的指标对比与曲线分析,并讨论误检漏检成因与改进方向。第 6 章从分层架构角度描述 Qt 客户端与推理调度、数据持久化之间的协同机制,并给出系统流程与关键模块设计。第 7 章总结工作并展望在轻量化、多模态与系统可扩展性方面的后续研究路线。
3. 数据集处理
本项目围绕“石头-剪刀-布”三类静态手势构建检测数据集,共整理与预处理 5229 张图片,并按 4178 张训练集、546 张验证集、505 张测试集进行划分,样本来源具有明显的“跨域”特征:既包含自然环境与室内场景的手部拍摄,也包含带屏幕 UI、字幕叠字或反光干扰的截帧画面,这使得背景纹理复杂度、色彩风格与噪声类型呈现较大差异,能够更贴近桌面端实际输入源的多样性。标签及其对应中文名如下:
Chinese_name = {'Paper': "布", 'Rock': "石头", 'Scissors': "剪刀"}

从训练批次可视化与标注分布图可以看出,目标中心点在画面中部区域更为密集,符合手势交互“以手为主体构图”的采集习惯;同时,框的宽高分布呈现较明显的尺度跨度与长尾特征,意味着同一类别既存在近景大手势,也存在远景或局部裁切的小手势,这会放大定位误差对类别判别的连锁影响。为减少训练推理不一致带来的坐标偏移,预处理阶段对输入进行统一尺度规范(与推理端保持一致的尺度与填充逻辑),并在清洗环节重点检查空标注、越界框、异常极端尺寸与重复标注等问题,避免噪声样本在早期训练中主导梯度更新;此外,针对部分样本中可见的压缩伪影、块状噪声与强反光区域,清洗策略强调“尽量保留真实复杂性、剔除不可恢复损坏样本”的原则,以兼顾泛化能力与训练稳定性。

从训练批次可视化与标注分布图可以看出,目标中心点在画面中部区域更为密集,符合手势交互“以手为主体构图”的采集习惯;同时,框的宽高分布呈现较明显的尺度跨度与长尾特征,意味着同一类别既存在近景大手势,也存在远景或局部裁切的小手势,这会放大定位误差对类别判别的连锁影响。为减少训练推理不一致带来的坐标偏移,预处理阶段对输入进行统一尺度规范(与推理端保持一致的尺度与填充逻辑),并在清洗环节重点检查空标注、越界框、异常极端尺寸与重复标注等问题,避免噪声样本在早期训练中主导梯度更新;此外,针对部分样本中可见的压缩伪影、块状噪声与强反光区域,清洗策略强调“尽量保留真实复杂性、剔除不可恢复损坏样本”的原则,以兼顾泛化能力与训练稳定性。
4. 模型原理与设计
本文的石头剪刀布手势识别采用目标检测范式来同时完成“类别判别(Rock/Paper/Scissors)”与“位置定位(手部框)”,相比纯分类更利于在复杂背景、多人同框或手部部分遮挡时保持可解释性与交互友好。整体流程遵循单阶段检测器的常见设计:输入帧先做统一尺度的预处理(如 640 × 640 640\times640 640×640 的等比缩放与填充),再由骨干网络提取多尺度特征,经过颈部网络融合后在检测头输出每个候选框的类别概率与边界框回归量,最终经由阈值筛选与去重得到 c , ; s , ; ( x min , y min , x max , y max ) {c,;s,;(x_{\min},y_{\min},x_{\max},y_{\max})} c,;s,;(xmin,ymin,xmax,ymax) 的结果集合。该范式在手势任务中尤其适合“快速响应+可视化叠框”的端侧体验:一方面推理延迟可控,另一方面检测框与置信度能直观支撑误检/漏检分析与阈值调参。
在结构设计上,默认以 YOLOv12 作为主线:它在 YOLO 系列的实时框架内将注意力机制置于更核心的位置,并通过更高效的注意力实现与模块化骨干改造来平衡速度与精度。其关键组件可概括为三层:骨干侧引入面向效率的注意力模块(常见表述为“区域/分区注意力”,通过对特征图按区域重排来降低注意力的代价);聚合侧采用更利于优化的特征汇聚单元(如 R-ELAN 思路),以缓解注意力堆叠带来的收敛不稳;颈部侧仍保持多尺度特征融合(FPN/PAN 类结构)以覆盖不同大小与不同距离的手部目标,检测头则倾向于采用解耦设计,将分类与回归分支分离以减少梯度干扰。注意力的核心计算可用标准形式表达为:
A t t n ( Q , K , V ) = S o f t m a x ! ( Q K ⊤ d ) V , \mathrm{Attn}(Q,K,V)=\mathrm{Softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V, Attn(Q,K,V)=Softmax!(dQK⊤)V,
其中 Q , K , V Q,K,V Q,K,V 分别为查询、键、值的投影表示, d d d 为通道维度用于缩放稳定训练;而“区域化”处理的直观目的,是在不完全牺牲全局建模能力的前提下,让 Q K ⊤ QK^\top QK⊤ 的计算与内存访问更贴近实时约束。网络整体架构示意图可参考
损失函数与任务建模方面,检测训练通常由“框回归 + 分类(可含目标置信度)”共同驱动;对于手势识别这种类间差异明显但背景干扰强的场景,框质量与分类边界同等关键。框回归可采用 IoU 系列度量以增强几何一致性,例如 CIoU 形式:
L C I o U = 1 − I o U + ρ 2 ( b , b g t ) c 2 + α v , L_{\mathrm{CIoU}} = 1-\mathrm{IoU} + \frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2} + \alpha v, LCIoU=1−IoU+c2ρ2(b,bgt)+αv,
其中 b , b g t \mathbf{b},\mathbf{b}^{gt} b,bgt 为预测框与真值框, ρ 2 ( ⋅ ) \rho^2(\cdot) ρ2(⋅) 表示中心点欧氏距离平方, c c c 为最小外接框对角线长度, v v v 刻画长宽比一致性, α \alpha α 为其权重系数;该项能在“手掌张开(Paper)导致框形态变化大、拳头(Rock)更紧凑、剪刀(Scissors)细长结构更显著”的情况下,提升回归稳定性。分类损失可用交叉熵或其二元形式(如 BCE),在多类情形下写作 L c l s = − ∑ k = 1 K y k log p k L_{\mathrm{cls}}=-\sum_{k=1}^{K}y_k\log p_k Lcls=−∑k=1Kyklogpk,其中 p k p_k pk 是类别 k k k 的预测概率、 y k y_k yk 是 one-hot 标签。最终总损失一般写作加权和 L = λ b o x L b o x + λ c l s L c l s ( + λ o b j L o b j ) L=\lambda_{\mathrm{box}}L_{\mathrm{box}}+\lambda_{\mathrm{cls}}L_{\mathrm{cls}}(+\lambda_{\mathrm{obj}}L_{\mathrm{obj}}) L=λboxLbox+λclsLcls(+λobjLobj),权重 λ \lambda λ 用于平衡定位与判别在不同训练阶段的主导性。
训练策略与正则化要点上,YOLO 系列常用 BN 稳定特征分布,并配合数据增强(颜色扰动、随机仿射、尺度抖动等)来对抗手势数据中常见的光照变化、肤色差异、运动模糊与背景杂质;对本任务而言,多尺度训练与适度的随机裁剪有助于覆盖“手离镜头远近变化”带来的尺度差异,而颜色与亮度扰动可提升对室内外曝光差的鲁棒性。推理阶段通常采用置信度阈值 C o n f \mathrm{Conf} Conf 与 NMS 的 IoU 阈值 I o U \mathrm{IoU} IoU 共同控制输出: C o n f \mathrm{Conf} Conf 偏高会减少误检但可能漏掉弱光或模糊帧中的手势, I o U \mathrm{IoU} IoU 偏低会更激进地去重从而抑制同一只手的重复框,但过低也可能误伤相邻手部或快速运动导致的局部重叠框;因此在桌面端提供可视化调参(滑块)时,用户能直观看到阈值变化如何影响三类手势在不同场景下的精度与稳定性,从而把“算法输出”转化为可解释、可控的交互闭环。
5. 实验结果与分析
本章实验以第 3 章构建的三类手势检测数据集为基础,在同一训练策略与同一评测协议下对 YOLOv5–YOLOv12 的轻量模型进行对比,评测指标包含 Precision、Recall、F1、mAP@0.5(记为 mAP50)与 mAP@0.5:0.95(记为 mAP50-95),并在同一硬件环境(NVIDIA GeForce RTX 3070 Laptop GPU,8GB)统计端到端耗时(预处理/推理/后处理)。整体结果表明,该任务在当前数据规模与标注质量下已进入“高精度区间”,多数模型的 mAP50 均稳定在 0.95 左右,差异更多体现在 mAP50-95 的定位质量、Recall 的保守程度,以及推理链路的时延稳定性;因此,桌面端部署时更需要把“可交互的实时体验”与“边界框质量”共同纳入选型依据,而不是只看单一 mAP50。
| 模型(n 系列) | Params(M) | FLOPs(G) | 总耗时(ms) | Precision | Recall | F1 | mAP50 | mAP50-95 |
|---|---|---|---|---|---|---|---|---|
| YOLOv5nu | 2.6 | 7.7 | 10.94 | 0.9510 | 0.9250 | 0.9378 | 0.9539 | 0.7736 |
| YOLOv6n | 4.3 | 11.1 | 10.34 | 0.9371 | 0.9396 | 0.9384 | 0.9603 | 0.7855 |
| YOLOv7-tiny | 6.2 | 13.8 | 21.08 | 0.9348 | 0.9190 | 0.9268 | 0.9418 | 0.7032 |
| YOLOv8n | 3.2 | 8.7 | 10.17 | 0.9518 | 0.9180 | 0.9346 | 0.9533 | 0.7847 |
| YOLOv9t | 2.0 | 7.7 | 19.67 | 0.9596 | 0.9203 | 0.9396 | 0.9656 | 0.7962 |
| YOLOv10n | 2.3 | 6.7 | 13.95 | 0.9599 | 0.9403 | 0.9500 | 0.9610 | 0.7963 |
| YOLOv11n | 2.6 | 6.5 | 12.97 | 0.9643 | 0.9299 | 0.9468 | 0.9594 | 0.7876 |
| YOLOv12n | 2.6 | 6.5 | 15.75 | 0.9640 | 0.9253 | 0.9442 | 0.9629 | 0.7895 |

从 n 系列的对比可见,YOLOv10n 在 Recall 与 F1 上取得更均衡的表现(Recall=0.9403,F1=0.9500),同时在更严格的 mAP50-95 上达到当前对比中的最高值(0.7963),说明其在“框更贴合、弱样本不易漏检”的维度上更占优;但其端到端总耗时约 13.95ms,明显慢于 YOLOv8n/YOLOv6n 的 10ms 级别链路,因此更适合对定位质量与稳定召回更敏感的桌面端场景(例如摄像头实时推理中希望减少闪烁与漏检带来的交互中断)。YOLOv9t 的 mAP50 最高(0.9656),但推理耗时显著增大(总耗时约 19.67ms),在“高精度但不够轻快”的权衡上更接近离线处理或较低帧率的实时需求;YOLOv7-tiny 虽名为轻量,但在本任务中同时出现精度劣化(mAP50-95=0.7032)与总耗时偏高(21.08ms)的现象,通常意味着其结构与当前训练配置、数据分布并不匹配,属于本系统不建议的默认选项。下图给出 n 系列在 F1 与 mAP50 上的柱状对比,可以看到多数模型 mAP50 已接近饱和,而 F1 的差异更能体现“误检/漏检”对交互体验的实际影响。

训练与收敛行为方面,多模型的 mAP50 曲线在前 10–20 个 epoch 迅速爬升并在 40 个 epoch 左右进入平台区间,后续增长趋缓,反映出该任务的主要收益来自早期对“手部显著区域”的快速拟合,而后期提升更多来自对边界贴合与难样本的细化;与之对应,PR 曲线在高 Recall 区间出现较明显的精度下坠,意味着当阈值降低、追求极限召回时,背景纹理与屏幕叠字等干扰更容易触发误检。混淆矩阵进一步揭示了类别层面的差异:Rock 与 Paper 的对角线值更高(约 0.95/0.94),Scissors 相对略低(约 0.92),这与剪刀手在不同手型、遮挡与角度下形态变化更大相吻合;同时,“background”列中 Paper/Rock/Scissors 的响应占比偏高,提示在复杂背景或局部纹理中仍存在可观的假阳性空间,实际部署时可以通过提高默认 Conf、增加负样本或引入更强的遮挡与背景扰动增强来缓解。

结合阈值敏感性曲线,F1-Confidence 曲线给出了更贴近“桌面端交互默认阈值”的建议:整体最优点出现在置信度约 0.667 时(全类 F1 约 0.94),说明若以“更稳定、更少误触发”为目标,默认 Conf 可适度上调以减少背景误检,而在光照较差或手势较远的场景中再通过滑块下调以换取召回。进一步看 s 系列(更大容量)结果,YOLOv12s 在 mAP50-95 上达到 0.8041,体现出更强的定位质量上限,但其总耗时约 16.74ms,实时性压力更大;相对而言,YOLOv8s 以约 11.39ms 的总耗时提供 0.7891 的 mAP50-95,更适合作为“摄像头实时推理”的默认档位,而 YOLOv10s/YOLOv11s 处于精度与时延的折中区间,适合对稳定性要求更高但仍希望保持较高帧率的使用方式。综合来看,本系统的部署建议是:以 YOLOv8n/YOLOv6n 作为“轻快实时”的默认候选,以 YOLOv10n 作为“更稳召回与更好框质量”的升级选项,并在界面侧提供权重热切换与 Conf/IoU 可视化调参,使用户能够根据场景噪声、背景复杂度与帧率要求完成低成本选型。
6. 系统设计与实现(学术化表述,含系统设计框图)
6.1 系统设计思路
本系统面向“石头-剪刀-布”三类手势的桌面端实时检测需求,采用分层架构组织功能边界与数据流向:表现与交互层由 Qt 客户端承担,负责多源输入选择、阈值交互(Conf/IoU)、结果可视化与导出入口;业务与会话管理层负责会话状态、源互斥策略、统计与导出编排;推理与任务调度层负责媒体接入、帧分发、YOLO 推理与后处理;数据持久化层则面向账户、配置、检测记录与导出归档提供本地化存储支撑。该分层的核心目标是将“高频帧流推理”与“低频交互与持久化”解耦,避免 UI 线程被推理链路阻塞,从而在桌面端获得稳定帧率与可预测的交互响应。
在跨层协同上,系统将多源输入(图片/视频/摄像头)统一抽象为帧流接口,并以事件驱动的方式推动“读取—预处理—推理—后处理—可视化”的闭环执行。预处理阶段统一将输入缩放到 640 × 640 640\times640 640×640 并完成归一化与张量化,以保证不同来源在模型侧具备一致的尺度与数值分布;推理阶段可在 YOLOv5–YOLOv12 间热切换权重并保持类别映射同步刷新;后处理阶段在 Conf/IoU 的统一参数管理下完成阈值过滤与 NMS,并将坐标还原到原始分辨率用于叠框显示与统计。为保障实时性与一致性,系统在源切换时实施互斥与状态复位,确保进度条、用时统计与记录表格的更新与当前输入源严格一致,降低“跨源串帧”与“参数漂移”对体验与结果可信度的影响。
在可扩展性方面,系统将模型权重管理、结果导出与日志接口设计为可插拔能力:权重热切换只需替换当前模型句柄并刷新类别信息;导出侧以统一的时间戳命名规则与统一归档策略组织 CSV/PNG/AVI 等文件,便于溯源与批量复查;异常恢复侧通过对媒体读取失败、推理超时与导出写入异常的显式捕获与 UI 反馈,减少长时间运行场景下的不可控中断。整体设计在保证“实时推理闭环”的同时,为后续扩展更多手势类别、引入更轻量模型或接入更多输入设备预留了工程空间。

图 6-1 系统流程图
图注:系统自初始化到多源输入,完成预处理、YOLO 推理与界面联动,并在交互控制中形成闭环;突出 Conf/IoU 滑块、目标高亮选择、CSV/PNG/AVI 导出与时间戳命名。

图 6-2 系统设计框图
图注:框图体现表现与交互层、业务与会话管理层、推理与任务调度层与数据持久化层的模块边界与数据流向,并显式标出多源互斥、参数同步与导出归档链路。
6.2 登录与账户管理 — 流程图

登录与账户管理流程以“本地化、弱依赖、可追溯”为设计目标:应用启动后进入登录界面,用户可选择注册新账号或直接登录,注册信息写入本地数据库形成账户记录;登录阶段通过口令校验建立会话,并在成功后载入个性化配置(主题、默认模型与最近检测记录),从而将用户偏好与检测流程紧密衔接。为减少误操作对业务流的影响,口令校验失败会回到输入环节并保持界面状态可见,成功后进入主界面开展多源检测;在使用过程中允许进行资料修改与注销/切换账号,使账户空间、结果记录与配置持久化形成稳定闭环,同时不引入外部服务依赖,契合桌面端离线运行与隐私可控的工程需求。
7. 下载链接
若您想获得博文中涉及的实现完整全部资源文件(包括测试图片、视频,py, UI文件,训练数据集、训练代码、界面代码等),这里见可参考博客与视频,已将所有涉及的文件同时打包到里面,点击即可运行,完整文件截图如下:

本文涉及到的完整全部程序文件: 包括环境配置文档说明、python源码、数据集、训练代码、UI文件、测试图片视频等:
功能效果展示视频:热门实战|《基于深度学习的石头剪刀布手势识别》YOLOv12-v8多版本合集:附论文/源码/PPT/数据集,支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程:https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd;
或者环境配置视频教程:Pycharm软件安装视频教程;(2)Anaconda软件安装视频教程;(3)Python环境配置视频教程;
数据集标注教程(如需自行标注数据):数据标注合集
参考文献(GB/T 7714)
1 REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 779-788. (openworks.wooster.edu)
2 REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//Advances in Neural Information Processing Systems (NeurIPS). Montreal: Curran Associates, 2015: 91-99. (arXiv)
3 LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[C]//Computer Vision – ECCV 2016. Cham: Springer, 2016: 21-37. (arXiv)
4 LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2999-3007. (arXiv)
5 TAN M, PANG R, LE Q V. EfficientDet: Scalable and Efficient Object Detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 10778-10787. (arXiv)
6 TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 9627-9636. (arXiv)
7 CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers[C]//Computer Vision – ECCV 2020. Cham: Springer, 2020: 213-229. (arXiv)
8 LI C, LI L, JIANG H, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[EB/OL]. arXiv:2209.02976, 2022. (arXiv)
9 GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO Series in 2021[EB/OL]. arXiv:2107.08430, 2021. (arXiv)
10 WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. arXiv:2207.02696, 2022. (arXiv)
11 ZHAO Y, LV W, XU S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023. (arXiv)
12 WANG C Y, YEH I H, LIAO H Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024. (arXiv)
13 WANG A, CHEN H, LIU L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024. (arXiv)
14 ZHANG F, BAZAREVSKY V, VAKUNOV A, et al. MediaPipe Hands: On-device Real-time Hand Tracking[EB/OL]. arXiv:2006.10214, 2020. (arXiv)
15 程亚龙, 梁军, 邹雲宇. 基于YOLOv5的静态手势识别检测模型[J]. 软件导刊, 2024(11):182-187. (rjdk.org.cn)
[16] XU S, WANG X, LV W, et al. PP-YOLOE: An evolved version of YOLO[EB/OL]. arXiv:2203.16250, 2022. (arXiv)
[17] 倪广兴, 徐华, 王超. 融合改进YOLOv5及Mediapipe的手势识别研究[J]. 计算机工程与应用, 2024, 60(7):108-118. (CEA)
[18] 张常斌, 孙连山, 唐景琰. 基于改进YOLOv5的轻量级手势识别算法[J]. 智能计算机与应用, 2025, 15(6):184-189. (computing.hit.edu.cn)
[19] Ultralytics. YOLO11 - Ultralytics YOLO Docs[EB/OL]. [2025-12-23]. (Ultralytics Docs)
[20] Ultralytics. YOLO12: Attention-Centric Object Detection - Ultralytics YOLO Docs[EB/OL]. [2025-12-23]. (Ultralytics Docs)
[21] Roboflow Universe. rock-paper-scissor dataset (v1)[DB/OL]. [2025-12-23]. (universe.roboflow.com)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)