41台巡检机器人、5大高危场景、7种感知模态——清华发布全球首个工业安全多模态大模型评测基准

Coovally AI模型快速验证

332人浏览 · 2026-06-05 14:12:45

Coovally AI模型快速验证 · 2026-06-05 14:12:45 发布

导读

工业巡检现场环境复杂——强光照变化、遮挡、镜面反射、传感器噪声，加上火灾、烟雾、人员闯入、设备过热等高危事件，现有AI系统难以可靠感知和推理。

清华大学自动化系等机构联合发布InspecSafe-V1，这是首个面向工业巡检安全评估的真实场景多模态数据集。数据来自41台轮式和轨式巡检机器人、2,239个有效巡检点，涵盖隧道、电力、烧结、油化、煤炭5类工业场景，共5,013个巡检实例。每个实例提供RGB视频、红外热像、音频、深度点云、雷达点云、气体浓度、温湿度7种同步感知模态，并配以像素级分割标注（234类工业对象）、场景描述和安全等级标签（四级）。基准测试显示，即使是最先进的视觉语言模型（VLM）在复杂工业环境下仍面临挑战——推理增强模型准确率比纯指令模型高出约8个百分点，但误报率高达30%以上，暴露了工业安全AI的巨大提升空间。

文章信息

标题：InspecSafe-V1: A Multimodal Benchmark Dataset for Industrial Inspection Safety Assessment

机构：清华大学、阿里达摩院、东南大学等
数据集：https://huggingface.co/datasets/Tetrabot2026/InspecSafe-V1

一、背景与挑战：工业巡检AI缺乏真实多模态安全数据

工业巡检环境具有高噪声、严重遮挡、大范围光照变化、镜面反射、复杂设备布局等特点，同时可能出现明火、烟雾、人员违规闯入、设备过热、异常气体等高危事件。巡检机器人需要长期自主运行，亟需具备场景理解和安全推理能力的AI系统。

当前工业视觉数据集主要面向质量检测和缺陷识别（如MVTec AD、VisA、Real-IAD等），存在三大局限：

场景过于理想化：在静态、可控背景下采集，缺乏光照变化、遮挡、传感器噪声等真实扰动。
模态单一：大多仅提供RGB图像，缺少红外、音频、点云、气体检测等多模态数据。
缺乏安全标注：没有场景级语义描述和安全等级标签，无法支撑安全推理。

自动驾驶数据集（KITTI、nuScenes）虽有多模态，但语义系统面向道路环境（车辆、行人、交通标志），与工业巡检设备、安全因素不匹配。

InspecSafe-V1填补了这一空白：完全来自真实巡检机器人在一线作业中采集的数据，涵盖5类典型工业场景，提供7种同步感知模态和细粒度安全标注，为工业具身智能安全评估建立了标准化基准。

图片来源于原论文

二、方法：多平台、多模态、多级标注的工业巡检数据集

2.1 机器人平台与采集场景

数据来自41台轮式和轨式巡检机器人，覆盖2,239个有效巡检点。机器人配置了多模态感知系统：

RGB相机：2560×1440或1920×1080，25fps
红外热像仪：1280×1024或640×480，25fps
深度相机（Orbbec TM265-E1）：0.05m-5m
3D LiDAR（LeiShen MID360）：40m（10%反射率）/70m（80%反射率）
麦克风阵列：8000Hz，双声道
气体传感器（可燃气体、有毒气体等）、温湿度传感器

采集覆盖5类工业场景：

隧道
电力设施
烧结设备（冶金）
油化工厂
煤炭输送栈桥

每个巡检点停留约10-15秒，同步采集视频、音频、点云、环境数据。点云采集时长约3秒（15Hz），视频全程录制。数据集包含白天和夜间时段，部分关键点每天最多采集两次（00:00-12:00和12:00-24:00），以捕捉光照和运行节律变化。

图片来源于原论文

2.2 标注体系

视觉标注：

从视频中每隔5帧抽取候选帧，基于深度特征过滤冗余，保留高多样性样本。
采用LabelStudio手动标注像素级实例分割多边形，覆盖234个对象类别（工业设备、基础设施、安全相关目标如人员、消防设施、安全帽等）。
两类平台（轮式/轨式）各有不同的传感器配置，但所有实例统一提供RGB图像和对应的像素级分割掩码，确保语义一致性。

语义标注：

场景描述：自然语言描述环境上下文、关键对象和可见事件。
安全等级：根据工业场景安全标准分为四级（表3）：
- Level I：高安全威胁（明火、烟雾、人员昏倒、油泄漏、未戴安全帽/手套/口罩等）
- Level II：中等安全威胁（使用手机、积水、油污、异物、缺少个人防护装备等）
- Level III：低安全威胁（水坑、小异物、未戴口罩等）
- Level IV：无异常
多级标注经两轮独立验证（每轮随机抽5%，准确率>95%方可通过）。

2.3 数据规模与分布

统计项	数值
巡检机器人	41台
有效巡检点	2,239个
巡检实例	5,013个
训练集帧数	3,763（正常3,014，异常749）
测试集帧数	1,250（正常999，异常251）
对象类别	234类
同步模态	7种

对象类别呈现长尾分布：前五类（管道、交通锥、支架、托辊、螺栓）占39.3%，前十类占52.0%。

不同场景的正常/异常比例差异显著：

油化场景异常比例最高（34.9%）
电力场景异常比例最低（11.8%）
冶金场景异常比例仅0.1%

三、实验结果：VLM在工业安全评估中的表现与短板

3.1 基准评测设置

采用固定提示模板（附录S1），输入RGB图像，要求模型输出：

场景描述（自由文本）
安全等级（Level I-IV）

评估指标：

准确率（Acc）：安全等级预测与真实标签的匹配率
语义相似度（SemSim）：生成描述与标注描述的余弦相似度（BGE-M编码器）

评测模型包括：GPT-5.2、Claude 4.5 Sonnet、Qwen3-VL系列（指令版/推理版）、Doubao-SEED、GLM-4.6等。

3.2 主要结果

推理增强模型显著优于指令模型：Qwen3-VL推理版比指令版准确率高出约8个百分点，同时误报更少。
模型大小与性能不严格正相关：部分小参数模型表现优于大参数模型，说明感知鲁棒性和推理能力的对齐更为关键。
误报率差异显著：GPT-5.2等模型将超过30%的正常内容误判为异常，可能导致部署中报警负载过大。

图片来源于原论文

3.3 典型错误模式

场景识别错误导致级联失败：GLM-4.6将煤炭环境误判为油气化工设施，由于安全标准高度依赖场景，导致后续推理全部错误。
细粒度违规检测缺失：使用手机、未戴安全手套/安全帽等明显违规行为被漏检，主因是小物体尺寸、遮挡或训练覆盖不足。

3.4 定性分析

示例显示，某些模型在强光照、反光、背光、高对比阴影等视觉干扰下误判正常场景为异常，而推理增强模型更善于整合证据做出一致判断。

图片来源于原论文

四、数据特点与挑战分析

4.1 多模态融合的复杂性

7种同步感知模态（RGB、热像、音频、深度、雷达、气体、温湿度）提供了丰富信息，但模态间的时空对齐（点云3秒窗口 vs 视频10-15秒窗口）和传感器差异（轮式/轨式平台配置不同）对算法设计提出挑战。数据集以“巡检点”为单位组织，确保跨模态对齐。

4.2 类别长尾与现实不平衡

管道（12.9%）、交通锥（8.9%）等头部类别与尾部类别（如某些特定设备）差距悬殊，反映了真实巡检中的出现频率。异常样本比例因场景而异（0.1%~34.9%），为不平衡学习和少样本学习提供了天然测试平台。

4.3 安全等级的工程化设计

四级安全标签依据具体工业标准制定（表3），例如油气场景Level I包括明火、烟雾、无安全帽、人员昏倒、油泄漏等；Level II包括积水、使用手机；Level III包括异物。这种结构化标签可被直接用于训练和评估，且与场景描述形成互补。

4.4 当前VLM的共性不足

对恶劣视觉条件（强光、反射、遮挡）的鲁棒性不足，误报率高。
跨场景推理能力弱，易将A场景的安全规则误用于B场景。
小目标（如手机、手套）和细粒度行为（如违规操作）检测能力有限。

五、总结与展望

核心贡献：

首个工业巡检安全评估多模态真实场景数据集：5类场景、41台机器人、2,239个巡检点、5,013个实例、7种同步感知模态。
多层级精细化标注：像素级实例分割（234类）、场景描述、四级安全标签，经两轮独立验证确保质量。
基准评测揭示VLM短板：推理增强模型优于指令模型，但误报率高达30%以上，场景错认和细粒度违规检测仍是大问题。
促进工业具身智能安全评估：为多模态感知、跨模态融合、视觉语言联合建模、跨域泛化等研究提供标准化平台。

局限与未来方向：

数据规模和场景多样性仍有扩展空间（极端工况、罕见危害类型、长时序数据）。
未来版本将增加更多巡检点、更多机器人平台、更细粒度的多危害并行标注，以及时序安全等级演化。

InspecSafe-V1以真实、多模态、细粒度的标注填补了工业安全AI评估的关键空白，为推动具身智能在复杂工业环境中的可靠部署提供了重要基石。数据集已公开，欢迎研究社区使用。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 辅助科研的六大场景：从选题、实验到投稿

AI在科研中的六大高效应用场景摘要：AI正成为科研人员的智能助手，但并非替代研究者，而是在六大关键环节提升效率：（1）选题阶段辅助问题发散与结构化；（2）文献整理阶段实现高效分类与综述框架构建；（3）实验设计阶段提供方法解释与方案优化；（4）论文写作环节优化表达与润色语言；（5）投稿准备时协助自查与审稿回复；（6）科研学习中充当理解教练与表达训练师。