导读

工业巡检现场环境复杂——强光照变化、遮挡、镜面反射、传感器噪声,加上火灾、烟雾、人员闯入、设备过热等高危事件,现有AI系统难以可靠感知和推理。

清华大学自动化系等机构联合发布InspecSafe-V1,这是首个面向工业巡检安全评估的真实场景多模态数据集。数据来自41台轮式和轨式巡检机器人、2,239个有效巡检点,涵盖隧道、电力、烧结、油化、煤炭5类工业场景,共5,013个巡检实例。每个实例提供RGB视频、红外热像、音频、深度点云、雷达点云、气体浓度、温湿度7种同步感知模态,并配以像素级分割标注(234类工业对象)、场景描述和安全等级标签(四级)。基准测试显示,即使是最先进的视觉语言模型(VLM)在复杂工业环境下仍面临挑战——推理增强模型准确率比纯指令模型高出约8个百分点,但误报率高达30%以上,暴露了工业安全AI的巨大提升空间。


文章信息

  • 标题:InspecSafe-V1: A Multimodal Benchmark Dataset for Industrial Inspection Safety Assessment

  • 机构:清华大学、阿里达摩院、东南大学等

  • 数据集:https://huggingface.co/datasets/Tetrabot2026/InspecSafe-V1


一、背景与挑战:工业巡检AI缺乏真实多模态安全数据

工业巡检环境具有高噪声、严重遮挡、大范围光照变化、镜面反射、复杂设备布局等特点,同时可能出现明火、烟雾、人员违规闯入、设备过热、异常气体等高危事件。巡检机器人需要长期自主运行,亟需具备场景理解和安全推理能力的AI系统。

当前工业视觉数据集主要面向质量检测和缺陷识别(如MVTec AD、VisA、Real-IAD等),存在三大局限:

  1. 场景过于理想化:在静态、可控背景下采集,缺乏光照变化、遮挡、传感器噪声等真实扰动。

  2. 模态单一:大多仅提供RGB图像,缺少红外、音频、点云、气体检测等多模态数据。

  3. 缺乏安全标注:没有场景级语义描述和安全等级标签,无法支撑安全推理。

自动驾驶数据集(KITTI、nuScenes)虽有多模态,但语义系统面向道路环境(车辆、行人、交通标志),与工业巡检设备、安全因素不匹配。

InspecSafe-V1填补了这一空白:完全来自真实巡检机器人在一线作业中采集的数据,涵盖5类典型工业场景,提供7种同步感知模态和细粒度安全标注,为工业具身智能安全评估建立了标准化基准。

图片

图片来源于原论文


二、方法:多平台、多模态、多级标注的工业巡检数据集

2.1 机器人平台与采集场景

数据来自41台轮式和轨式巡检机器人,覆盖2,239个有效巡检点。机器人配置了多模态感知系统:

  • RGB相机:2560×1440或1920×1080,25fps

  • 红外热像仪:1280×1024或640×480,25fps

  • 深度相机(Orbbec TM265-E1):0.05m-5m

  • 3D LiDAR(LeiShen MID360):40m(10%反射率)/70m(80%反射率)

  • 麦克风阵列:8000Hz,双声道

  • 气体传感器(可燃气体、有毒气体等)、温湿度传感器

采集覆盖5类工业场景

  • 隧道

  • 电力设施

  • 烧结设备(冶金)

  • 油化工厂

  • 煤炭输送栈桥

每个巡检点停留约10-15秒,同步采集视频、音频、点云、环境数据。点云采集时长约3秒(15Hz),视频全程录制。数据集包含白天和夜间时段,部分关键点每天最多采集两次(00:00-12:00和12:00-24:00),以捕捉光照和运行节律变化。

图片

图片来源于原论文

2.2 标注体系

视觉标注

  • 从视频中每隔5帧抽取候选帧,基于深度特征过滤冗余,保留高多样性样本。

  • 采用LabelStudio手动标注像素级实例分割多边形,覆盖234个对象类别(工业设备、基础设施、安全相关目标如人员、消防设施、安全帽等)。

  • 两类平台(轮式/轨式)各有不同的传感器配置,但所有实例统一提供RGB图像和对应的像素级分割掩码,确保语义一致性。

语义标注

  • 场景描述:自然语言描述环境上下文、关键对象和可见事件。

  • 安全等级:根据工业场景安全标准分为四级(表3):

    • Level I:高安全威胁(明火、烟雾、人员昏倒、油泄漏、未戴安全帽/手套/口罩等)

    • Level II:中等安全威胁(使用手机、积水、油污、异物、缺少个人防护装备等)

    • Level III:低安全威胁(水坑、小异物、未戴口罩等)

    • Level IV:无异常

  • 多级标注经两轮独立验证(每轮随机抽5%,准确率>95%方可通过)。

2.3 数据规模与分布

统计项

数值

巡检机器人

41台

有效巡检点

2,239个

巡检实例

5,013个

训练集帧数

3,763(正常3,014,异常749)

测试集帧数

1,250(正常999,异常251)

对象类别

234类

同步模态

7种

对象类别呈现长尾分布:前五类(管道、交通锥、支架、托辊、螺栓)占39.3%,前十类占52.0%。

不同场景的正常/异常比例差异显著:

  • 油化场景异常比例最高(34.9%)

  • 电力场景异常比例最低(11.8%)

  • 冶金场景异常比例仅0.1%


三、实验结果:VLM在工业安全评估中的表现与短板

3.1 基准评测设置

采用固定提示模板(附录S1),输入RGB图像,要求模型输出:

  • 场景描述(自由文本)

  • 安全等级(Level I-IV)

评估指标:

  • 准确率(Acc):安全等级预测与真实标签的匹配率

  • 语义相似度(SemSim):生成描述与标注描述的余弦相似度(BGE-M编码器)

评测模型包括:GPT-5.2、Claude 4.5 Sonnet、Qwen3-VL系列(指令版/推理版)、Doubao-SEED、GLM-4.6等。

3.2 主要结果

  • 推理增强模型显著优于指令模型:Qwen3-VL推理版比指令版准确率高出约8个百分点,同时误报更少。

  • 模型大小与性能不严格正相关:部分小参数模型表现优于大参数模型,说明感知鲁棒性和推理能力的对齐更为关键。

  • 误报率差异显著:GPT-5.2等模型将超过30%的正常内容误判为异常,可能导致部署中报警负载过大。

图片

图片来源于原论文

3.3 典型错误模式

  1. 场景识别错误导致级联失败:GLM-4.6将煤炭环境误判为油气化工设施,由于安全标准高度依赖场景,导致后续推理全部错误。

  2. 细粒度违规检测缺失:使用手机、未戴安全手套/安全帽等明显违规行为被漏检,主因是小物体尺寸、遮挡或训练覆盖不足。

3.4 定性分析

示例显示,某些模型在强光照、反光、背光、高对比阴影等视觉干扰下误判正常场景为异常,而推理增强模型更善于整合证据做出一致判断。

图片

图片来源于原论文


四、数据特点与挑战分析

4.1 多模态融合的复杂性

7种同步感知模态(RGB、热像、音频、深度、雷达、气体、温湿度)提供了丰富信息,但模态间的时空对齐(点云3秒窗口 vs 视频10-15秒窗口)和传感器差异(轮式/轨式平台配置不同)对算法设计提出挑战。数据集以“巡检点”为单位组织,确保跨模态对齐。

4.2 类别长尾与现实不平衡

管道(12.9%)、交通锥(8.9%)等头部类别与尾部类别(如某些特定设备)差距悬殊,反映了真实巡检中的出现频率。异常样本比例因场景而异(0.1%~34.9%),为不平衡学习和少样本学习提供了天然测试平台。

4.3 安全等级的工程化设计

四级安全标签依据具体工业标准制定(表3),例如油气场景Level I包括明火、烟雾、无安全帽、人员昏倒、油泄漏等;Level II包括积水、使用手机;Level III包括异物。这种结构化标签可被直接用于训练和评估,且与场景描述形成互补。

4.4 当前VLM的共性不足

  • 对恶劣视觉条件(强光、反射、遮挡)的鲁棒性不足,误报率高。

  • 跨场景推理能力弱,易将A场景的安全规则误用于B场景。

  • 小目标(如手机、手套)和细粒度行为(如违规操作)检测能力有限。


五、总结与展望

核心贡献

  1. 首个工业巡检安全评估多模态真实场景数据集:5类场景、41台机器人、2,239个巡检点、5,013个实例、7种同步感知模态。

  2. 多层级精细化标注:像素级实例分割(234类)、场景描述、四级安全标签,经两轮独立验证确保质量。

  3. 基准评测揭示VLM短板:推理增强模型优于指令模型,但误报率高达30%以上,场景错认和细粒度违规检测仍是大问题。

  4. 促进工业具身智能安全评估:为多模态感知、跨模态融合、视觉语言联合建模、跨域泛化等研究提供标准化平台。

局限与未来方向

  • 数据规模和场景多样性仍有扩展空间(极端工况、罕见危害类型、长时序数据)。

  • 未来版本将增加更多巡检点、更多机器人平台、更细粒度的多危害并行标注,以及时序安全等级演化。

InspecSafe-V1以真实、多模态、细粒度的标注填补了工业安全AI评估的关键空白,为推动具身智能在复杂工业环境中的可靠部署提供了重要基石。数据集已公开,欢迎研究社区使用。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐