arXiv 2025|RGB-Th-Bench:第一个专注于可见光–热成像理解的密集型视觉语言模型基准
一、论文信息
论文标题:RGB-Th-Bench: A Dense Benchmark for Visual-Thermal Understanding of Vision-Language Models
论文作者:Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen
发表机构:Aalto University,KTH Royal Institute of Technology,Detectium Oy
发表会议:arXiv
二、论文创新点
Vision-Language Models(VLMs)近年来取得了突破性进展,但现有的大多数评测基准几乎全部集中在 RGB 图像领域。对于RGB–热成像(RGB-Thermal)配对图像的理解,目前仍是研究中的巨大空白。为了填补这一空缺,论文提出了第一个专注于 RGB–热成像理解能力的密集型 VLM 基准——RGB-Th-Bench
三、论文创新点
3.1 首个专注于 RGB–Thermal 理解的密集型 VLM 基准
论文明确指出:现有 VLM benchmark 几乎全是 RGB 图像,而 RGB–热成像(RGB-Thermal)能力从未被系统评测。
RGB-Th-Bench 是 第一份:
1.同时包含“RGB + Thermal 配对图像”
2.专注于热成像理解、多模态对齐
3.覆盖 14 个核心技能维度
4.每个样本提供 56 个 QA
3.2 首个在热成像任务中使用多维度、高密度 YES/NO QA 的设计
RGB-Th-Bench 的独特性包括:
1.每个维度 4 个独立问题
2.每个 RGB–Thermal 样本 56 个问题
3.QA 全部基于 “Yes/No”,避免复杂语言干扰
该设计使得 benchmark 能检测模型是否稳定理解热图像并且检测模型是否能跨 RGB 与 Thermal 建立一致语义
四、方法
4.1 数据来源与规模
RGB-Th-Bench 包含:
1.58 张图像(29 对 RGB–热成像配对)
2.1624 条手工设计的专家标注 Yes/No 问题
3.14 个技能维度
4.每对图像共 56 个问题
所有图像均来自作者内部资料或使用 FLIR ONE Edge Pro 设备拍摄,不包含任何来自现有公共数据集的图像,确保评测公平性。
4.2评测指标设计
RGB-Th-Bench 提供两个严格的指标:
- Question-level Accuracy (QAcc)
计算所有问题的正确率
随机基线为 50% - Skill-level Accuracy (SAcc)
每个技能维度的四个问题都答对才算 “Pass”
随机基线仅为 6.25%
更能反映模型是否真正理解某项技能
论文强调:SAcc 是更严格、更能发现模型弱点的指标。

五、实验分析

展示了 2 个数据样本(含 RGB-thermal 图像对)对应的 16 个问答(Q/A)示例,覆盖 4 个技能维度,同时呈现了 3 个代表性 VLM(GPT4-o、MiniCPM-o-2.6、Qwen2.5-VL-7B)的回答结果,包含问题(Q)、真实标签(GT)和模型响应。







1.闭源模型性能断层领先:GPT4o-20241120 在 QAcc、SAcc 及所有技能维度的表现均大幅超过其他模型,是当前多模态能力最全面的模型之一。
2.开源模型 “偏科” 明显:开源模型的问题理解(QAcc)已接近闭源水平,但选项匹配(SAcc)差距显著;且不同模型仅在特定技能维度(如 Scene、ObjPr)表现突出,无 “全优模型”。
3.复杂任务挑战更大:“RGB-Th-Txt” 这类多模态嵌套任务的模型得分,普遍低于 “RGB-Txt” 单模态融合任务,对跨模态推理能力要求更高。
4.模型能力有效性已验证:绝大多数模型的 QAcc、SAcc 均显著超过随机基线,证明当前多模态模型的跨模态理解能力具备实用价值。
5.模型间差距极大:顶尖开源模型与落后模型的性能差异悬殊,部分模型(如 Chameleon-7B)表现接近 / 低于基线。
六、个人声明
本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)