近期,随着 OpenClaw 的爆火,一个趋势愈发明显:AI 正从“会聊天”向“会做事”迈进。当模型能够融合图像、文本、语音、视频等多源信息进行理解,并借助推理完成复杂决策,同时通过智能体规划任务时,一个具备“感知—思考—行动”的系统正在形成。在这一体系中,多模态大模型为理解世界提供基础,统一处理多源信息,为推理和智能体能力提供关键支撑,并正在加速应用落地,成为推动 AI 能力跃迁的核心力量。

司南持续关注大模型的发展动态,基于闭源评测基准,近期针对国内外主流多模态模型进行了全面评测,现公布司南多模态模型 2 月评测榜单

需要提示的是:由于榜单规则,为提升闭源评测集榜单的时效性与先进性,我们对部分旧模型进行了移除,并测试了他们的最新版本。

综合榜单解读

整体性能排名

本次评测中,Google 的 Gemini-3.1-Pro-Preview 以 66.62 分登顶,紧随其后的是阿里巴巴开源的 Qwen3.5-397B,以 65.41 分成为本期最强开源模型——这也是开源模型在本榜单历史上首次跻身前二。

国产模型在本期榜单中表现亮眼。字节跳动的 Doubao-Seed-2.0-Pro(63.19 分)和 Moonshot AI 的 Kimi-k2.5(63.05 分)分列第三、四位,且两者仅有 0.14 分的微弱差距,竞争十分胶着;商汤科技的 SenseNova-V6-5-Pro 以 55.61 分位列第五。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

深层洞察

开源模型依旧强劲,Qwen3.5-397B 综合排名第二

Qwen3.5-397B 跃居综合排名第二,超越了包括 Doubao-Seed-2.0-Pro、Claude-Opus-4-6、GPT-5.4 在内的众多闭源商业模型。从能力分布来看,Qwen3.5-397B 呈现出显著的均衡优势:通用感知 73.0 分(第二)、信息图形理解 75.0 分(第二)、空间感知 41.5 分(第三)、多模态推理 63.75 分(第二),在四个维度均稳居前三。这种全面而无明显短板的表现,正是其综合排名领先的关键所在。

国产模型表现亮眼,多维度能力均衡发展

虽然 Gemini-3.1-Pro-Preview 登顶,但第二至第五名均为国产模型,且各自展现出差异化的能力优势:

  • Doubao-Seed-2.0-Pro 在空间感知维度以 42.0 分并列第一(与 Kimi-k2.5 持平),同时在通用感知(70.0 分,第三)和信息图形理解(68.0 分,第三)两个维度也保持前列,呈现出感知类任务的全面优势。
  • Kimi-k2.5 在多模态创作维度以 90.05 分高居第二,仅次于 Claude-Opus-4-6,同时空间感知同样达到 42.0 分(并列第一)。作为一款万亿参数(1T)的开源模型,其在创作与空间理解两端的突出表现,印证了 Moonshot AI 在长上下文建模与生成能力方面的持续积累。
  • SenseNova-V6-5-Pro 则以 89.67 分的创作维度得分位列第三,但在通用感知(49.0 分)和信息图形理解(58.0 分)维度相对较弱,呈现出"创作强、感知弱"的能力特征。

这种差异化的能力分布表明,国产多模态模型厂商正在根据自身技术积累探索不同的发展路径。

多模态创作成为能力分化最为显著的竞技场

多模态创作维度是本期模型间分化最为剧烈的维度。Claude-Opus-4-6 以 91.97 分夺冠,Kimi-k2.5(90.05 分)和 SenseNova-V6-5-Pro(89.67 分)紧随其后,三者在 2.3 分的区间内激烈角逐。

一个耐人寻味的现象是:创作维度的前三名与综合排名的前三名几乎不重合。Claude-Opus-4-6 综合排名仅列第六,SenseNova-V6-5-Pro 综合排名第五,但它们在创作维度却展现出顶尖水平。反观综合排名第一的 Gemini-3.1-Pro-Preview,其创作维度得分仅为 78.73 分(第八),甚至低于 Grok-4.1-Fast(81.57 分)。

这一现象体现出多模态创作能力与感知、推理能力之间存在一定程度的"正交性"。强创作模型往往在语言生成的流畅性、创意性和指令遵循方面更为出色,而这些能力与视觉感知、逻辑推理的训练范式存在差异。各厂商正在基于自身优势选择不同的能力优先级,"术业有专攻"的格局愈发清晰。

榜单规则说明

本榜单基于闭源测试数据,对不同多模态模型在 通用感知、空间感知、信息图形理解、多模态推理、多模态创作 五大能力维度上的表现进行了评测,并基于加权分数计算模型的平均得分进行排序。闭源评测基准拥有较为丰富的题目类型,包含单选、多选、填空、开放性创作等,且为中英文双语,可以同时考验模型的多语言理解能力。

加权规则:多模态推理权重为 2,其他维度权重为 1

暂时无法在飞书文档外展示此内容

子维度能力解读

通用感知

在通用感知方面,Gemini-3.1-Pro-Preview 以 74.0 分领跑,Qwen3.5-397B 以 73.0 分紧随其后,两者仅有 1 分之差。Doubao-Seed-2.0-Pro 以 70.0 分位列第三,也展现出较强的视觉理解基础能力。

通用感知测试涵盖对日常场景、实体对象及复杂视觉场景的综合理解,是衡量多模态模型"读懂视觉世界"能力的基础性指标。本期评测中,前三名均突破 70 分大关,与排名第四的 Kimi-k2.5(63.0 分)拉开了 7 分以上的差距,表明头部阵营在基础感知能力上已经建立起一定的领先壁垒。同时,多款开源模型(如 GLM4_6V 50.0 分、InternVL3_5-241B 45.0 分)也展现出较为扎实的感知基础。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

空间感知

空间感知维度呈现出高度竞争的态势。Doubao-Seed-2.0-Pro 和 Kimi-k2.5 以 42.0 分并列第一,Qwen3.5-397B 以 41.5 分紧随其后,三者在 0.5 分的极窄区间内激烈角逐。值得注意的是,综合排名第一的 Gemini-3.1-Pro-Preview 在该维度仅以 38.5 分排名第四,被三款国产模型超越。

空间感知能力衡量的是模型对二维和三维空间关系、物体定位、场景几何布局的理解深度,是自动驾驶、机器人导航、AR/VR 等应用场景的关键基础能力。本期榜单整体得分偏低(最高仅 42.0 分),表明空间感知仍是多模态模型最具挑战性的能力维度之一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信息图形感知

信息图形理解维度中,Gemini-3.1-Pro-Preview 以 76.0 分领先,Qwen3.5-397B 以 75.0 分几乎持平。两者与第三名 Doubao-Seed-2.0-Pro(68.0 分)之间拉开了 7-8 分的明显差距。

该维度考验模型对图表、数据可视化、技术图示、文档等结构化视觉内容的解析能力,是报告生成、商业分析、技术文档理解等企业级场景中应用最广泛的核心能力之一。头部两款模型在该维度建立的优势,反映出它们在结构化信息提取与数值推理方面的深层能力。

需要注意的是,本轮榜单中,部分信息图形感知数据包含多图信息(> 50 张图像),部分开源模型由于上下文长度限制,只能通过缩放输入,损失了部分信息;而部分闭源模型 API 则无法处理过多的图像信息,导致推理失败。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

多模态推理

多模态推理是本期评测中最具区分度的维度。Gemini-3.1-Pro-Preview 以 66.25 分领跑,Qwen3.5-397B 以 63.75 分紧随其后。值得注意的是,开源模型 Ovis2.6-30B-A3B 以 54.37 分排名第五,Step3-VL-10B 以 51.88 分排名第六,两者均为参数量相对较小的开源模型(30B 和 10B),却在推理维度超越了多款大参数闭源模型,这表明推理能力的提升并不完全依赖于参数规模的扩展。

多模态推理要求模型在理解视觉内容的基础上进行多步逻辑推理、因果分析和假设验证,是最能体现模型"深度思考"能力的维度。本期评测中,该维度呈现出明显的长尾分布——头部两款模型突破 60 分,而中位数水平仅在 33-37 分区间,底部模型不足 20 分。这一显著的能力梯度表明,多模态推理仍是当前模型能力的主要瓶颈之一,也是未来技术突破的核心方向。

在这里插入图片描述

多模态创作

多模态创作是本期竞争最激烈、也是模型间能力分化最显著的维度。Claude-Opus-4-6 以 91.97 分夺冠,Kimi-k2.5(90.05 分)和 SenseNova-V6-5-Pro(89.67 分)分列第二、三名,三者在 2.3 分的极窄区间内展开了激烈角逐。

此外,一些在综合排名中位列中游的模型在创作维度展现出惊人的实力。例如,Grok-4.1-Fast 综合排名仅列第十四,但其创作得分高达 81.57 分(第六),甚至超过了综合排名第一的 Gemini-3.1-Pro-Preview(78.73 分)。GLM4_6V 作为开源模型也取得了 81.50 分(第七)的优秀创作成绩。这再次印证了创作能力与综合能力之间的"解耦"特征。

值得注意的是,相比起其他维度,在多模态创作维度,闭源模型整体上呈现出较为明显的优势,这可能是由于闭源模型针对用户对话体验、文本写作等 toC 场景进行了更多的优化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评测题目示例

通用感知

问题:

Please tell me the name of the man in this image, in the format of “[First Name] [Given Name]”.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

答案:

Steve Jobs

空间感知

问题:

The top row of images shows different views of the initial state of a cube stack, while the bottom row shows different views of the final state after transformation. During the transformation process, blocks can move one unit in any direction (forward, backward, left, right, up, down). If the target position is empty, the block can move there directly; if the target position already has a block, they swap places. Blocks cannot float in the air. If a block is moved away from a position, any block above it will fall down until reaching a supporting surface. The xyz axes are shown in the diagram, and each block’s position can be precisely identified using coordinates (x1,y1,z1). Which of the following transformation sequences can change the cube stack from the initial state to the final state shown in the diagram? Please answer from options A, B, C, or D.

A: (0, 1, 1) y- – (2, 1, 1) z-

B: (2, 1, 0) x- – (2, 0, 0) y+

C: (0, 1, 1) y- – (0, 1, 1) z- – (0, 0, 2) y+

D: (0, 1, 0) y- – (2, 1, 1) y- – (2, 0, 1) z-

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

答案:C

信息图形感知

问题:

Among models whose capability is higher than human experts, which model has the smallest number of parameters?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
答案:Claude 3.5 Sonnet*

多模态推理

问题:

你正在进行数独游戏,这是一个4x4的数独,请判断红圈标注处应该填写的数字?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

答案:4

多模态创作

问题:

Assume you are an English major university student, who is passionate about student activities and currently serving as the president of the student council.

This is the poster for the exchange program you are very eager to join.

Please follow the requirements below to write an application letter based on this image

  1. Highlight personal strengths in relation to the requirements on the poster
  2. Express a strong desire to participate in the program
  3. Inquire about the specific support that adult tutors can provide

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GPT-4o 参考回答:

[Your Name]  
[Your Address]  
[City, State, ZIP Code]  
[Email Address]  
[Phone Number]  
[Date]  

Program Coordinator  
International Youth Exchange Program  
391 Christopher St.  
New York, NY  

Dear Program Coordinator,  

I am writing to express my keen interest in participating in the International Youth Exchange Program scheduled for August 2049. As an English major university student and the current president of my university’s student council, I am confident that my skills, experiences, and passion for cultural exchange align perfectly with the program’s objectives.  

As a student leader, I have honed my communication and leadership skills through organizing various student activities, fostering community involvement, and representing my peers in academic and extracurricular matters. These experiences have not only strengthened my ability to work collaboratively but also deepened my appreciation for diverse perspectives—qualities I believe are essential for thriving in an international exchange program. Additionally, my academic background in English ensures that I can effectively communicate and engage with participants from different countries.  

The opportunity to immerse myself in the cultures of the participating countries—US, UK, Germany, Italy, Spain, Greece, and France—excites me immensely. I am eager to broaden my horizons, learn new languages, and gain firsthand insights into the traditions and values of these nations. I am particularly drawn to the program’s emphasis on leadership and community involvement, as I believe these experiences will further enhance my ability to contribute meaningfully to my university and beyond.  

I would also like to inquire about the specific support that adult tutors will provide during the program. Will they assist with academic guidance, cultural adaptation, or personal development? Understanding their role will help me better prepare for the program and maximize the learning opportunities it offers.  

Thank you for considering my application. I am enthusiastic about the possibility of joining this transformative program and am confident that my skills and dedication will make me a valuable participant. Please let me know if any additional information is required.  

I look forward to your response.  

Sincerely,  
[Your Name]

注意事项

  1. 多模态模型闭源评测基准及对应的榜单每季度更新一次,于每季度最后一个月的月初发布 (3 / 6 / 9 / 12 月)
  2. 新模型厂商若想参与该季度榜单评测,可在每季度的第 2 个月(2 / 5 / 8 / 11 月)的 25 日前 写邮件至 opencompass@pjlab.org.cn 申请评测
  3. 仅支持开源或对外提供 API 服务商业化模型
  4. 若为开源模型参与榜单评测,请提供 Hugging Face 或 ModelScope 模型权重及链接;API 模型参与评测,提供 API 网址链接,并写明模型版本
  5. 若为 API 模型,推荐提供 OpenAI 标准接口 API,非 OpenAI 标准接口需要在 VLMEvalKit 算法仓库中提 PR 以支持该模型
  6. 为保证和真实用户获得完全一样的模型使用体验,对于 API 模型,司南均通过常规采购渠道获取,不接受厂商提供的 key

了解更多

多模态模型闭源评测榜单已同步上线至司南官网,欢迎大家访问查看更详细的评测数据!
https://rank.opencompass.org.cn/

同时,司南评测过程中所用到的工具链均在 GitHub 开源,诚挚邀请您在学术研究或产品研发过程中使用~
https://github.com/open-compass/

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐