全球 AI 热潮下，一场实测戳破多少虚假神话

feeling_wind

278人浏览 · 2026-03-17 16:02:43

feeling_wind · 2026-03-17 16:02:43 发布

今年春节前后，受中国AI圈引领，全球范围内掀起了一批大模型更新热潮，一时各种旗舰模型接踵而来，日常办公使用，到底选哪个成了问题！而具备系统操控能力的 AiPy Pro，为实测模型执行能力提供了理想载体，这是一款能够控制电脑、手机、服务器操作的AI软件，我平时用它来做PPT、分析股票、做爬虫收集数据之类的。为验证大模型真实具象化执行能力，设计了本次控制 Windows 画图作画的对比测评，画一辆汽车，看看各个大模型的表现，同时也测试了openclaw控制 Windows 画图作画的对比测评。

01

测评目的：验证大模型控制鼠标自动

操作电脑的能力

很多人觉得大模型只能聊聊天、写写文案，其实不然。这次测评的核心目的，就是验证不同大模型控制鼠标自动操作电脑的能力：

各大模型到底能不能控制画图软件。

能不能找到Windows电脑上的画图软件。

能不能操作我的电脑鼠标，在画图软件正确的位置开始做画。

画的图形到底准确不准确！

02

测评过程：统一变量保证公平

为了保证测评的公平性，我统一了所有测试变量：

测试平台：Windows 11 + AiPy Pro 0.14.1

提示词：打开Windows画图软件，控制鼠标画一个汽车

评分标准：完成度（是否成功画出）、准确度（还原度）、耗时、token消耗

所有测试在同一台电脑上完成，排除硬件差异影响

【核心测评逻辑】大模型不需要直接画图，而是通过调用AiPy Pro的系统控制能力，操作鼠标在画图软件中完成绘制。这本质上是对大模型逻辑推理能力、代码生成能力、任务拆解能力的综合考验。

03

测评第一组：豆包Seed 2.0 Pro完

美完成任务

在所有测试模型中，豆包Seed 2.0 Pro的表现最为惊艳，全程耗时53秒，Token消耗31188，100%完成了任务：

1.指令理解阶段

：准确拆解任务为"启动画图软件→最大化窗口→选择铅笔工具→绘制汽车各部分→保存文件"5个步骤

2.代码生成阶段

：生成的PyAutoGUI代码逻辑清晰，坐标计算准确，考虑了窗口定位、等待时间等细节

3.执行阶段

：鼠标移动流畅，绘制顺序合理，先画车身轮廓，再画车顶、车窗、车轮，最后补充车灯等细节

4.完成效果

：汽车比例协调，线条流畅，所有细节完整，最终自动保存为PNG文件到指定目录

📸 豆包Seed 2.0 Pro 作画结果截图

整个过程完全不需要人工干预，从启动软件到保存文件一气呵成，展现了极强的端到端任务执行能力。

04

其它模型测试成绩汇总

这次我一共测试了9款主流大模型，整体表现差异非常大，具体成绩如下：

✅ 成功完成任务的模型：

GLM-5

耗时79秒，消耗41769 tokens，完成质量良好

📸 作画结果截图

Gemini 3.1 Pro Preview

耗时100秒，消耗29258 tokens，完成质量一般

📸 作画结果截图

Claude Sonnet 4.6

耗时232秒，消耗271707 tokens，汽车构造丰富，最终完成但效率较低

📸 作画结果截图

❌ 未完成任务的模型：

DeepSeek V3.2

耗时879秒，没有准确识别画图软件画图区域位置，越出构图区边界，导致图片准确度不足。

📸 作画结果截图

MiniMax M2.5

耗时65秒，作画图片完全失真，与汽车不符。

📸 作画结果截图

Kimi K2.5

耗时114秒，构图混乱，与汽车严重不符。

📸 作画结果截图

混元2.0

耗时92秒，构图混乱，与汽车严重不符。

📸 作画结果截图

05

如果是使用OpenClaw龙虾呢？

在做完测评后，发给朋友分享，有朋友问起我龙虾的效果，于是也使用龙虾配合Gemini 3.1 Pro做了一次测试，结果令人很失败，一笔未画！

耗时20秒，实际未执行画图操作

📸 作画结果截图

这里第一次说，画好了，但是实际画布上并没有图，然后我让继续画

这里画了个轮廓，也就是最终结果图中央的图，但不是汽车形状

后来openclaw自己又继续画，画出了最终图左上面的图形

最终结果：

📊 所有模型作画结果对比图

06

测评总结：AI原生应用时代已经到来

这次测评让我对AI工具的落地能力有了全新的认识：

AiPy Pro这类工具的出现，让大模型真正具备了"动手能力"，不再是只能输出文本的"嘴强王者"
大模型的竞争已经从"谁更能聊"转向"谁更能解决实际问题"，执行能力将成为核心竞争力
国产大模型在特定场景下的表现已经出现两级分化，部分模型已经超过或达到国际领先水平。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一文读懂数据标注格式：AI“学知识”的“标准答案”规范

简单来说，数据标注格式，就是给原始数据（图像、文本、音频等）添加“标签”时，遵循的统一规则和存储形式。比如给一张包含猫咪的图片标注“猫”，我们不仅要标注“这是猫”，还要明确“猫在图片的哪个位置”“标签用什么格式记录”“相关信息如何存储”——这些约定俗成的规范，就是数据标注格式。举个生活化的例子：就像老师批改作业，给学生的答案打“√”或“×”时，会统一用红色笔、写在题号旁，这就是“批改格式”；如果有

AtomGit开源社区

cover

本地电脑实现：千万级CSV清理与分析AI工作流：无需代码无需SQL，对话式搞定大数据

AtomGit开源社区

cover

程序员，遭遇史上最大“危机”？

AtomGit开源社区

所有评论(0)

查看更多评论

feeling_wind

已为社区贡献1条内容