全球 AI 热潮下,一场实测戳破多少虚假神话
今年春节前后,受中国AI圈引领,全球范围内掀起了一批大模型更新热潮,一时各种旗舰模型接踵而来,日常办公使用,到底选哪个成了问题!而具备系统操控能力的 AiPy Pro,为实测模型执行能力提供了理想载体,这是一款能够控制电脑、手机、服务器操作的AI软件,我平时用它来做PPT、分析股票、做爬虫收集数据之类的。为验证大模型真实具象化执行能力,设计了本次控制 Windows 画图作画的对比测评,画一辆汽车,看看各个大模型的表现,同时也测试了openclaw控制 Windows 画图作画的对比测评。
01
测评目的:验证大模型控制鼠标自动
操作电脑的能力
很多人觉得大模型只能聊聊天、写写文案,其实不然。这次测评的核心目的,就是验证不同大模型控制鼠标自动操作电脑的能力:
各大模型到底能不能控制画图软件。
能不能找到Windows电脑上的画图软件。
能不能操作我的电脑鼠标,在画图软件正确的位置开始做画。
画的图形到底准确不准确!

02
测评过程:统一变量保证公平
为了保证测评的公平性,我统一了所有测试变量:
测试平台:Windows 11 + AiPy Pro 0.14.1
提示词:打开Windows画图软件,控制鼠标画一个汽车
评分标准:完成度(是否成功画出)、准确度(还原度)、耗时、token消耗
所有测试在同一台电脑上完成,排除硬件差异影响
【核心测评逻辑】大模型不需要直接画图,而是通过调用AiPy Pro的系统控制能力,操作鼠标在画图软件中完成绘制。这本质上是对大模型逻辑推理能力、代码生成能力、任务拆解能力的综合考验。
03
测评第一组:豆包Seed 2.0 Pro完
美完成任务
在所有测试模型中,豆包Seed 2.0 Pro的表现最为惊艳,全程耗时53秒,Token消耗31188,100%完成了任务:
1.指令理解阶段
:准确拆解任务为"启动画图软件→最大化窗口→选择铅笔工具→绘制汽车各部分→保存文件"5个步骤
2.代码生成阶段
:生成的PyAutoGUI代码逻辑清晰,坐标计算准确,考虑了窗口定位、等待时间等细节
3.执行阶段
:鼠标移动流畅,绘制顺序合理,先画车身轮廓,再画车顶、车窗、车轮,最后补充车灯等细节
4.完成效果
:汽车比例协调,线条流畅,所有细节完整,最终自动保存为PNG文件到指定目录
📸 豆包Seed 2.0 Pro 作画结果截图

整个过程完全不需要人工干预,从启动软件到保存文件一气呵成,展现了极强的端到端任务执行能力。
04
其它模型测试成绩汇总
这次我一共测试了9款主流大模型,整体表现差异非常大,具体成绩如下:
✅ 成功完成任务的模型:
GLM-5
耗时79秒,消耗41769 tokens,完成质量良好
📸 作画结果截图

Gemini 3.1 Pro Preview
耗时100秒,消耗29258 tokens,完成质量一般
📸 作画结果截图

Claude Sonnet 4.6
耗时232秒,消耗271707 tokens,汽车构造丰富,最终完成但效率较低
📸 作画结果截图

❌ 未完成任务的模型:
DeepSeek V3.2
耗时879秒,没有准确识别画图软件画图区域位置,越出构图区边界,导致图片准确度不足。
📸 作画结果截图

MiniMax M2.5
耗时65秒,作画图片完全失真,与汽车不符。
📸 作画结果截图

Kimi K2.5
耗时114秒,构图混乱,与汽车严重不符。
📸 作画结果截图

混元2.0
耗时92秒,构图混乱,与汽车严重不符。
📸 作画结果截图

05
如果是使用OpenClaw龙虾呢?
在做完测评后,发给朋友分享,有朋友问起我龙虾的效果,于是也使用龙虾配合Gemini 3.1 Pro做了一次测试,结果令人很失败,一笔未画!
耗时20秒,实际未执行画图操作
📸 作画结果截图


这里第一次说,画好了,但是实际画布上并没有图,然后我让继续画

这里画了个轮廓,也就是最终结果图中央的图,但不是汽车形状

后来openclaw自己又继续画,画出了最终图左上面的图形

最终结果:

📊 所有模型作画结果对比图

06
测评总结:AI原生应用时代已经到来
这次测评让我对AI工具的落地能力有了全新的认识:
-
AiPy Pro这类工具的出现,让大模型真正具备了"动手能力",不再是只能输出文本的"嘴强王者"
-
大模型的竞争已经从"谁更能聊"转向"谁更能解决实际问题",执行能力将成为核心竞争力
-
国产大模型在特定场景下的表现已经出现两级分化,部分模型已经超过或达到国际领先水平。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)