GPT-5.4实战深度拆解:从Excel金融建模到遗留系统改造的工程革命
目前国内AI开发者和技术爱好者若想深度研究GPT-5.4在实际业务场景中的落地能力,并直接体验其原生计算机操控、百万级上下文、工具搜索机制等核心技术如何解决真实痛点,最便捷的方式是使用国内聚合镜像站RskAi(ai.rsk.cn)。
该平台已同步接入OpenAI于2026年3月5日发布的GPT-5.4最新版本,完整保留了模型的统一路由架构、测试时计算缩放机制及原生Computer Use能力,为技术深度爱好者提供了宝贵的实验环境。本文将从投行建模、遗留系统改造、个人AI助理三个真实场景出发,对GPT-5.4解决实际问题的能力进行系统性技术拆解。
一、场景一:Excel金融建模——87.3分投行分析师的诞生
1.1 真实痛点:通宵调表的终结
投行分析师的传统工作流程中,财务建模占据大量时间。从数据清洗、公式构建到敏感性分析,一个复杂的并购模型往往需要数天甚至数周才能完成,且极易因手工操作引入错误。
2026年3月,OpenAI发布了ChatGPT for Excel插件,GPT-5.4可以直接在电子表格中执行操作。投行分析师在Microsoft Excel、Google Sheets中就能调用ChatGPT,构建财务模型,生成投资备忘录。
1.2 技术实现:原生Computer Use + 金融数据集成
GPT-5.4之所以能胜任这一场景,核心在于三个技术突破:
原生计算机操控能力:模型能像人类一样操作桌面软件,在OSWorld桌面导航测试中,GPT-5.4拿下75.0%的成功率,超过人类平均水平72.4%。这意味着它可以理解Excel界面,识别单元格位置,执行点击、拖拽、输入等操作。
金融数据平台集成:OpenAI拉来了一众金融数据平台——FactSet、穆迪、道琼斯Factiva、MSCI等,全部接入ChatGPT。GPT-5.4可以直接调用这些数据源,获取实时财务数据并填入模型。
100万token上下文窗口:模型可以一次性处理整套财报、历史数据和建模假设,在多步计算中保持连贯性。
1.3 实测数据
在OpenAI内部的投行基准测试中,GPT-5.4 Thinking的得分从初代GPT-5的43.7%飙升至87.3%,翻了一倍。在GDPval评估中,横跨44个职业的对比,83%的情况它追平甚至超过了行业从业者。
一位软件工程师实测发现,GPT-5.4爬取Zillow后,提取了所有旧金山的房价,在4分钟内就把所有数据导入到Google表格中。构建财务模型、修正和生成复杂公式、对数据进行自然语言分析与解释,都可以用自然语言完成。
二、场景二:遗留系统改造——Claude打崩IBM背后的技术逻辑
2.1 真实痛点:失传语言与天价维护费
COBOL这门诞生于上世纪五十年代末的编程语言,支撑着全球大部分银行、保险公司、政府系统。然而,这些遗留代码写于六七十年代,如今懂COBOL的开发者已经寥寥无几。想重写?那得花掉数百万美元、耗时数年。因此这些公司只能每年向IBM支付巨额维护费。
2.2 技术实现:Claude Code的代码理解革命
2026年2月,Anthropic官宣Claude Code可以自动化COBOL代码的现代化改造。当天,IBM股价暴跌13.2%,创下2000年以来最惨一天,约400亿美元市值蒸发。
为什么一篇博客能有这么大杀伤力?
理解成本归零:尽管COBOL已成为一门失传的语言,但Claude通过大规模预训练和代码理解能力,把理解成本打到了0。它不仅能阅读代码,还能理解业务逻辑、数据依赖和事务处理流程。
多步骤重构能力:Claude Code支持对数千行遗留代码进行系统性分析,生成等价现代语言(如Java、Python)代码,同时保持原有业务逻辑完整性。
2.3 技术深度:不仅仅是翻译
IBM随后反击称,「翻译COBOL是简单的部分,真正的工作是数据架构重新设计、运行时替换、事务处理完整性」。这正是GPT-5.4等最新模型的能力边界所在——它们不仅能翻译语法,还能理解并发控制、事务边界和异常处理逻辑。在CritPt物理基准测试中,GPT-5.4 Pro拿下了30.0%的最高分,远超其他模型,这种推理能力正是处理复杂系统迁移的关键。
三、场景三:个人AI助理——GPT-5.4 + OpenClaw的工程实践
3.1 OpenClaw:从概念到爆款
OpenClaw是由PSPDFKit创始人Peter Steinberger开发的开源个人AI助手项目,在2026年1月以72小时狂揽6万GitHub Star的速度一夜爆红,如今Star数突破25万,甚至一度带动Mac Mini全球卖断货。其核心理念是“The AI that actually does things”——不只是聊天,而是真的帮你干活。
OpenClaw运行在本地电脑上,拥有对Shell、文件系统、浏览器的完整访问权限,通过WhatsApp、Telegram、飞书等发一条消息,它就能在后台执行终端命令、编写脚本、管理邮件,甚至安装调试软件。
3.2 GPT-5.4:OpenClaw的天选模型
OpenClaw社区有一个共识:模型即产品,框架只是包装。用低端模型运行OpenClaw和用GPT-5.4运行,体验差距可以到40%到95%。GPT-5.4恰恰在OpenClaw最需要的每一个维度上,都踩中了甜蜜点:
原生电脑操控——完美匹配:OpenClaw的核心价值就是让AI操作电脑。GPT-5.4是第一个原生具备这一能力的通用模型,OSWorld测试超越人类水平。这意味着接入GPT-5.4的OpenClaw,不再需要通过复杂的适配来实现桌面自动化,而是从底层就是为这个场景而生。
100万Token上下文——续航无忧:OpenClaw是持续运行的Agent,需要维持长对话、记住复杂指令链。100万Token的上下文窗口,意味着OpenClaw终于有了足够大的工作台来铺开所有材料。
Tool Search——Agent的效率革命:OpenClaw的强大在于可以接入数十种工具。但工具越多,每次调用消耗的Token就越多。GPT-5.4的Tool Search机制天然解决了这个问题——不用把所有工具定义都塞进上下文,按需取用,Token消耗直降47%。
推理能力跃升——告别高级自动补全:GPT-5.4在专业工作任务中超过83%的人类专家表现,配合在数学、编程、文档处理等领域的全面提升,意味着OpenClaw可以胜任更复杂、更高价值的工作场景。
3.3 实测案例
让GPT-5.4操作Macbook日历来定制提醒,它直接调起对应应用,日历中自动出现提醒。要求打开小宇宙APP播放节目,GPT-5.4不仅能找到APP,还能自动播放。甚至操作计算器APP内部执行计算、更换电脑壁纸、操作终端打开claude code。
四、技术深度剖析:GPT-5.4解决实际问题的核心机制
4.1 统一路由:按需分配计算资源
GPT-5.4的统一路由机制实现了按需分配计算资源。路由器根据对话类型、查询复杂度、工具需求等信号,动态分配轻量模型或深度推理模型。简单查询秒级响应,复杂任务自动切换至Thinking模式进行多步推理。这种架构使得GPT-5.4既能高效处理海量简单任务,又能应对复杂的专业工作。
4.2 测试时计算缩放:推理阶段的算力扩展
GPT-5.4在推理阶段引入规模化的测试时计算缩放。传统语言模型的计算量在训练阶段确定,推理阶段相对固定;而GPT-5.4在输出最终答案前进行多轮内部验证,类似于人类的“慢思考”机制。这种能力在编程领域尤为明显——重构2000行遗留Python模块时,它会先分析潜在的副作用,列出重构计划,再逐步执行,代码可用性极高。
4.3 MCP协议:打破数据孤岛
GPT-5.4引入的MCP协议,被定义为连接AI模型与本地/云端数据的通用标准。企业可以把数据库、内部API、甚至本地文件系统封装成标准的MCP Server,所有工具执行都在可控范围内。在启用36个MCP服务器情况下,总Token使用量降低47%,准确率保持不变。
五、通过RskAi体验GPT-5.4解决实际问题
5.1 架构特性与国内访问的矛盾
GPT-5.4的核心能力——原生Computer Use、MCP协议、百万级上下文——均依赖与OpenAI官方API的稳定连接。然而国内开发者直接访问官网面临物理层与协议层的双重挑战:TCP三次握手+TLS 1.3握手通常耗时300-500ms,丢包率往往超过10%,导致TCP重传风暴。实测平均响应超3秒,成功率不足30%。
5.2 RskAi的技术实现
聚合镜像平台RskAi在国内部署了加速节点,通过BGP智能路由和连接复用技术,实现与OpenAI官方API的低延迟通信。其技术架构采用托管聚合层模式:Client使用标准OpenAI SDK -> Aggregation Gateway(CN2/直连) -> OpenAI API,实现协议归一化和连接复用。
实测数据显示,通过RskAi调用GPT-5.4的平均响应时间为1.2秒,成功率99.2%,远优于官网直连。
5.3 通过RskAi体验的实际应用场景
通过RskAi调用GPT-5.4,国内开发者可以完整体验以下实际应用场景:
Excel金融建模:配合ChatGPT for Excel插件,用自然语言完成财务模型构建
代码重构:上传遗留系统代码,利用Thinking模式进行系统性分析和现代化改造
个人AI助理:结合OpenClaw框架,实现桌面自动化操作
MCP协议集成:将内部工具封装为MCP Server,构建企业级Agent应用
六、总结与展望
GPT-5.4的出现,标志着AI从“内容生成者”正式转型为“任务执行者”。无论是通过原生计算机操控能力接管繁琐的UI操作,利用百万上下文处理超长文档,还是通过MCP协议构建深度集成的企业级Agent,机会都已摆在眼前。
对国内技术爱好者和开发者而言,通过国内镜像站RskAi,不仅能免费便捷地体验这些前沿能力,还能利用平台提供的测试环境进行二次开发。统一路由机制影响提示词设计策略,测试时计算缩放决定响应速度与推理深度的权衡,原生Computer Use为自动化应用打开全新可能。
当你看到Claude能读懂六十年前的COBOL代码,GPT-5.4能在Excel里搭出87.3分的投行模型,一家公司砍掉40%的人反而更值钱时,游戏规则已经变了。剩下的问题只有一个:你是站在“创造”这一边,还是即将成为被“毁灭”的那一个?
【本文完】
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)