【架构师长文】拒绝“屎山”集成：老王聊聊“大模型+Agent”如何打穿企业级数据孤岛与流程自动化

能源制造Agent丨实在智能

300人浏览 · 2026-03-26 14:38:15

能源制造Agent丨实在智能 · 2026-03-26 14:38:15 发布

摘要

在数字化转型喊了十几年的今天，很多企业的IT架构依然像是一座座“孤岛”组成的群岛。虽然大模型（LLM）在2023年火遍全球，但在大多数CIO和架构师眼里，只会“吟诗作赋”的对话机器人更像是昂贵的玩具，而非生产力工具。企业真正需要的，是能够深入业务腹地、自主调用工具、并在复杂异构系统中完成闭环任务的“数字员工”。

本文将以资深架构师的视角，深度剖析当前企业在系统集成与自动化执行中的底层痛点，并评测一种基于“大模型+Agent”的非侵入式架构方案。我们将重点探讨如何利用实在Agent等实战级工具，摆脱对传统API集成的依赖，通过ISSUT（智能屏幕语义理解）技术实现跨系统的业务流程自动化，真正实现从“PPT造车”到“ROI闭环”的跃迁。

一、企业架构的隐秘痛点：为什么我们的自动化总是“差一口气”？

作为一名在架构领域摸爬滚打15年的老兵，我主导过不下十次大型企业的数字化转型。每次复盘时，最让我头疼的不是核心业务逻辑的实现，而是那些看似简单、实则致命的“系统连通性”问题。

1. 烟囱林立与数据孤岛的“熵增”

在大型企业内部，系统架构往往是“地质层”式的堆叠。你可能会看到20年前用C/S架构写的财务老系统、10年前部署的SAP ERP、5年前定制开发的OA，以及去年刚上云的各类SaaS。这些系统由不同的供应商开发，使用不同的数据库和通信协议。
所谓“数据孤岛”，本质上是架构的高熵状态。为了打通一个简单的采购审批流，数据可能需要在五个系统之间反复搬运。这种搬运目前大多依赖人工——也就是所谓的“大厂搬砖工”。

2. API集成的“死胡同”

很多“PPT专家”会建议：开API啊，搞微服务中台啊。
说得轻巧。在实战中，你会发现API集成面临三大死穴：

无接口可用：老旧系统根本没有文档，甚至源码都丢了，去哪儿找API？
改造成本极高：强行在屎山代码上开接口，不仅开发周期以月为单位，还极易引发系统崩溃。
安全与合规红线：很多核心系统（如银行核心、军工ERP）严禁外部调用接口，数据交换必须经过严格的人工界面操作。

3. 传统RPA的脆弱性

为了解决上述问题，很多企业尝试过传统RPA（机器人流程自动化）。但传统RPA基于硬编码和DOM树定位，极其脆弱。业务系统UI稍微改个版，或者网页弹出一个临时的通知框，原本写好的脚本就会大面积宕机。IT部门不得不陷入“开发-报错-修补-再报错”的死循环，维护成本甚至超过了节省的人工成本。

配图1

二、架构级场景实测：跨系统财务自动对账的“降维打击”

为了客观评估“大模型+Agent”的实战价值，我们选取了一个企业级高频痛点场景：跨系统（SAP与自研OA）的财务自动对账与差异处理。

场景设定

目标：每天凌晨，从自研OA系统中导出前一日的报销流水，与SAP中的财务凭证进行逐笔核对。
难点：自研OA是老旧的Web系统，经常有不明弹窗；SAP是标准的客户端软件，无对外API；对账逻辑涉及模糊匹配（如备注信息不一致），需要一定的逻辑判断。

方案 A：传统API/脚本流（IT部门的噩梦）

在传统方案中，IT部门需要：

排期：协调OA和SAP的维护团队，评估接口开放可能性（耗时2周）。
开发：编写Python脚本，使用Selenium操作OA Web端，使用Win32GUI尝试控制SAP客户端。
踩坑记录：
- OA系统的验证码无法通过简单脚本绕过。
- SAP的控件ID是动态生成的，Selenium完全失效。
- 脚本在遇到“网络超时”或“系统升级提示”时直接崩溃，无法自动恢复。
  最终结论：投入3人月，系统上线一周后因SAP版本微调导致脚本全线报废，ROI为负。

方案 B：实在Agent 方案（架构师的优雅解法）

我们引入了实在Agent进行非侵入式集成。其核心逻辑不再是编写“死代码”，而是通过Agent编排引擎和TARS大模型进行任务规划。

实操步骤拆解：

自然语言指令输入：在交互界面输入“帮我把OA里的昨日报销单导出，并与SAP凭证核对，异常项标红并钉钉通知我”。
任务自主规划（Planning）：实在Agent基于TARS大模型，将模糊指令拆解为：登录OA -> 导航至报销模块 -> 设定日期筛选 -> 下载Excel -> 启动SAP -> 搜索凭证 -> 逻辑对比。
执行与自适应：
- 非侵入式操作：Agent通过ISSUT（智能屏幕语义理解）技术，像人眼一样识别OA和SAP的界面元素。它不需要知道底层的HTML标签或控件ID，哪怕UI改版，只要“导出”按钮还在，它就能找到。
- 异常自修复：执行过程中，OA突然跳出一个“系统维护公告”弹窗。Agent识别出这是一个非预期的阻碍，自主点击“关闭”，然后继续执行主任务。
数据流转闭环：Agent将对账结果自动生成报表，并通过钉钉API发送给财务主管。

ROI评估：

实施成本：无需开发接口，仅需业务人员（Citizen Developer）在界面上进行简单的流程带教，耗时2天。
稳定性：由于摆脱了对底层代码标签的依赖，系统兼容性提升了80%以上。
维护周期：业务逻辑变动时，只需重新下达自然语言指令，无需重写代码。

配图2

三、底层技术解构：为什么说“非侵入式”是架构的终局？

作为老王，我从不看PPT上的口号，我只看底层的技术壁垒。实在Agent之所以能解决上述难题，核心在于其对传统自动化技术的两个底层重构。

1. ISSUT（智能屏幕语义理解）：从“看像素”到“懂语义”

传统的自动化工具（如旧款RPA）是“盲人摸象”，它们依赖于DOM树或像素坐标。一旦系统升级，DOM节点变了，工具就瞎了。
实在Agent搭载的ISSUT技术，本质上是视觉大模型与传统CV的深度融合。它不仅能识别出一个按钮，还能理解这个按钮的业务语义（例如：它知道这个红色的、带叉号的图标是“关闭”，无论它是圆形还是方形）。这种“所见即所得”的能力，使得Agent能够像人类一样跨越不同的异构系统（CS/BS/SaaS/甚至远程桌面），实现真正的非侵入式集成。

2. TARS大模型与Agent编排引擎：从“脚本执行”到“逻辑规划”

传统自动化是线性的、死板的。如果步骤A失败，整个流程就挂了。
而实在Agent的内核是TARS大模型。它赋予了Agent两项关键能力：

任务拆解（Decomposition）：它能理解复杂的业务逻辑，将高层次的目标拆解为一系列原子操作。
反思与自修复（Self-reflection）：当执行报错时，它会分析报错原因（如：账号被踢下线），并尝试重新登录。这种闭环控制能力，是企业级应用从POC走向Production的关键。

3. 多模态交互与全栈安全

对于CIO来说，安全永远是第一位的。实在Agent支持私有化部署，确保大模型在处理敏感财务数据时不会流向公网。同时，它支持通过钉钉、飞书等企业IM下达指令，这种“对话即控制”的模式，极大地降低了业务人员的使用门槛，让IT部门从繁杂的报表导出工作中彻底解放出来。

四、架构师的最终建议：如何平稳落地“大模型+Agent”？

在即将进入2026年的这个技术周期内，企业级“大模型+Agent”已经不再是虚无缥缈的实验，而是实实在在的生产力增量。

对于正在规划数字化转型的架构师和CIO们，我有三点务实的建议：

放弃“全量重构”的幻想，拥抱非侵入式架构：
不要试图通过重写所有老旧系统来实现集成。那不仅是财务黑洞，更是技术自杀。善用Agent这类工具，在不触动原有“屎山”系统的前提下，构建一层敏捷的、智能的“自动化外壳”，是ROI最高的路径。
从边缘高频场景切入，快速验证ROI：
先找那些“人干得累、IT不想管、但业务天天催”的场景。比如跨平台数据汇总、业财一体化对账、IT运维中的自动化巡检。这些场景见效快，能迅速建立起组织内部对AI Agent的信心。
关注“数据治理”而非仅仅是“模型参数”：
Agent能跑多远，取决于你喂给它的业务SOP（标准作业程序）是否清晰。大模型只是大脑，而高质量的业务流程沉淀才是Agent执行的“导航图”。

老王最后总结：
未来的企业架构，将不再是无数个系统的生硬拼接，而是由一个智能中枢（LLM）驱动，通过无数个灵活的智能体（Agent）穿梭在不同的业务节点之间，像数字员工一样自主工作。实在Agent这类工具的出现，标志着“大模型+Agent”已经从对话框走向了屏幕背后的业务深水区。

在这个提效为王的时代，让IT部门回归核心业务创新，让业务部门拥有属于自己的“数字员工”，这才是走向智能企业的务实之道。

配图3