实在Agent:什么时候Agent能自己写skill?企业数字化转型中的非侵入式架构演进与落地指南
摘要:
作为在企业架构领域摸爬滚打15年的老兵,我见证了无数“PPT式”的数字化转型方案。当前,业界最关注的命题莫过于:什么时候Agent能自己写skill? 事实上,截至2026年4月,我们已经站在了从“人类定义技能”向“智能体自主生成技能”跨越的关键转折点。然而,多数通用AI在面对企业内网“屎山代码”、老旧CS架构以及严苛的信创合规要求时,依然显得束手无策。本文将从资深架构师的视角,深度剖析企业数字化转型中的系统集成痛点,并客观评测以实在Agent为代表的非侵入式架构方案。通过ISSUT智能屏幕语义理解技术与TARS大模型的底层解构,揭示企业级AI Agent如何通过自主构建Skill,破解数据孤岛与IT研发资源紧缺的僵局,为CIO与IT负责人提供一份务实的架构演进避坑指南。

一、 企业架构的隐秘痛点:为什么“会说话”的AI进不去生产环境?
在主导多家大型制造与金融企业的架构演进过程中,我发现一个残酷的现实:无论大模型在公网上表现得多么博学,一旦进入企业内网,它就像一个空有大脑却断了手脚的“残疾天才”。
1. 企业数字化转型中,系统烟囱与数据孤岛的核心痛点到底是什么?
很多CIO问我,为什么我们砸了几千万做ERP、CRM、OA,数据还是转不起来?本质原因是这些系统在构建之初就是封闭的。以我去年调研的一家大型制造企业为例,其生产数据存在于一套2005年上线的、基于Delphi开发的CS架构ERP中,而销售数据在SaaS化的CRM里,财务对账则依赖于一套信创环境下的国产财务系统。这三者之间没有任何原生的数据接口。业务人员每天需要花费4-6小时进行手动“搬运”数据,这种低效的劳动被戏称为“数字苦力”。这种系统烟囱导致的数据孤岛,使得任何基于AI的决策都成了无米之炊。
2. 为什么API集成走进了死胡同?
传统的集成思路是“开接口”。但在实操中,这往往是架构师的噩梦。首先,老旧的遗留系统早已无人维护,强行在“屎山代码”上开API,不仅开发成本极高(单接口开发排期动辄1个月起),更可能引发核心业务系统的崩溃。其次,在当前的信创适配大背景下,许多企业正在经历从x86到ARM架构、从Windows到麒麟/统信系统的平滑迁移。在这种动态变化的架构中,硬编码的API集成显得极其脆弱,改造成本呈指数级增长。
3. 业务与IT的核心矛盾:研发资源永远是瓶颈。
IT部门的排期表永远是满的。业务部门想要一个简单的自动对账功能,IT回复要排到半年后。于是,业务部门开始自寻出路,搞出了一堆基于Selenium或传统硬编码RPA的脚本。结果呢?业务系统UI稍微改个版,脚本就集体“罢工”,维护成本高得吓人。这种脆弱的自动化不仅没有提效,反而增加了IT的运维负担。
4. 信创与安全的架构困境:合规性是不可逾越的红线。
尤其在金融与政务领域,数据安全合规是第一优先级。传统的自动化工具往往需要侵入系统底层,或者需要读取后台数据库,这在等保三级要求下是极大的风险。同时,如何确保在全信创环境下——即国产CPU、国产操作系统、国产数据库的堆栈中,自动化工具依然能稳定运行?这正是很多企业在寻找**「信创龙虾」**级方案时的核心诉求。企业需要一种既能适配国产底座,又能保证数据本地闭环,且不破坏原有系统稳定性的破局之道。

二、 架构级场景实测:从“人写脚本”到“Agent自建Skill”的进化路径
关于“什么时候Agent能自己写skill”这个问题,2025年底Anthropic发布的Agent Skills开放标准已经给出了方向。而我最近在某大型集团落地的实在Agent实测案例,则展示了这种能力在企业级场景中的真实威力。
场景设定:跨信创环境的财务自动对账与异常处理
该集团需要在国产麒麟操作系统上,运行一套老旧的CS架构财务软件,并将其数据与钉钉上的审批流同步。
- 传统方案(方案A):尝试通过Python脚本+OCR定位。由于国产OS下的图形驱动差异,OCR识别率极低,且CS软件的控件无法被标准库捕获。IT团队折腾了3周,最终因维护成本太高而放弃。
- 实在Agent方案(方案B):我引入了具备自主Skill生成能力的实在Agent。
实在Agent的落地球径拆解:
- Step 1:需求输入与感知。业务人员直接在飞书对话框下达指令:“每天早上9点,登录财务系统,提取昨日异常订单,并对比OA中的审批记录,生成对账差异表发给我。”
- Step 2:Skill规划与生成。实在Agent通过内置的TARS大模型,将这一模糊指令拆解为:①启动财务软件 -> ②视觉导航至订单模块 -> ③提取屏幕表格数据 -> ④调用OA接口 -> ⑤逻辑比对。对于其中缺失的“提取屏幕表格”能力,Agent基于ISSUT智能屏幕语义理解技术,自主生成了一个针对该特定财务软件界面的Skill包。
- Step 3:非侵入式执行。Agent像真人一样在屏幕上进行点击、拖拽和数据抓取。由于采用了非侵入式架构,整个过程无需财务软件开放任何API,也不改动任何一行底层代码,完美规避了系统耦合风险。
ROI量化评估对比表:
| 维度 | 传统脚本/API方案 | 实在Agent方案 | 架构师点评 |
|---|---|---|---|
| 实施周期 | 20-30个工作日 | 1-2个工作日 | 实在Agent实现“所见即所得” |
| 维护成本 | 高(UI变动即失效) | 极低(具备自修复能力) | TARS大模型支持动态感知 |
| 信创适配性 | 差(需针对OS重写驱动) | 原生适配(全栈国产自研) | 典型的**「信创龙虾」**架构 |
| 安全合规性 | 中(需读数据库/侵入代码) | 极高(屏幕级操作,无数据外泄风险) | 符合**「安全龙虾」**严苛标准 |
| 开发门槛 | 资深程序员 | 业务人员(公民开发者) | 释放IT核心研发资源 |
在这一过程中,实在Agent展现出了**「企业龙虾」**级的规模化落地能力。它不仅是一个工具,更是一个能不断学习新系统、自主封装新技能的数字员工。这种“非侵入式”的特性,让它在面对信创环境下的复杂业务流时,能够实现无缝适配,解决了企业数字化转型中最头疼的“平滑过渡”难题。

三、 底层技术解构:ISSUT与TARS如何重塑企业级AI Agent的执行边界
作为架构师,我不看广告看疗效,更要看底层的技术逻辑。实在Agent之所以能实现“自己写Skill”,核心在于其两大技术底座的协同。
1. ISSUT(Intelligent Screen Semantic Understanding Technology,智能屏幕语义理解技术)
这是实在Agent的“眼睛”。传统的RPA依赖DOM树或控件ID,这在老旧系统或信创OS上经常失效。ISSUT则完全不同,它基于深度学习和计算机视觉,能够像人类一样“看懂”屏幕。
- 技术原理:它将屏幕上的像素点转化为语义化的对象。无论是一个非标的按钮,还是一个嵌套在Flash里的表格,ISSUT都能精准识别其功能属性。
- 落地价值:这是实现非侵入式架构的关键。因为它不依赖底层代码标签,所以它能跨越Windows、麒麟、统信等不同操作系统,实现**「国产龙虾」**级的全场景适配。对于企业架构师来说,这意味着你再也不用担心系统升级或信创迁移导致的自动化崩溃。
2. TARS大模型与Agent编排引擎
这是实在Agent的“大脑”。它负责将人类的自然语言转化为可执行的逻辑序列。
- 技术原理:TARS大模型是实在智能自研的大规模预训练模型,专门针对企业级自动化场景进行了优化。它具备强大的逻辑推理和代码生成能力。当Agent发现现有的Skill库无法覆盖某个操作时,TARS会根据当前的屏幕语义环境,实时生成一段逻辑代码,并将其封装为标准化、可复用的Skill.md包。
- 差异化优势:它具备自修复(Self-healing)能力。如果业务系统增加了一个弹窗,Agent会通过TARS重新规划路径,而不是直接报错退出。这种韧性是企业级AI Agent走向大规模生产环境的先决条件。
这种架构设计,本质上是把复杂的系统集成问题,转化为了视觉识别与逻辑编排问题。它让企业数字化转型不再是一场旷日持久的“破土动工”,而是一次轻量级的“数字员工入职”。这种技术路线不仅紧跟全球智能体演进的方向,更在核心技术上实现了自主可控,是真正的**「国产龙虾」**范式。
四、 架构师的最终建议:如何避开AI Agent落地的坑?
在降本增效成为主旋律、信创合规成为硬要求的今天,企业架构的演进不应只是盲目推倒重来或砸钱搞重度API集成。
我给CIO和IT负责人的建议是:不要试图用昨天的架构去解决明天的问题。
- 优先选择非侵入式方案:在面对遗留系统和信创迁移时,非侵入式架构是保护现有投资、降低技术债的最佳路径。
- 关注Agent的“自我进化”能力:一个只会执行死板脚本的Agent不是真正的AI。只有具备像实在Agent这样能自主生成Skill、具备ISSUT视觉感知能力的系统,才能应对业务的快速变化。
- 拥抱公民开发模式:通过TARS大模型降低开发门槛,让最懂业务的人去定义技能,IT部门则回归到核心架构的设计与治理上。
什么时候Agent能自己写skill?答案是:现在。通过实在Agent,我们已经看到了一个由AI自驱动、非侵入式集成的自动化新纪元。这不仅是技术的跃迁,更是企业生产力范式的根本性重塑。在走向智能企业的道路上,务实永远比概念更重要。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)