Skill即服务:用Agent安全玩转云上Flink
演讲者:李昊哲,阿里云实时计算 Flink 产品经理
内容摘要
Flink Skill 是阿里云为 AI Agent 时代设计的安全操作云上Flink的能力,解决了 Agent 直接调用 OpenAPI 操作生产环境时"能执行但不安全"的核心痛点。实测数据显示,Flink Skill 可将作业反压从 99% 修复至 0%,将全域巡检时间从半天缩短至 30 秒,并支持多个Skill 协同完成实时数仓搭建等复杂任务。

核心观点
- 安全边界是Agent使用Skill的基础:Flink Skill在大模型(大脑)和 API 工具(手脚)之间提供安全护栏和能力边界,确保 Agent 操作生产环境既能干活又不闯祸
- 对话即运维,Flink运维门槛归零:用户通过自然语言即可完成实例创建、作业部署、故障诊断、告警配置等全链路操作,无需编码或 API 经验
- Flink Skill三层安全防护保障生产:Confirm 门控(写操作需用户确认)、目标锁定(防止偏移操作)、Read-back 验证(确认实际状态后才算成功)
- Flink Skill与多Skill 协同:Flink + DMS + Hologres等多个 Skill 联动,一句话搭建实时数仓、多模态实时舆情分析系统等复杂场景

01
为什么 AI Agent 时代需要 Skill?
AI Agent 行业在 2025 年发生了什么标志性事件?
2025 年底,AI Agent 行业达成共识:Agent 必须能操作生产环境。三大标志性事件推动了这一转变:Manus 刷屏引发行业对 Agent 执行能力的关注,Anthropic 发布 MCP(Model Context Protocol)协议定义了 Agent 与工具的交互标准,OpenAI 跟进发布 Function Calling 生态,Google 发布 A2A(Agent-to-Agent)协议。这些协议共同确立了 Agent 操作外部系统的技术基础。
云资源操作方式经历了哪些演进阶段?
从控制台点击到 Terraform 编码,再到 Copilot 问答、Agent+OpenAPI 直接调用,每个阶段都有明确的局限性。Agent 直接通过 OpenAPI 操作云资源存在严重安全风险——它能执行但没有护栏,可能删错实例或改错配置。Skill 的核心价值是在 AI 可控范围内为 Agent 安装安全门和能力边界。

|
阶段 |
时间 |
操作方式 |
核心局限 |
|---|---|---|---|
|
控制台时代 |
2018 年前 |
页面点击,人工校验参数 |
依赖开发者手动操作,效率低 |
|
IaC 时代 |
2018-2023 年 |
Terraform/SDK 编码 |
需要编码能力和 API 经验,门槛高 |
|
Copilot 时代 |
2023-2024 年 |
对话式问答 |
能回答问题但不能执行操作 |
|
Agent + OpenAPI |
2024-2025 年 |
Agent 直接调用 API |
能执行但不安全,无护栏无边界 |
|
Agent + Skill |
2025 年至今 |
自然语言 + Skill 安全保障 |
当前最优解:既能干活又不闯祸 |
02
Flink Skill 的核心能力是什么?
Flink Skill 是连接 Agent 大脑与执行动作的神经中枢,通过 SOP 注入将专家运维经验固化为 Agent 原生能力,通过逻辑封装屏蔽工具调用复杂度。用一句话总结:Memory 是 Agent 的资产,工具是设备,Skill 是生产工艺。

Skill 如何解决 Agent 操作的安全问题?
Flink Skill 实现了三层生产级安全防护机制,确保 Agent 操作的每一步都在可控范围内:
|
安全机制 |
功能说明 |
解决的问题 |
|---|---|---|
|
Confirm 门控 |
所有写操作需用户显式确认后才执行 |
防止误操作,保障用户知情权 |
|
目标锁定 |
限定 Agent 操作范围,防止偏移操作 |
防止 Agent 误操作非目标实例 |
|
Read-back 验证 |
不信任 API 返回码,验证实际状态后才算成功 |
确保操作真正生效(如实例确实 RUNNING) |
Flink Skill 提供了哪些具体能力?
Flink Skill 已发布的能力覆盖从实例售卖到作业运维的全生命周期,分为五层架构:

- 实例管理层(Instance Management):实例创建、扩缩容、生命周期全流程管理,支持一句话完成实例部署
- 控制台运维层(Workspace Ops):作业 SQL 开发、提交部署、日常运维全场景覆盖,已在 Skill Hub 公开发布
- 知识层(Knowledge):封装官网文档知识,自动结构化沉淀,开发时无需手动查阅参数文档
- 诊断层(Diagnose):作业健康诊断、性能分析、根因定位,自动生成诊断报告
- 安全层(Security):三层安全防护 + 多 Skill 协同能力
03
Flink Skill 有哪些典型应用场景?
Flink Skill 支持多端调用(Flink 控制台、DataWorks Data Agent、OpenClaw、QoderWork、Qoder等等),实现一次建设、多端调用、所说即所得。以下是四个已验证的生产场景。

场景一:作业诊断与修复——如何让 Flink 作业自动修复反压?
通过对话即可完成原来需要翻多个页面、逐项排查的故障诊断和修复流程。实测将作业反压(Backpressure)从 99% 修复至 0%,全程无需人工介入控制台。

典型痛点:Flink 作业 Failover 后日志仅一行报错,根因定位如大海捞针。Checkpoint 超时、反压、数据倾斜每个问题排查方式不同,半夜告警需要逐项翻查控制台日志、Metrics 和事件。
Skill 解决流程:
- 用户一句话描述问题(如"帮我分析作业的反压问题")
- Agent 调用 Diagnose Skill 自动诊断,输出优化建议
- 用户确认后,Agent 调用 Workspace Ops Skill 调整并行度参数
- Agent 执行 Hot Update 使配置生效
- Agent 自动检测作业稳定性,确认反压从 99% 降为 0%
场景Demo:
场景二:全域巡检诊断——如何 30 秒完成大促前巡检?
一句话触发全地域 Flink 实例自动巡检,30 秒生成完整巡检报告。原来需要半天时间编写脚本、对接 OpenAPI 的巡检工作,现在通过多个 Skill 组合一次完成。

操作方式:用户输入"帮我巡检所有 Flink 实例,给我一个巡检报告"。Agent 自动执行全地域扫描,遍历所有可用区,发现实例并生成包含风险建议、运行状态和诊断提示的完整报告。
|
指标 |
传统方式 |
Skill 方式 |
提升幅度 |
|---|---|---|---|
|
巡检耗时 |
约半天(编写脚本+调试+执行) |
30 秒 |
提升约 1000 倍 |
|
技能要求 |
需要 OpenAPI 编程经验 |
自然语言即可 |
门槛归零 |
|
覆盖范围 |
取决于脚本质量 |
自动全地域扫描 |
无遗漏 |
场景Demo:
场景三:实时数仓搭建——如何一句话搭建 Flink CDC 全增量同步链路?
通过 Flink Skill + DMS Skill + Hologres Skill 多 Skill 联动,一句话完成从 MySQL 到 Hologres 的实时数仓搭建,告别 T+1 报表延迟。

用户输入示例:"建一个实时数仓,从 MySQL 写一个 Flink CDC 作业,全量和增量数据同时写到 Hologres,确认链路没问题。"
Agent 自动编排流程:
- DMS Skill 在 MySQL 中创建源表(如 orders 表)
- Hologres Skill 自动创建目标库和 Sink 表,完成 Schema 一致性校验
- Flink Skill 生成 Flink CDC 全增量一体化作业
- Agent 启动作业并确认 Ready 状态
- 如发现策略异常,Agent 自动修复后重新提交
- 可选:调用 CMS Skill 一键配置监控告警
场景Demo:
场景四:品牌舆情实时监控——非技术人员如何搭建多模态实时分析系统?
6 个 Skill 协同工作(Flink 实例管理、Hologres 实例管理、DMS 建表、DataWorks 作业开发、CMS 告警、DIS 性能查询),让市场部同事无需写一行代码即可搭建实时舆情分析系统。

核心实现:通过 Datagen 模拟社交评论数据流,调用 Flink 内置的 AI_SENTIMENT 函数进行实时情感分析,结果写入 Hologres 后搭建实时 BI 报表,展示各品牌正负面情感评分和实时评论流。

关键价值:
- 用户全程无代码操作,Agent 自主决定调用流程、参数传递和异常处理
- 原来需要提工单给数据团队排期的工作,现在市场部同事直接对话完成
- 支持根据需求灵活编排组合,用 Create Skill 搭积木式打造团队专属数据流水线

场景Demo:
04
如何开始使用 Flink Skill?
Flink Skill 提供两种使用入口,均为开箱即用,无需额外安装插件或切换工具。
入口一:阿里云 Skill 门户一键安装
阿里云 Skill Hub 门户已上线首批 69 个官方 Skill,涵盖六大云领域。用户搜索后一键安装即可使用,支持多云生态联动和自动化工作流编排。

访问地址:skills.aliyun.com
入口二:实时计算 Flink 版控制台内置 Skill 技能包
Flink 控制台已原生内置所有 Skill 技能包,开箱即用。从代码生成、故障诊断到资源调配,全链路能力已内置在控制台中,无需切换工具。

05
常见问题(FAQ)
Q: 什么是 Flink Skill?
A: Flink Skill 是阿里云为 AI Agent 设计的安全操作Flink的能力,将Flink专家运维经验固化为 Agent 可调用的能力包,通过三层安全防护确保 Agent 操作生产环境的安全性。
Q: Flink Skill 和直接用 Agent 调 OpenAPI 有什么区别?
A: 直接调 OpenAPI 没有安全护栏,Agent 可能误删实例或改错配置。Flink Skill 提供 Confirm 门控、目标锁定和 Read-back 验证三层安全防护,确保每一步操作可控可回退。
Q: 非技术人员能使用 Flink Skill 吗?
A: 可以。Flink Skill 实现了对话即运维、门槛归零,用户只需用自然语言描述需求,Agent 自动编排底层 Skill 完成全链路操作,无需编写代码或了解 API。
Q: Flink Skill 支持哪些调用方式?
A: 支持多端调用:Flink 原生控制台、阿里云 Skill Hub 门户、DataWorks Data Agent、OpenClaw、QoderWork、Qoder 等,实现一次建设、多端调用。
Q: 如何在阿里云上搭配使用Skill?
A: Flink Skill作为首批 69 个官方 Skill,已在 skills.aliyun.com 上线,用户可立即安装体验与Hologres、DMS等产品联动使用。
写在最后
Flink Skill 代表了云资源操作从"人工操控"到"AI 安全托管"的演进方向。通过将专家运维经验固化为 Skill、提供三层安全防护、支持多 Skill 协同编排,阿里云实时计算 Flink 实现了让业务用户像与同事对话一样操作生产环境的目标。Flink Skill作为首批 69 个官方 Skill,已在 skills.aliyun.com 上线,用户可立即安装体验。
Flink 实例管理 Skill:skills.aliyun.com/skills/alibabacloud-flink-instance-manage
Flink 控制台运维 Skill:skills.aliyun.com/skills/alibabacloud-flink-workspace-ops
▼ 「Flink Forward Asia 2026」 ▼
Flink Forward Asia 2026 将于 6 月 26 至 27 日在深圳举行,现面向全球征集议题。活动聚焦实时计算与 AI 的融合,欢迎开发者与 AI 从业者提交创新思路与实践经验。议题将经过专业评选委员会审核,提交截止日期为 5 月 29 日。参会嘉宾可免费报名,获取技术前沿与行业动态。期待您的参与,期待您的参与,共同探索实时 AI 的未来!

-
PC 端:https://asia.flink-forward.org/shenzhen-2026
打开 FFA 2026 官网,点击「议题征集」或者「参会」
-
移动端:扫描下方二维码或点击文末「阅读原文」
|
(扫描二维码,提交议题) |
(扫码即刻抢占席位) |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)