演讲者:李昊哲,阿里云实时计算 Flink 产品经理

内容摘要

Flink Skill 是阿里云为 AI Agent 时代设计的安全操作云上Flink的能力,解决了 Agent 直接调用 OpenAPI 操作生产环境时"能执行但不安全"的核心痛点。实测数据显示,Flink Skill 可将作业反压从 99% 修复至 0%,将全域巡检时间从半天缩短至 30 秒,并支持多个Skill 协同完成实时数仓搭建等复杂任务。

核心观点

  • 安全边界是Agent使用Skill的基础:Flink Skill在大模型(大脑)和 API 工具(手脚)之间提供安全护栏和能力边界,确保 Agent 操作生产环境既能干活又不闯祸
  • 对话即运维,Flink运维门槛归零:用户通过自然语言即可完成实例创建、作业部署、故障诊断、告警配置等全链路操作,无需编码或 API 经验
  • Flink Skill三层安全防护保障生产:Confirm 门控(写操作需用户确认)、目标锁定(防止偏移操作)、Read-back 验证(确认实际状态后才算成功)
  • Flink Skill与多Skill 协同:Flink + DMS + Hologres等多个 Skill 联动,一句话搭建实时数仓、多模态实时舆情分析系统等复杂场景

01

为什么 AI Agent 时代需要 Skill?

AI Agent 行业在 2025 年发生了什么标志性事件?

2025 年底,AI Agent 行业达成共识:Agent 必须能操作生产环境。三大标志性事件推动了这一转变:Manus 刷屏引发行业对 Agent 执行能力的关注,Anthropic 发布 MCP(Model Context Protocol)协议定义了 Agent 与工具的交互标准,OpenAI 跟进发布 Function Calling 生态,Google 发布 A2A(Agent-to-Agent)协议。这些协议共同确立了 Agent 操作外部系统的技术基础。

云资源操作方式经历了哪些演进阶段?

从控制台点击到 Terraform 编码,再到 Copilot 问答、Agent+OpenAPI 直接调用,每个阶段都有明确的局限性。Agent 直接通过 OpenAPI 操作云资源存在严重安全风险——它能执行但没有护栏,可能删错实例或改错配置。Skill 的核心价值是在 AI 可控范围内为 Agent 安装安全门和能力边界。

阶段

时间

操作方式

核心局限

控制台时代

2018 年前

页面点击,人工校验参数

依赖开发者手动操作,效率低

IaC 时代

2018-2023 年

Terraform/SDK 编码

需要编码能力和 API 经验,门槛高

Copilot 时代

2023-2024 年

对话式问答

能回答问题但不能执行操作

Agent + OpenAPI

2024-2025 年

Agent 直接调用 API

能执行但不安全,无护栏无边界

Agent + Skill

2025 年至今

自然语言 + Skill 安全保障

当前最优解:既能干活又不闯祸

02

Flink Skill 的核心能力是什么?

Flink Skill 是连接 Agent 大脑与执行动作的神经中枢,通过 SOP 注入将专家运维经验固化为 Agent 原生能力,通过逻辑封装屏蔽工具调用复杂度。用一句话总结:Memory 是 Agent 的资产,工具是设备,Skill 是生产工艺。

Skill 如何解决 Agent 操作的安全问题?

Flink Skill 实现了三层生产级安全防护机制,确保 Agent 操作的每一步都在可控范围内:

安全机制

功能说明

解决的问题

Confirm 门控

所有写操作需用户显式确认后才执行

防止误操作,保障用户知情权

目标锁定

限定 Agent 操作范围,防止偏移操作

防止 Agent 误操作非目标实例

Read-back 验证

不信任 API 返回码,验证实际状态后才算成功

确保操作真正生效(如实例确实 RUNNING)

Flink Skill 提供了哪些具体能力?

Flink Skill 已发布的能力覆盖从实例售卖到作业运维的全生命周期,分为五层架构:

  • 实例管理层(Instance Management):实例创建、扩缩容、生命周期全流程管理,支持一句话完成实例部署
  • 控制台运维层(Workspace Ops):作业 SQL 开发、提交部署、日常运维全场景覆盖,已在 Skill Hub 公开发布
  • 知识层(Knowledge):封装官网文档知识,自动结构化沉淀,开发时无需手动查阅参数文档
  • 诊断层(Diagnose):作业健康诊断、性能分析、根因定位,自动生成诊断报告
  • 安全层(Security):三层安全防护 + 多 Skill 协同能力

03

Flink Skill 有哪些典型应用场景?

Flink Skill 支持多端调用(Flink 控制台、DataWorks Data Agent、OpenClaw、QoderWork、Qoder等等),实现一次建设、多端调用、所说即所得。以下是四个已验证的生产场景。

场景一:作业诊断与修复——如何让 Flink 作业自动修复反压?

通过对话即可完成原来需要翻多个页面、逐项排查的故障诊断和修复流程。实测将作业反压(Backpressure)从 99% 修复至 0%,全程无需人工介入控制台。

典型痛点:Flink 作业 Failover 后日志仅一行报错,根因定位如大海捞针。Checkpoint 超时、反压、数据倾斜每个问题排查方式不同,半夜告警需要逐项翻查控制台日志、Metrics 和事件。

Skill 解决流程:

  1. 用户一句话描述问题(如"帮我分析作业的反压问题")
  2. Agent 调用 Diagnose Skill 自动诊断,输出优化建议
  3. 用户确认后,Agent 调用 Workspace Ops Skill 调整并行度参数
  4. Agent 执行 Hot Update 使配置生效
  5. Agent 自动检测作业稳定性,确认反压从 99% 降为 0%

场景Demo:

场景二:全域巡检诊断——如何 30 秒完成大促前巡检?

一句话触发全地域 Flink 实例自动巡检,30 秒生成完整巡检报告。原来需要半天时间编写脚本、对接 OpenAPI 的巡检工作,现在通过多个 Skill 组合一次完成。

操作方式:用户输入"帮我巡检所有 Flink 实例,给我一个巡检报告"。Agent 自动执行全地域扫描,遍历所有可用区,发现实例并生成包含风险建议、运行状态和诊断提示的完整报告。

指标

传统方式

Skill 方式

提升幅度

巡检耗时

约半天(编写脚本+调试+执行)

30 秒

提升约 1000 倍

技能要求

需要 OpenAPI 编程经验

自然语言即可

门槛归零

覆盖范围

取决于脚本质量

自动全地域扫描

无遗漏

场景Demo:

场景三:实时数仓搭建——如何一句话搭建 Flink CDC 全增量同步链路?

通过 Flink Skill + DMS Skill + Hologres Skill 多 Skill 联动,一句话完成从 MySQL 到 Hologres 的实时数仓搭建,告别 T+1 报表延迟。

用户输入示例:"建一个实时数仓,从 MySQL 写一个 Flink CDC 作业,全量和增量数据同时写到 Hologres,确认链路没问题。"

Agent 自动编排流程:

  1. DMS Skill 在 MySQL 中创建源表(如 orders 表)
  2. Hologres Skill 自动创建目标库和 Sink 表,完成 Schema 一致性校验
  3. Flink Skill 生成 Flink CDC 全增量一体化作业
  4. Agent 启动作业并确认 Ready 状态
  5. 如发现策略异常,Agent 自动修复后重新提交
  6. 可选:调用 CMS Skill 一键配置监控告警

场景Demo:

场景四:品牌舆情实时监控——非技术人员如何搭建多模态实时分析系统?

6 个 Skill 协同工作(Flink 实例管理、Hologres 实例管理、DMS 建表、DataWorks 作业开发、CMS 告警、DIS 性能查询),让市场部同事无需写一行代码即可搭建实时舆情分析系统。

核心实现:通过 Datagen 模拟社交评论数据流,调用 Flink 内置的 AI_SENTIMENT 函数进行实时情感分析,结果写入 Hologres 后搭建实时 BI 报表,展示各品牌正负面情感评分和实时评论流。

关键价值:

  • 用户全程无代码操作,Agent 自主决定调用流程、参数传递和异常处理
  • 原来需要提工单给数据团队排期的工作,现在市场部同事直接对话完成
  • 支持根据需求灵活编排组合,用 Create Skill 搭积木式打造团队专属数据流水线

场景Demo:

04

如何开始使用 Flink Skill?

Flink Skill 提供两种使用入口,均为开箱即用,无需额外安装插件或切换工具。

入口一:阿里云 Skill 门户一键安装

阿里云 Skill Hub 门户已上线首批 69 个官方 Skill,涵盖六大云领域。用户搜索后一键安装即可使用,支持多云生态联动和自动化工作流编排。

访问地址:skills.aliyun.com

入口二:实时计算 Flink 版控制台内置 Skill 技能包

Flink 控制台已原生内置所有 Skill 技能包,开箱即用。从代码生成、故障诊断到资源调配,全链路能力已内置在控制台中,无需切换工具。

05

常见问题(FAQ)

Q: 什么是 Flink Skill?

A: Flink Skill 是阿里云为 AI Agent 设计的安全操作Flink的能力,将Flink专家运维经验固化为 Agent 可调用的能力包,通过三层安全防护确保 Agent 操作生产环境的安全性。

Q: Flink Skill 和直接用 Agent 调 OpenAPI 有什么区别?

A: 直接调 OpenAPI 没有安全护栏,Agent 可能误删实例或改错配置。Flink Skill 提供 Confirm 门控、目标锁定和 Read-back 验证三层安全防护,确保每一步操作可控可回退。

Q: 非技术人员能使用 Flink Skill 吗?

A: 可以。Flink Skill 实现了对话即运维、门槛归零,用户只需用自然语言描述需求,Agent 自动编排底层 Skill 完成全链路操作,无需编写代码或了解 API。

Q: Flink Skill 支持哪些调用方式?

A: 支持多端调用:Flink 原生控制台、阿里云 Skill Hub 门户、DataWorks Data Agent、OpenClaw、QoderWork、Qoder 等,实现一次建设、多端调用。

Q: 如何在阿里云上搭配使用Skill?

A: Flink Skill作为首批 69 个官方 Skill,已在 skills.aliyun.com 上线,用户可立即安装体验与Hologres、DMS等产品联动使用。

写在最后

Flink Skill 代表了云资源操作从"人工操控"到"AI 安全托管"的演进方向。通过将专家运维经验固化为 Skill、提供三层安全防护、支持多 Skill 协同编排,阿里云实时计算 Flink 实现了让业务用户像与同事对话一样操作生产环境的目标。Flink Skill作为首批 69 个官方 Skill,已在 skills.aliyun.com 上线,用户可立即安装体验。

Flink 实例管理 Skill:skills.aliyun.com/skills/alibabacloud-flink-instance-manage

Flink 控制台运维 Skill:skills.aliyun.com/skills/alibabacloud-flink-workspace-ops

▼ 「Flink Forward Asia 2026」 ▼

Flink Forward Asia 2026 将于 6 月 26 至 27 日在深圳举行,现面向全球征集议题。活动聚焦实时计算与 AI 的融合,欢迎开发者与 AI 从业者提交创新思路与实践经验。议题将经过专业评选委员会审核,提交截止日期为 5 月 29 日。参会嘉宾可免费报名,获取技术前沿与行业动态。期待您的参与,期待您的参与,共同探索实时 AI 的未来!

  • PC 端:https://asia.flink-forward.org/shenzhen-2026

打开 FFA 2026 官网,点击「议题征集」或者「参会」

  • 移动端:扫描下方二维码或点击文末「阅读原文」

图片

(扫描二维码,提交议题)

图片

(扫码即刻抢占席位)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐