前言


通过前面课程的学习,你已经从认识大模型开始,一步步知道怎么把任务讲清楚,怎么给 AI 补资料,怎么让 Agent 读文件、用工具、沉淀 Skill,也知道复杂任务做完后还要核对结果、守住安全边界。

这门课的主线可以概括成一句话:从“让大模型回答问题”,走向“让大模型帮你完成任务”。最后这一课会把前面学过的能力串起来,再向你介绍一套分析思路,看一看为什么有的 AI 场景能落地,有的却做不下去。

1 回顾:从认识大模型到驾驭大模型


回头看这门课,你走过的是一条从“认识大模型”到“让 Agent 稳定、安全地完成工作”的路径:

课时

你学到了什么

课时1 认识大模型

看到大模型有什么特点、怎么工作,也知道阿里云有哪些大模型产品

课时2 典型应用场景

看清大模型应用的三个层次:生成助手、执行智能体、自主运转,并识别自己工作中可以交给 AI 的场景

课时3 优化输入

看到一句话提示词为什么容易得到通用回答,学会用角色、任务、背景、约束把任务讲清楚,并让 Agent 反问或先列计划

课时4 知识库与 RAG

知道 RAG 怎样让大模型先查资料再回答,并用评测、问题归因和优化让 RAG 应用持续改进

课时5 微调

了解微调适合解决什么问题,以及它和提示词、RAG 的适用边界

课时6 Agent 入门

区分聊天式大模型和桌面 Agent,用“先计划、再执行”的方式批量处理本地文件,也可以接到钉钉或微信继续指挥桌面任务

课时7 知识库与工具接入

让 Agent 读取资料文件夹、接入地图等 MCP 工具,观察它如何选择工具、调用工具和读取结果,并看出工具数量、权限和上下文对稳定性的影响

课时8 Skill

把重复工作的标准、步骤、输出格式和边界沉淀成 Skill,让 Agent 不再每次临场发挥

课时9 自检闭环

用核实记录和自检清单检查 AI 生成的日报、报告等输出,让 Agent 修订后再核对一遍,形成可复用闭环

课时10 安全合规

识别外部资料和工具结果中的注入风险,判断资料是否需要脱敏,并对 AI 输出、知识库权限和对外发布内容进行把关

这些内容串起来,回答的是一个核心问题:遇到一个具体的业务问题,我应该选择哪种技术方案来解决它?

1.1 选对工具比努力更重要

课程中你会发现,不同的问题需要不同的解法:

  • 大模型回答质量不够好 → 先试优化提示词(课时4),成本最低、见效最快

  • 大模型缺少特定领域知识、经常编造回答 → 用RAG接入知识库(课时6)

  • 需要大模型输出特定格式或风格 → 用你的数据做微调(课时7)

  • 任务复杂、步骤多、需要调用外部工具 → 用Agent编排(课时8)

  • 大模型本身能力不够 → 加装插件扩展(课时5)

这不是一个固定的选择题,而是一个渐进的工具箱。关键是理解每种技术解决什么问题,才能在实际场景中做出正确判断。

1.2 从会提问,到会组织任务

刚开始使用大模型时,很多人关注的是“怎么问”。问得越清楚,模型越容易给出有用答案。因此,优化输入仍然是最先尝试、成本最低的方法。

但在真实工作中,你往往不只是要一段回答,而是要完成一件事。例如整理资料、准备汇报、处理一批文件、做一套团队可以复用的流程。这时,只会写提示词还不够,还要给 AI 准备资料、工具、边界和检查方法。

课程中的能力可以这样看:

问题

优先考虑的能力

回答太笼统、总是套话

优化输入:补充角色、任务、背景、约束和样例

模型不知道内部资料、专业知识或最新信息

知识库、搜索、RAG、多数据源

任务需要查询外部服务或执行外部动作

工具、MCP、业务系统接口

任务步骤多,需要读文件、调用工具或生成结果

Agent

同类任务会反复做,希望沉淀方法

项目规则、Skill

结果需要核对状态、依据和可发布范围

自检闭环、评测和人工确认

需要稳定特定格式、风格或领域行为

提示词、RAG、评测;更进阶时可考虑微调

涉及个人信息、企业数据、内容发布

安全合规和人工确认

这些能力不是互相替代的。实际工作中常常需要组合使用:Agent 可以调用知识库和工具,RAG 结果需要评测,Skill 可以把反复验证过的方法沉淀下来,安全合规则贯穿整个过程。

1.3 RAG、Agent、Skill:分别解决什么问题

RAG、Agent 和 Skill 都能改善大模型应用效果,但解决的问题不同。

能力

主要解决什么问题

适合场景

RAG / 知识库

模型缺少资料,需要先查再答

企业制度问答、产品手册问答、客服知识库、项目文档助手

Agent

任务需要多步骤执行、工具调用、结果检查和反馈迭代

文件整理、资料调研、页面制作、流程自动化、数字员工

Skill

同类任务会反复出现,需要稳定方法和验收标准

周报、对比决策、会议纪要、资料整理、团队流程

简单说:补知识看 RAG,做复杂任务看 Agent,沉淀方法看 Skill。

不过,真正做起来时,很少只用一种能力。一个企业知识助手可能同时需要 RAG、权限控制、评测集和人工反馈;一个销售支持 Agent 也可能同时需要产品知识库、业务系统工具、会议记录、自检流程和团队沉淀的 Skill。         

2 从会用 AI,到判断 AI 场景能不能落地


学完前面十课,你已经知道怎么把任务讲清楚,怎么接知识库,怎么让 Agent 调工具,怎么用 Skill 固化方法,也知道要给结果加自检、给能力划边界,什么时候考虑微调。接下来要问的是:在工作中,哪件事可以优先让 AI 做?

先看两个反差案例。

  • 一家做出海产品的公司,有几百份产品文档要翻译成十几种语言。过去靠翻译团队一篇篇做,成本高、周期长,既懂本地语言又懂技术的译员也不好招。后来改用 AI 翻译方案,成本降了很多,质量评分还不降反升。

  • 另一家公司想做“用一句话查数据”。员工不用写查询语句,直接问“上个月华东区销售额多少”,AI 帮他查。听起来很方便,做了大半年,最后没人用,因为 AI 给出的数字经常对不上。

同样是 AI,同样投入了资源,为什么业务结果截然不同?

翻译那家,文档本来就整理得清清楚楚,翻译质量也有长期使用的评分标准,评审人员一直都在。引入 AI 之后,只是把一件原本就跑顺的事做得更快、更便宜。

查数据那家,问题不在 AI,而在自己的数据基础没有理顺:同一个“销售额”,不同部门定义不一样;连人都写不出稳定的查询逻辑;也没人能告诉 AI,什么答案才算正确。这些问题不先解决,AI 只会把原来的混乱放大。

这就是挑场景的核心判断:AI 更适合放大已经理顺的流程,而不是替业务把混乱流程自动理顺。

当你需要挑选业务场景时,你可以先问自己三件事:

  • 这件事的相关知识有没有写下来? 如果知识只在少数老员工脑子里,AI 就没有可靠材料可参考,回答很容易变成现编。

  • 你能说清“做得好”长什么样吗? 如果只能说“质量要好”,却说不出合格样例、检查标准和常见错误,AI 输出好坏就没人能评。

  • 有人愿意持续把关吗? 如果业务规则、模板、数据口径变了,却没人维护知识和标准,做出来的 AI 应用很快会过时。

前两件问的是“这件事有没有理顺”,第三件问的是“有没有人愿意持续维护”。三个问题里只要有一个答不上来,先别急着上 AI,先把缺的那块补上。

3 用 RIDE 看懂:为什么有的 AI 场景能落地


讲到这里,你脑中可能已经有了一些候选场景,也准备试一试了。但如果想让 AI 真正帮业务提效,还要继续想几个问题:谁来判断它做得好不好?哪些资料要给它?结果错了谁来改?这些问题不解决,哪怕第一版看起来不错,也很难持续推进。

这时,你可以用一套更完整的判断框架来检查,叫 RIDE——重构生产关系 / 识别落地场景 / 定义度量标准 / 执行落地,RIDE 是这四个英文词(Reorganize / Identify / Define / Execute)的首字母。

这不是要你负责整个公司的 AI 转型,而是给你一张判断清单:当你想把一个 Agent 任务从“我自己试试”推进到“小组持续使用”时,先看这四件事有没有说清楚。

R — Reorganize(重构生产关系:先说清谁主导、谁验收、谁维护)

AI 能不能持续用下去,不只是技术问题,更是业务和技术的协作关系问题。

很多团队第一次做 AI 项目时,会很自然地把它交给技术团队:让产研的同事接模型、配工具、做页面。但 AI 项目不是“技术接了模型,业务难题就自动解决”。真正决定业务效果的,往往是业务侧的判断:客户进展怎么分级,哪些风险必须升级,什么样的周报才算能用。

这也是 Reorganize 要强调的核心变化:业务领域专家是核心,业务是需求方,业务团队与技术团队双方围绕真实业务痛点合作。业务方提出问题、定义目标、给出验收标准;技术方把模型、数据、工具和系统能力组合起来。很多项目做不出效果,不是因为“不够 AI”,而是因为一开始就没有对准业务痛点,只是在“为了 AI 而 AI”。

所以,Reorganize 先问三件事:

  • 谁定目标:这件事到底是为了省整理时间、减少漏项,还是提高交付质量?

  • 谁验收结果:AI 写出来的周报,谁能判断“能不能发出去”?

  • 谁持续维护:客户分级规则变了、周报模板改了、业务口径更新了,谁负责告诉 Agent?

这一步不是让你写组织架构图,而是先把双方的责任说清楚。技术团队可以帮你做出系统,但“为什么要做、什么叫做好、做到什么程度才算有用”,必须由懂业务的人给出来。

I — Identify(识别落地场景:不是每件事都适合先交给 AI)

如何识别哪件事值得先做?你可以用如下三个要点来判断:

  • 主要处理文字:问答、摘要、翻译、报告、客户记录整理,都是大模型比较擅长的类型。

  • 重复出现:每周甚至每天都做,流程大体固定,AI 才有持续帮忙的空间。

  • 业务压力明显:这件事不一定难,但由于频繁出现,会挤占大量时间,甚至人力不足时会出现积压。

当三个要点都满足时,你再查一个前提:基础准备好了吗?相关知识有没有写下来,判断标准有没有说清,原始材料能不能拿到基础不清楚,AI 只会更快地放大混乱。

D — Define(定义度量标准:提前说清什么叫做好)

AI 任务最容易卡在一句话上:“看起来还行,但到底算不算好?”

传统软件也看交互、体验和流程顺不顺。AI 产品多了一件必须盯住的事:结果准不准。回答不准、数字不准、该做的任务没做完,界面再顺也没有用;如果是实时对话,还要看响应够不够快、是否满足安全合规要求。

所以 Define 不是只写一句“效果要好”,而是把指标拆成三层:

层级

核心例子

回答的问题

产品指标

回答准确率、任务解决率、响应时效、安全合规

AI 能力本身够不够用

运营指标

使用人数、提问数、覆盖率、留存率

用户是不是真的在持续使用

技术指标

检索召回率、检索准确率、首字时间 TTFT、生成耗时

哪个技术环节需要优化

三层里,产品指标最先决定“能不能用”。比如问答系统,回答准确率不够,用户根本不敢信;实时对话场景中,响应太慢,用户会明显感觉不顺。运营指标用来防止自我感觉良好:如果大家今天试了一次,下周就不再用了,说明它没有真正解决问题,哪怕内部评测看起来不错也不算成功。

对个人或小团队来说,不必一上来做复杂看板。先拿 5 条真实样例试一轮,提前写清楚每条样例什么结果算合格。Agent 做完后,先看关键事实和数字对不对,再看这份结果能不能直接进入你的工作流。如果结果不理想,再往下追:是资料没找到,规则没写清,还是响应太慢、生成过程出了问题。

课时3中的“把任务讲清楚”,本质上就是在练习 Define:你在定义目标、上下文、约束和验收方式。RAG 章节中的评测、归因和优化,Agent 自检闭环中的核实记录和检查清单,也是在帮助你建立“什么才算回答得好、做得对”的标准。

E — Execute(执行落地:先小步验证,再逐步加能力)

场景选好、标准定了,才进入执行。执行不是一上来做大系统,而是先从边界最清楚的版本开始。

翻译模式起步:这里的“翻译”不只是中英互译,而是把一种材料转换成另一种明确交付物。比如把客户跟进记录整理成周报,把会议纪要整理成待办,把一堆反馈整理成问题清单。输入和输出都清楚,也容易验收,适合作为第一步。

Agent 模式演进:翻译模式跑通之后,再让 Agent 处理更长的任务链。比如它不只是写周报,还会自己去找记录、发现缺失信息、标出需要你确认的地方、按验收标准自查。Agent 模式要盯住的是一件事:你到底想完成什么,它有没有把这件事办完。

开发 AI 系统时,业务领域专家最有价值的贡献不是“会不会写代码”,而是能不能提供这四类材料:

  • 整理用户意图清单:你的用户会需要什么样的服务,会提出哪些方面的问题?你可以主动调研、收集反馈。

  • 检查知识是否覆盖:每类任务需要哪些规则、模板、历史样例?这属于知识工程,你需要持续地查漏补缺。

  • 收集真实提问并给出准答案:拿你调研或者你收集到的真实需求材料做基础,给出你认为合格的标准答案或评价指标,构建出标准评测集。

  • 推动数据和工具接入:Agent 要读哪些文件、查哪些系统、调用哪些工具,你作为业务需求方要说清楚。

RIDE 方法论总结

RIDE 阶段

企业级动作

你在课程中学到的

R Reorganize

说清谁主导、谁验收、谁维护,让业务判断进入 AI 项目

认识大模型、知道 AI 能力与边界,和技术团队建立共同语言

I Identify

找到文字多、重复多、压力大的小场景,并检查基础是否清楚

识别典型应用场景,判断哪些任务适合 AI

D Define

定义产品指标、运营指标、技术指标,准备真实样例和验收标准

优化输入、建立 RAG 评测和问题归因思路,用自检清单明确验收标准

E Execute

先小步验证,再补知识、接工具、固化 Skill、加闭环、必要时微调、持续迭代

知识库/RAG、Agent、工具/MCP、Skill、自检闭环和安全合规

把 RIDE 放回自己的工作里,可以这样记:

        作为业务专家:

          作为协作推动者:

你不一定要成为算法工程师,但你可以把业务问题讲清楚,把知识和标准准备好,再把 AI 能力用到真实场景里。

  • R:先找对负责判断的人,不要把业务判断都丢给技术。

  • I:先挑文字多、重复多、压力大的小场景,不要一上来做大而散的项目。

  • D:先写清“好结果”长什么样,不要只凭感觉说好不好。

  • E:先用 10 分钟验证,再补知识、固化 Skill、加闭环。

    4 你如何帮助组织落地 AI 


    你不一定需要写代码,或者包办整个 AI 项目,你可以基于自己在组织中的角色定位来发挥作用:

    作为 AI 使用者:

  • 你能判断一个任务该先优化输入,还是该补知识库、接工具、用 Agent 拆步骤。

  • 你知道不是所有问题都要换模型:很多时候,补上下文、补资料、补标准,比换一个更强的模型更重要。

  • 你可以把重复工作逐步沉淀成提示词模板、资料文件夹、Skill 和自检闭环,让 Agent 越用越稳定。

  • 你能说清哪些业务场景真的值得先做,哪些只是“为了 AI 而 AI”。

  • 你能提供 AI 做事所需的业务知识:用户意图、规则口径、历史样例、合格答案和常见错误。

  • 你能判断结果是否可用,知道什么内容可以直接发布,什么内容必须人工确认。

  • 你能和技术团队说清业务目标、数据来源、工具需求、验收标准和安全边界。

  • 你能参与小范围验证,而不是等一个完整系统一次性上线。

  • 你能把一次成功经验整理成可复用的方法,让团队里更多人用同一套标准使用 AI。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐