入门大模型工程师第十课----学习总结

清辞853

65人浏览 · 2026-06-06 10:02:10

清辞853 · 2026-06-06 10:02:10 发布

前言

通过前面课程的学习，你已经从认识大模型开始，一步步知道怎么把任务讲清楚，怎么给 AI 补资料，怎么让 Agent 读文件、用工具、沉淀 Skill，也知道复杂任务做完后还要核对结果、守住安全边界。

这门课的主线可以概括成一句话：从“让大模型回答问题”，走向“让大模型帮你完成任务”。最后这一课会把前面学过的能力串起来，再向你介绍一套分析思路，看一看为什么有的 AI 场景能落地，有的却做不下去。

1 回顾：从认识大模型到驾驭大模型

回头看这门课，你走过的是一条从“认识大模型”到“让 Agent 稳定、安全地完成工作”的路径：

课时	你学到了什么
课时1 认识大模型	看到大模型有什么特点、怎么工作，也知道阿里云有哪些大模型产品
课时2 典型应用场景	看清大模型应用的三个层次：生成助手、执行智能体、自主运转，并识别自己工作中可以交给 AI 的场景
课时3 优化输入	看到一句话提示词为什么容易得到通用回答，学会用角色、任务、背景、约束把任务讲清楚，并让 Agent 反问或先列计划
课时4 知识库与 RAG	知道 RAG 怎样让大模型先查资料再回答，并用评测、问题归因和优化让 RAG 应用持续改进
课时5 微调	了解微调适合解决什么问题，以及它和提示词、RAG 的适用边界
课时6 Agent 入门	区分聊天式大模型和桌面 Agent，用“先计划、再执行”的方式批量处理本地文件，也可以接到钉钉或微信继续指挥桌面任务
课时7 知识库与工具接入	让 Agent 读取资料文件夹、接入地图等 MCP 工具，观察它如何选择工具、调用工具和读取结果，并看出工具数量、权限和上下文对稳定性的影响
课时8 Skill	把重复工作的标准、步骤、输出格式和边界沉淀成 Skill，让 Agent 不再每次临场发挥
课时9 自检闭环	用核实记录和自检清单检查 AI 生成的日报、报告等输出，让 Agent 修订后再核对一遍，形成可复用闭环
课时10 安全合规	识别外部资料和工具结果中的注入风险，判断资料是否需要脱敏，并对 AI 输出、知识库权限和对外发布内容进行把关

这些内容串起来，回答的是一个核心问题：遇到一个具体的业务问题，我应该选择哪种技术方案来解决它？

1.1 选对工具比努力更重要

课程中你会发现，不同的问题需要不同的解法：

大模型回答质量不够好 → 先试优化提示词（课时4），成本最低、见效最快
大模型缺少特定领域知识、经常编造回答 → 用RAG接入知识库（课时6）
需要大模型输出特定格式或风格 → 用你的数据做微调（课时7）
任务复杂、步骤多、需要调用外部工具 → 用Agent编排（课时8）
大模型本身能力不够 → 加装插件扩展（课时5）

这不是一个固定的选择题，而是一个渐进的工具箱。关键是理解每种技术解决什么问题，才能在实际场景中做出正确判断。

1.2 从会提问，到会组织任务

刚开始使用大模型时，很多人关注的是“怎么问”。问得越清楚，模型越容易给出有用答案。因此，优化输入仍然是最先尝试、成本最低的方法。

但在真实工作中，你往往不只是要一段回答，而是要完成一件事。例如整理资料、准备汇报、处理一批文件、做一套团队可以复用的流程。这时，只会写提示词还不够，还要给 AI 准备资料、工具、边界和检查方法。

课程中的能力可以这样看：

问题	优先考虑的能力
回答太笼统、总是套话	优化输入：补充角色、任务、背景、约束和样例
模型不知道内部资料、专业知识或最新信息	知识库、搜索、RAG、多数据源
任务需要查询外部服务或执行外部动作	工具、MCP、业务系统接口
任务步骤多，需要读文件、调用工具或生成结果	Agent
同类任务会反复做，希望沉淀方法	项目规则、Skill
结果需要核对状态、依据和可发布范围	自检闭环、评测和人工确认
需要稳定特定格式、风格或领域行为	提示词、RAG、评测；更进阶时可考虑微调
涉及个人信息、企业数据、内容发布	安全合规和人工确认

这些能力不是互相替代的。实际工作中常常需要组合使用：Agent 可以调用知识库和工具，RAG 结果需要评测，Skill 可以把反复验证过的方法沉淀下来，安全合规则贯穿整个过程。

1.3 RAG、Agent、Skill：分别解决什么问题

RAG、Agent 和 Skill 都能改善大模型应用效果，但解决的问题不同。

能力	主要解决什么问题	适合场景
RAG / 知识库	模型缺少资料，需要先查再答	企业制度问答、产品手册问答、客服知识库、项目文档助手
Agent	任务需要多步骤执行、工具调用、结果检查和反馈迭代	文件整理、资料调研、页面制作、流程自动化、数字员工
Skill	同类任务会反复出现，需要稳定方法和验收标准	周报、对比决策、会议纪要、资料整理、团队流程

简单说：补知识看 RAG，做复杂任务看 Agent，沉淀方法看 Skill。

不过，真正做起来时，很少只用一种能力。一个企业知识助手可能同时需要 RAG、权限控制、评测集和人工反馈；一个销售支持 Agent 也可能同时需要产品知识库、业务系统工具、会议记录、自检流程和团队沉淀的 Skill。

2 从会用 AI，到判断 AI 场景能不能落地

学完前面十课，你已经知道怎么把任务讲清楚，怎么接知识库，怎么让 Agent 调工具，怎么用 Skill 固化方法，也知道要给结果加自检、给能力划边界，什么时候考虑微调。接下来要问的是：在工作中，哪件事可以优先让 AI 做？

先看两个反差案例。

一家做出海产品的公司，有几百份产品文档要翻译成十几种语言。过去靠翻译团队一篇篇做，成本高、周期长，既懂本地语言又懂技术的译员也不好招。后来改用 AI 翻译方案，成本降了很多，质量评分还不降反升。
另一家公司想做“用一句话查数据”。员工不用写查询语句，直接问“上个月华东区销售额多少”，AI 帮他查。听起来很方便，做了大半年，最后没人用，因为 AI 给出的数字经常对不上。

同样是 AI，同样投入了资源，为什么业务结果截然不同？

翻译那家，文档本来就整理得清清楚楚，翻译质量也有长期使用的评分标准，评审人员一直都在。引入 AI 之后，只是把一件原本就跑顺的事做得更快、更便宜。

查数据那家，问题不在 AI，而在自己的数据基础没有理顺：同一个“销售额”，不同部门定义不一样；连人都写不出稳定的查询逻辑；也没人能告诉 AI，什么答案才算正确。这些问题不先解决，AI 只会把原来的混乱放大。

这就是挑场景的核心判断：AI 更适合放大已经理顺的流程，而不是替业务把混乱流程自动理顺。

当你需要挑选业务场景时，你可以先问自己三件事：

这件事的相关知识有没有写下来？ 如果知识只在少数老员工脑子里，AI 就没有可靠材料可参考，回答很容易变成现编。
你能说清“做得好”长什么样吗？ 如果只能说“质量要好”，却说不出合格样例、检查标准和常见错误，AI 输出好坏就没人能评。
有人愿意持续把关吗？ 如果业务规则、模板、数据口径变了，却没人维护知识和标准，做出来的 AI 应用很快会过时。

前两件问的是“这件事有没有理顺”，第三件问的是“有没有人愿意持续维护”。三个问题里只要有一个答不上来，先别急着上 AI，先把缺的那块补上。

3 用 RIDE 看懂：为什么有的 AI 场景能落地

讲到这里，你脑中可能已经有了一些候选场景，也准备试一试了。但如果想让 AI 真正帮业务提效，还要继续想几个问题：谁来判断它做得好不好？哪些资料要给它？结果错了谁来改？这些问题不解决，哪怕第一版看起来不错，也很难持续推进。

这时，你可以用一套更完整的判断框架来检查，叫 RIDE——重构生产关系 / 识别落地场景 / 定义度量标准 / 执行落地，RIDE 是这四个英文词（Reorganize / Identify / Define / Execute）的首字母。

这不是要你负责整个公司的 AI 转型，而是给你一张判断清单：当你想把一个 Agent 任务从“我自己试试”推进到“小组持续使用”时，先看这四件事有没有说清楚。

R — Reorganize（重构生产关系：先说清谁主导、谁验收、谁维护）

AI 能不能持续用下去，不只是技术问题，更是业务和技术的协作关系问题。

很多团队第一次做 AI 项目时，会很自然地把它交给技术团队：让产研的同事接模型、配工具、做页面。但 AI 项目不是“技术接了模型，业务难题就自动解决”。真正决定业务效果的，往往是业务侧的判断：客户进展怎么分级，哪些风险必须升级，什么样的周报才算能用。

这也是 Reorganize 要强调的核心变化：业务领域专家是核心，业务是需求方，业务团队与技术团队双方围绕真实业务痛点合作。业务方提出问题、定义目标、给出验收标准；技术方把模型、数据、工具和系统能力组合起来。很多项目做不出效果，不是因为“不够 AI”，而是因为一开始就没有对准业务痛点，只是在“为了 AI 而 AI”。

所以，Reorganize 先问三件事：

谁定目标：这件事到底是为了省整理时间、减少漏项，还是提高交付质量？
谁验收结果：AI 写出来的周报，谁能判断“能不能发出去”？
谁持续维护：客户分级规则变了、周报模板改了、业务口径更新了，谁负责告诉 Agent？

这一步不是让你写组织架构图，而是先把双方的责任说清楚。技术团队可以帮你做出系统，但“为什么要做、什么叫做好、做到什么程度才算有用”，必须由懂业务的人给出来。

I — Identify（识别落地场景：不是每件事都适合先交给 AI）

如何识别哪件事值得先做？你可以用如下三个要点来判断：

主要处理文字：问答、摘要、翻译、报告、客户记录整理，都是大模型比较擅长的类型。
重复出现：每周甚至每天都做，流程大体固定，AI 才有持续帮忙的空间。
业务压力明显：这件事不一定难，但由于频繁出现，会挤占大量时间，甚至人力不足时会出现积压。

当三个要点都满足时，你再查一个前提：基础准备好了吗？相关知识有没有写下来，判断标准有没有说清，原始材料能不能拿到。基础不清楚，AI 只会更快地放大混乱。

D — Define（定义度量标准：提前说清什么叫做好）

AI 任务最容易卡在一句话上：“看起来还行，但到底算不算好？”

传统软件也看交互、体验和流程顺不顺。AI 产品多了一件必须盯住的事：结果准不准。回答不准、数字不准、该做的任务没做完，界面再顺也没有用；如果是实时对话，还要看响应够不够快、是否满足安全合规要求。

所以 Define 不是只写一句“效果要好”，而是把指标拆成三层：

层级	核心例子	回答的问题
产品指标	回答准确率、任务解决率、响应时效、安全合规	AI 能力本身够不够用
运营指标	使用人数、提问数、覆盖率、留存率	用户是不是真的在持续使用
技术指标	检索召回率、检索准确率、首字时间 TTFT、生成耗时	哪个技术环节需要优化

三层里，产品指标最先决定“能不能用”。比如问答系统，回答准确率不够，用户根本不敢信；实时对话场景中，响应太慢，用户会明显感觉不顺。运营指标用来防止自我感觉良好：如果大家今天试了一次，下周就不再用了，说明它没有真正解决问题，哪怕内部评测看起来不错也不算成功。

对个人或小团队来说，不必一上来做复杂看板。先拿 5 条真实样例试一轮，提前写清楚每条样例什么结果算合格。Agent 做完后，先看关键事实和数字对不对，再看这份结果能不能直接进入你的工作流。如果结果不理想，再往下追：是资料没找到，规则没写清，还是响应太慢、生成过程出了问题。

课时3中的“把任务讲清楚”，本质上就是在练习 Define：你在定义目标、上下文、约束和验收方式。RAG 章节中的评测、归因和优化，Agent 自检闭环中的核实记录和检查清单，也是在帮助你建立“什么才算回答得好、做得对”的标准。

E — Execute（执行落地：先小步验证，再逐步加能力）

场景选好、标准定了，才进入执行。执行不是一上来做大系统，而是先从边界最清楚的版本开始。

翻译模式起步：这里的“翻译”不只是中英互译，而是把一种材料转换成另一种明确交付物。比如把客户跟进记录整理成周报，把会议纪要整理成待办，把一堆反馈整理成问题清单。输入和输出都清楚，也容易验收，适合作为第一步。

Agent 模式演进：翻译模式跑通之后，再让 Agent 处理更长的任务链。比如它不只是写周报，还会自己去找记录、发现缺失信息、标出需要你确认的地方、按验收标准自查。Agent 模式要盯住的是一件事：你到底想完成什么，它有没有把这件事办完。

开发 AI 系统时，业务领域专家最有价值的贡献不是“会不会写代码”，而是能不能提供这四类材料：

整理用户意图清单：你的用户会需要什么样的服务，会提出哪些方面的问题？你可以主动调研、收集反馈。
检查知识是否覆盖：每类任务需要哪些规则、模板、历史样例？这属于知识工程，你需要持续地查漏补缺。
收集真实提问并给出准答案：拿你调研或者你收集到的真实需求材料做基础，给出你认为合格的标准答案或评价指标，构建出标准评测集。
推动数据和工具接入：Agent 要读哪些文件、查哪些系统、调用哪些工具，你作为业务需求方要说清楚。

RIDE 方法论总结

RIDE 阶段	企业级动作	你在课程中学到的
R Reorganize	说清谁主导、谁验收、谁维护，让业务判断进入 AI 项目	认识大模型、知道 AI 能力与边界，和技术团队建立共同语言
I Identify	找到文字多、重复多、压力大的小场景，并检查基础是否清楚	识别典型应用场景，判断哪些任务适合 AI
D Define	定义产品指标、运营指标、技术指标，准备真实样例和验收标准	优化输入、建立 RAG 评测和问题归因思路，用自检清单明确验收标准
E Execute	先小步验证，再补知识、接工具、固化 Skill、加闭环、必要时微调、持续迭代	知识库/RAG、Agent、工具/MCP、Skill、自检闭环和安全合规

把 RIDE 放回自己的工作里，可以这样记：

作为业务专家：

作为协作推动者：

你不一定要成为算法工程师，但你可以把业务问题讲清楚，把知识和标准准备好，再把 AI 能力用到真实场景里。

R：先找对负责判断的人，不要把业务判断都丢给技术。
I：先挑文字多、重复多、压力大的小场景，不要一上来做大而散的项目。
D：先写清“好结果”长什么样，不要只凭感觉说好不好。
E：先用 10 分钟验证，再补知识、固化 Skill、加闭环。

4 你如何帮助组织落地 AI

你不一定需要写代码，或者包办整个 AI 项目，你可以基于自己在组织中的角色定位来发挥作用：

作为 AI 使用者：
你能判断一个任务该先优化输入，还是该补知识库、接工具、用 Agent 拆步骤。
你知道不是所有问题都要换模型：很多时候，补上下文、补资料、补标准，比换一个更强的模型更重要。
你可以把重复工作逐步沉淀成提示词模板、资料文件夹、Skill 和自检闭环，让 Agent 越用越稳定。
你能说清哪些业务场景真的值得先做，哪些只是“为了 AI 而 AI”。
你能提供 AI 做事所需的业务知识：用户意图、规则口径、历史样例、合格答案和常见错误。
你能判断结果是否可用，知道什么内容可以直接发布，什么内容必须人工确认。
你能和技术团队说清业务目标、数据来源、工具需求、验收标准和安全边界。
你能参与小范围验证，而不是等一个完整系统一次性上线。
你能把一次成功经验整理成可复用的方法，让团队里更多人用同一套标准使用 AI。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

531个模型背后的秘密：DMXAPI凭什么让企业告别“模型选择困难症”？

AtomGit开源社区

从零到一！Qwen7B医疗大模型完整落地：QLoRA微调→量化→Ollama本地部署实战

本文从零开始完整记录通用大模型垂直医疗私有化落地全流程。基于Qwen2.5-7B基座，使用LLaMA-Factory完成QLoRA医疗SFT微调、模型合并、GGUF量化压缩，最终通过Ollama实现本地离线部署。全程个人设备可跑、低成本、高复用，附带原版模型VS微调模型硬核对照测试，直观验证微调效果，适合所有新手入门大模型微调落地。关键词：大模型微调、Qwen7B、医疗大模型、QLoRA、llam