大模型时代的新职业:AI Agent Harness Engineering 训练师与提示词工程师的未来
大模型时代的新职业:AI Agent Harness Engineering 训练师与提示词工程师的未来
引言
1.1 痛点引入:大模型从“炫技黑箱”到“落地刚需”的阵痛
你有没有过这样的经历?
心血来潮把公司的产品手册、客户FAQ文档一股脑丢给大模型做知识库,问它“300块钱预算的家庭清洁套装,有哪几款带自动烘干和毛发防缠绕功能?”结果它要么一本正经地胡说八道手册里根本不存在的“XX牌智能洗拖一体303”,要么把完全不相关的商用设备参数搬过来,要么干脆摊手说“知识库中未找到有效信息,请您明确搜索范围”——明明你把每一款产品的参数、适配场景、价格区间都标红加粗过三遍啊!
或者好不容易学会了写Prompt,翻遍了GitHub上的“Prompt Engineering 1001例”,学了CoT(Chain of Thought)、ToT(Tree of Thought)、RAP(Reasoning via Acting and Planning)这些花里胡哨的技巧,写出来的“超长篇魔法咒语”能让GPT-4o偶尔答对一道奥数题,但当你要它连续一周每天自动生成符合公司品牌调性的小红书爆款美妆图文初稿时,第一天是“清新淡雅初恋感,拒绝网红烂大街!🥰🥰🥰”,第三天就变成了“今天给大家推荐这款爆好用的口红💄,涂上秒变女王大人!冲鸭冲鸭!👑👑👑”——直接从日系治愈系博主变成了全网通用的带货机器人,品牌调性全飞,更别提图文里的颜色渲染、成分解析还经常犯低级错误(比如把玻尿酸写成玻料酸,把干皮适用写成油皮救星)。
更糟的是,当你想让大模型帮你完成更复杂的“端到端任务链”——比如“帮我整理近30天某电商平台上所有扫地机器人的差评关键词,统计每个关键词的出现频率和对应的客单价区间,生成一份PPT大纲和一段3分钟的产品迭代会议开场白”——你发现不管怎么写Prompt,它要么只整理关键词忘了统计客单价,要么PPT大纲做得一塌糊涂逻辑混乱,要么开场白写得像念稿子完全没有感染力,更可怕的是,它根本不会主动去打开你公司的电商后台、去爬取公开的差评平台数据(当然,合法合规的数据获取是前提)、去调用公司内部的PPT模板API、去生成符合要求的音频文件——你得把所有前置条件、数据来源、输出格式、甚至每个环节的容错率都写得清清楚楚明明白白,稍有不慎就前功尽弃。
这些,就是大模型从“实验室炫技黑箱”走向“企业落地刚需工具”时,企业和个人用户都会遇到的核心阵痛:
- 通用大模型的“通用性”太强,“专业性”太弱:对垂直领域的知识理解不深,容易出现“幻觉”(Hallucination);
- 单轮/多轮纯Prompt交互的“边界感”太模糊,“可控性”太差:输出内容的质量、风格、格式、效率都无法稳定保证;
- 纯Prompt无法实现“复杂任务的自动化闭环”:大模型本质上只是一个“预测下一个token的语言模型”,它没有“行动能力”(Action)、没有“记忆能力”(Long-term Memory)、没有“工具调用能力”(Tool Use)、没有“自我反思能力”(Reflection)——它是“大脑”,但不是“完整的智能体”(AI Agent)。
1.2 解决方案概述:从“给大脑写指令”到“给大脑造手脚、装记忆、设规则”
面对这些核心阵痛,市场上涌现出了两种截然不同但又紧密关联的新职业方向:
- 提示词工程师(Prompt Engineer):核心工作是“给通用/垂直大模型这个‘大脑’写高质量的、可复用的指令(Prompt)”,通过优化Prompt的结构、内容、技巧,来提升大模型输出的质量、风格、格式、效率,减少甚至消除幻觉;
- AI Agent Harness Engineering 训练师(以下简称“AI Agent 驾驭师”或“Agent Harness Engineer”,因为“Harness”有“驾驭、控制、利用、安装挽具”的意思,非常贴合这个职业的定位):核心工作是“给通用/垂直大模型这个‘大脑’造手脚(工具调用)、装记忆(短期/长期/向量/结构化记忆)、设规则(约束条件、安全机制、容错机制)、搭骨架(任务规划与拆解模块、行动执行模块、自我反思模块),把一个‘只会说话的大脑’改造成一个‘能听、能说、能看、能做、能想、能改的完整智能体’”,然后通过训练、调试、优化、迭代这个智能体,来实现复杂任务的端到端自动化闭环。
这两种新职业有什么区别和联系?未来的发展趋势是什么?需要具备哪些技能?如何入行?今天,作为一名资深的软件工程师兼技术博主,我就来和大家好好聊一聊这个话题。
1.3 最终效果展示:先看看这两种职业的“作品”有多厉害
在正式开始之前,我先给大家展示两个我身边的真实案例,让大家直观地感受一下这两种职业的价值:
案例1:提示词工程师的“作品”——垂直美妆大模型的“魔法说明书”
我的朋友小李,之前是某美妆品牌的内容运营主管,去年转行做了垂直美妆大模型的提示词工程师。他用了3个月的时间,结合自己5年的美妆行业经验,写了一份长达200页的“垂直美妆大模型Prompt 工程规范与魔法库”,里面包含了:
- 垂直美妆领域的基础Prompt 模板库:比如产品参数解析模板、品牌调性文案模板、成分安全检测模板、用户需求分析模板、竞品对比分析模板;
- 垂直美妆领域的高级Prompt 技巧库:比如针对美妆成分幻觉的“交叉验证Prompt”(让大模型同时查询公司的化妆品成分备案数据库、PubMed的学术论文数据库、国家药监局的公开数据库,然后交叉验证三个数据库的信息,最后给出最准确的结论)、针对品牌调性不稳定的“风格注入Prompt”(让大模型先学习100篇该品牌历史上的爆款图文,然后总结出该品牌的“语气语调、用词偏好、排版习惯、情感倾向、目标受众画像”,最后在生成新内容时严格按照这个风格注入);
- 垂直美妆大模型的幻觉预警与修正机制Prompt:比如让大模型在生成每一句涉及产品参数、成分、功效的内容时,都先在前面标一个“✅可信(来源:XXX)”或“⚠️存疑(未找到有效来源,请人工验证)”或“❌错误(来源与XXX冲突,请人工修正)”的标签。
这份“魔法说明书”上线后,该品牌的垂直美妆大模型的输出准确率从之前的45%提升到了92%,输出效率从之前的“每篇图文初稿需要10分钟人工审核+修改”降低到了“每篇图文初稿只需要2分钟人工抽查存疑/错误标签的内容”,内容运营团队的人数从之前的20人减少到了8人,而剩下的8人则把更多的时间花在了“创意策划、内容审核的抽查优化、用户反馈的收集整理”上——可以说,这份“魔法说明书”直接帮该品牌的内容运营成本降低了60%,效率提升了80%。
案例2:AI Agent 驾驭师的“作品”——电商平台的“智能差评处理与产品迭代Agent”
我的另一个朋友小王,之前是某电商平台的后端开发工程师兼产品经理助理,去年也转行做了AI Agent 驾驭师。他用了4个月的时间,基于LangChain框架,给该电商平台的扫地机器人事业部搭了一个完整的“智能差评处理与产品迭代Agent”,这个Agent的功能包括:
- 数据采集模块:每天凌晨自动爬取(合法合规)该电商平台上近30天所有扫地机器人的差评(包括文字、图片、视频的OCR转文字),同时自动调用公司内部的CRM系统获取每一条差评对应的客单价区间、购买时间、用户画像;
- 数据清洗与结构化模块:自动清洗掉差评中的无效信息(比如广告、重复内容、情绪化的脏话),然后用NER(命名实体识别)、关键词提取、情感分析等技术,把每一条差评结构化,提取出“产品型号、差评关键词、情感强度、客单价区间、购买时间、用户核心痛点、用户期望的改进方向”;
- 数据统计与分析模块:自动统计近30天每个产品型号的差评率、复购率、退货率,每个差评关键词的出现频率、对应的客单价区间、对应的情感强度,用户核心痛点的TOP10、用户期望的改进方向的TOP10;
- 任务规划与拆解模块:根据数据统计与分析的结果,自动规划出“本周的产品迭代任务、本周的客服培训任务、本周的内容运营任务”,然后把每个任务拆解成“具体的子任务、负责人、截止时间、验收标准”;
- 行动执行模块:自动调用公司内部的OA系统把任务分配给对应的负责人,自动调用公司内部的邮件系统给负责人发送任务提醒邮件,自动调用公司内部的PPT模板API生成一份“近30天扫地机器人差评分析与产品迭代建议”的PPT初稿,自动调用公司内部的语音合成API生成一段3分钟的产品迭代会议开场白;
- 自我反思与优化模块:每天晚上自动收集负责人对任务的反馈意见,自动收集客服对客服培训任务的效果反馈,自动收集内容运营对内容运营任务的效果反馈,自动收集用户对产品迭代任务的后续反馈,然后根据这些反馈意见,自动优化数据采集模块的参数、数据清洗与结构化模块的NER模型、数据统计与分析模块的权重、任务规划与拆解模块的逻辑、行动执行模块的API调用方式。
这个Agent上线后,该扫地机器人事业部的差评处理效率从之前的“每100条差评需要5个客服人员处理3天”降低到了“每100条差评只需要1个客服人员处理1小时(主要处理自我反思模块无法解决的极端复杂的差评)”,产品迭代的周期从之前的“每3个月迭代一次”缩短到了“每2周迭代一次小功能,每2个月迭代一次大功能”,扫地机器人的整体差评率从之前的8.5%降低到了3.2%,复购率从之前的12%提升到了28%,退货率从之前的6.8%降低到了1.9%——可以说,这个Agent直接帮该扫地机器人事业部的收入提升了50%,利润提升了80%。
1.4 文章脉络:我们接下来要聊什么?
看完这两个真实案例,相信大家已经对这两种新职业产生了浓厚的兴趣。接下来,我们将按照以下的脉络来深入探讨:
- 核心概念辨析:我们会先明确什么是提示词工程师,什么是AI Agent 驾驭师,它们的核心概念、问题背景、问题描述、问题解决分别是什么;
- 概念结构与核心要素组成:我们会详细拆解提示词工程师和AI Agent 驾驭师的工作内容、所需的核心技能、核心工具;
- 概念之间的关系:我们会用markdown表格对比提示词工程师和AI Agent 驾驭师的核心属性,用mermaid架构图展示它们的ER实体关系和交互关系;
- 行业发展与未来趋势:我们会用markdown表格梳理这两种职业的演变发展历史,探讨它们的未来发展趋势;
- 如何入行:我们会给想要入行的朋友提供一些实用的建议,包括学习路径、核心技能的学习方法、实战项目的推荐、简历的优化技巧、面试的准备方法;
- 总结与展望:我们会回顾文章的核心内容,展望这两种职业的未来发展前景。
核心概念辨析
2.1 提示词工程师(Prompt Engineer):从“黑箱使用者”到“黑箱操控者”
2.1.1 核心概念
在正式定义提示词工程师之前,我们先明确什么是提示词(Prompt):提示词是指用户输入给大语言模型(LLM)或多模态大模型(MLLM)的一段文本、图片、音频、视频或它们的组合,其目的是引导大模型生成符合用户预期的输出内容。
那么,提示词工程师(Prompt Engineer) 就是指专门从事提示词的设计、开发、测试、优化、迭代、管理、复用工作的专业人员,其核心目标是通过优化提示词的结构、内容、技巧,来提升大模型输出的质量(准确性、相关性、逻辑性、创造性)、风格(语气语调、用词偏好、排版习惯、情感倾向)、格式(JSON、XML、Markdown、PPT、PDF)、效率(生成速度、资源消耗)、稳定性(输出结果的一致性、可重复性),减少甚至消除大模型的幻觉(Hallucination)、偏见(Bias)、有害内容(Harmful Content)。
2.1.2 问题背景
提示词工程师这个职业的出现,主要有以下几个问题背景:
- 大模型的“可解释性差”(Black Box Problem):目前主流的大语言模型(比如GPT-4o、Claude 3 Opus、Gemini 1.5 Pro、Llama 3 70B)都是基于Transformer架构的深度学习模型,它们的参数规模非常大(从几十亿到几千亿甚至上万亿),内部的工作原理非常复杂,人类很难完全理解它们是如何“思考”和“生成内容”的——它们就像一个“黑箱”,我们只能看到输入和输出,看不到中间的过程;
- 大模型的“通用性强但专业性弱”(Generalization vs. Specialization Trade-off):通用大模型是在海量的公开数据上训练出来的,它们对通用领域的知识理解得比较深,但对垂直领域的知识(比如医疗、法律、金融、美妆、汽车、航天)理解得比较浅,而且容易受到公开数据中的错误信息、过时信息、偏见信息的影响,从而产生幻觉、偏见、有害内容;
- 大模型的“输入依赖度高”(Input Sensitivity):大模型的输出结果对输入提示词的结构、内容、技巧、长度、语气、顺序都非常敏感——有时候你只需要把提示词中的一个词换掉、一句话的顺序调整一下、或者加上几个简单的技巧(比如“请一步步思考”、“请给出3个不同的方案”、“请先确认信息的来源”),输出结果的质量就会有天壤之别;
- 企业和个人用户对大模型的“落地需求激增”:随着GPT-4、Claude 2、Gemini 1.0等大模型的相继发布,大模型的能力得到了极大的提升,越来越多的企业和个人用户开始尝试把大模型应用到自己的工作和生活中——但正如我们在引言中提到的那样,大部分企业和个人用户都不知道如何写高质量的、可复用的提示词,这就导致大模型的落地效果非常差。
2.1.3 问题描述
提示词工程师这个职业要解决的核心问题可以概括为以下几个方面:
- 如何减少甚至消除大模型的幻觉?
- 如何提升大模型输出的质量、风格、格式、效率、稳定性?
- 如何让大模型更好地理解垂直领域的知识?
- 如何降低大模型的偏见和有害内容?
- 如何设计、开发、测试、优化、迭代、管理、复用高质量的提示词?
- 如何降低企业和个人用户使用大模型的门槛?
2.1.4 问题解决
提示词工程师主要通过以下几个方法来解决上述核心问题:
- 掌握并运用各种提示词技巧:比如CoT(Chain of Thought,思维链)、ToT(Tree of Thought,思维树)、RAP(Reasoning via Acting and Planning,行动规划推理)、Self-Consistency(自我一致性)、Few-Shot Learning(少样本学习)、Zero-Shot Learning(零样本学习)、One-Shot Learning(单样本学习)、Role Prompting(角色提示)、Style Prompting(风格提示)、Format Prompting(格式提示)、Constraint Prompting(约束提示)、Verification Prompting(验证提示)、Retrieval-Augmented Generation(RAG,检索增强生成)等;
- 结合垂直领域的知识:深入学习并理解垂直领域的专业术语、业务流程、行业规范、最佳实践,把这些知识融入到提示词的设计中;
- 测试、优化、迭代提示词:通过A/B测试、用户反馈、自动化测试等方法,不断测试、优化、迭代提示词,直到输出结果符合预期;
- 管理、复用提示词:建立提示词库(Prompt Library),对提示词进行分类、标签、注释、版本控制,方便自己和团队成员复用;
- 降低使用门槛:把复杂的提示词封装成简单的API、小程序、网页应用、Chatbot等,让企业和个人用户不需要懂提示词也能使用大模型。
2.1.5 边界与外延
提示词工程师的边界是:他们主要通过优化输入提示词来影响大模型的输出结果,他们不会直接修改大模型的架构、参数、训练数据(当然,有一些高级的提示词工程师可能会参与大模型的微调(Fine-tuning)工作,但微调不是提示词工程师的核心工作)。
提示词工程师的外延是:随着大模型技术的不断发展,提示词工程师的工作内容也在不断扩展——比如,有些提示词工程师开始参与RAG系统的设计与开发(因为RAG系统的检索质量直接影响大模型的输出质量,而提示词工程师可以通过优化检索提示词来提升检索质量),有些提示词工程师开始参与AI Agent的任务规划与拆解模块的设计与开发(因为任务规划与拆解模块本质上就是一个“自动提示词生成器”),有些提示词工程师开始参与大模型的评估与测试工作(因为提示词工程师可以设计出高质量的评估提示词和测试用例)。
2.2 AI Agent Harness Engineering 训练师(Agent Harness Engineer):从“操控大脑”到“驾驭完整智能体”
2.2.1 核心概念
在正式定义AI Agent 驾驭师之前,我们先明确什么是AI Agent(人工智能智能体):AI Agent是指一个能够感知环境(Perception)、能够根据感知到的信息和自身的目标进行推理与规划(Reasoning & Planning)、能够根据推理与规划的结果采取行动(Action)、能够根据行动的结果进行自我反思与优化(Reflection & Optimization)、能够与环境和其他Agent进行交互(Interaction) 的自主实体。
AI Agent的概念其实早在20世纪50年代就已经提出了,但直到最近几年,随着大语言模型(LLM)、多模态大模型(MLLM)、向量数据库(Vector Database)、工具调用(Tool Use)、强化学习(Reinforcement Learning)等技术的不断发展,AI Agent才真正从“理论概念”走向“落地应用”——现在主流的AI Agent(比如AutoGPT、BabyAGI、AgentGPT、LangChain Agent、Microsoft AutoGen、Google DeepMind的AlphaGo/AlphaFold/AlphaCode等)都是以大语言模型或多模态大模型为“核心大脑”(Core LLM/MLLM),然后加上“感知模块(Perception Module)、记忆模块(Memory Module)、推理与规划模块(Reasoning & Planning Module)、行动执行模块(Action Execution Module)、自我反思与优化模块(Reflection & Optimization Module)、交互模块(Interaction Module)”等“外围组件”组成的。
那么,AI Agent Harness Engineering 训练师(Agent Harness Engineer) 就是指专门从事AI Agent的设计、开发、测试、训练、调试、优化、迭代、部署、运维、管理、复用工作的专业人员,其核心目标是把一个“只会说话的大模型大脑”改造成一个“能听、能说、能看、能做、能想、能改的完整智能体”,然后通过训练、调试、优化、迭代这个智能体,来实现复杂任务的端到端自动化闭环,提升工作效率,降低工作成本,创造商业价值。
这里需要特别说明的是,为什么我用“Harness Engineering”而不是“Agent Engineering”?因为“Harness”这个词有以下几个含义,非常贴合这个职业的定位:
- 驾驭、控制:AI Agent的能力非常强大,但如果没有正确的驾驭和控制,它可能会产生有害内容、可能会泄露用户隐私、可能会做出错误的决策、甚至可能会造成严重的后果——Agent Harness Engineer的核心工作之一就是“驾驭和控制AI Agent”,确保它的行为符合人类的预期和道德伦理规范;
- 利用、发挥:Agent Harness Engineer的另一个核心工作就是“利用和发挥AI Agent的最大潜力”,把大模型的能力和其他技术(比如向量数据库、工具调用、强化学习)的能力结合起来,实现复杂任务的端到端自动化闭环;
- 安装挽具、连接组件:正如我们前面提到的那样,AI Agent是以大模型为“核心大脑”,然后加上“外围组件”组成的——Agent Harness Engineer的工作之一就是“给大模型安装挽具,把各个外围组件连接起来”,搭建一个完整的AI Agent架构。
2.2.2 问题背景
AI Agent 驾驭师这个职业的出现,主要有以下几个问题背景:
- 纯Prompt交互无法实现复杂任务的自动化闭环:正如我们在引言中提到的那样,大模型本质上只是一个“预测下一个token的语言模型”,它没有“行动能力”(比如无法打开文件、无法访问数据库、无法调用API、无法爬取网页、无法控制物理设备)、没有“长期记忆能力”(比如无法记住用户之前问过的所有问题、无法记住之前完成的所有任务、无法记住垂直领域的大量专业知识)、没有“自我反思能力”(比如无法意识到自己的输出结果有错误、无法意识到自己的任务规划有问题、无法根据行动的结果进行优化)——纯Prompt交互只能完成一些“简单的单轮/多轮问答任务”,无法完成一些“复杂的端到端任务链”;
- 企业对“自动化、智能化、高效化”的需求激增:随着人口红利的消失、劳动力成本的上升、市场竞争的加剧,越来越多的企业开始寻求“自动化、智能化、高效化”的解决方案——AI Agent可以帮助企业完成一些“重复性高、劳动强度大、专业性强、风险高”的工作(比如客服、内容运营、数据采集、数据分析、财务审计、法律审查、代码生成、代码测试、产品迭代、项目管理等),从而提升工作效率,降低工作成本,创造商业价值;
- AI Agent技术的不断成熟:随着大语言模型、多模态大模型、向量数据库、工具调用、强化学习、LangChain、Microsoft AutoGen、Google DeepMind的Agent框架等技术的不断发展,AI Agent的开发门槛越来越低,能力越来越强——现在,即使是一个没有太多深度学习经验的软件工程师,也可以基于LangChain框架在几天内搭出一个简单的AI Agent;
- 现有AI Agent的“落地效果差”:虽然现在有很多开源的AI Agent框架和应用,但大部分现有AI Agent的“落地效果差”——它们要么容易产生幻觉、要么行动能力差、要么记忆能力差、要么自我反思能力差、要么与环境和其他Agent的交互能力差、要么无法处理复杂的任务、要么效率低下、要么成本高昂、要么安全隐患大——这就需要专业的Agent Harness Engineer来对它们进行“设计、开发、测试、训练、调试、优化、迭代、部署、运维、管理、复用”。
2.2.3 问题描述
AI Agent 驾驭师这个职业要解决的核心问题可以概括为以下几个方面:
- 如何搭建一个完整的、可扩展的、可维护的AI Agent架构?
- 如何提升AI Agent的感知能力?(比如如何让AI Agent更好地理解文本、图片、音频、视频等多模态数据?)
- 如何提升AI Agent的记忆能力?(比如如何让AI Agent更好地记住短期记忆、长期记忆、向量记忆、结构化记忆?)
- 如何提升AI Agent的推理与规划能力?(比如如何让AI Agent更好地理解用户的目标、如何更好地把复杂任务拆解成简单的子任务、如何更好地选择最优的子任务执行顺序?)
- 如何提升AI Agent的行动执行能力?(比如如何让AI Agent更好地选择和调用合适的工具、如何更好地处理工具调用的错误?)
- 如何提升AI Agent的自我反思与优化能力?(比如如何让AI Agent更好地意识到自己的错误、如何更好地根据行动的结果进行优化?)
- 如何提升AI Agent的交互能力?(比如如何让AI Agent更好地与用户交互、如何更好地与环境交互、如何更好地与其他Agent交互?)
- 如何减少甚至消除AI Agent的幻觉、偏见、有害内容?
- 如何提升AI Agent的效率、稳定性、安全性、可解释性?
- 如何训练、调试、优化、迭代、部署、运维、管理、复用AI Agent?
- 如何降低AI Agent的开发门槛和使用门槛?
- 如何确保AI Agent的行为符合人类的预期和道德伦理规范?
2.2.4 问题解决
AI Agent 驾驭师主要通过以下几个方法来解决上述核心问题:
- 选择合适的AI Agent架构和框架:比如根据任务的复杂度和需求,选择ReAct(Reasoning + Acting)架构、Reflection架构、Plan-and-Execute架构、AutoGPT架构、BabyAGI架构、LangChain Agent架构、Microsoft AutoGen架构、Google DeepMind的Agent架构等;
- 设计、开发、集成各个AI Agent模块:比如设计、开发、集成感知模块(使用OCR、ASR、TTS、计算机视觉、自然语言处理等技术)、记忆模块(使用短期记忆缓存、长期记忆数据库、向量数据库、结构化数据库等技术)、推理与规划模块(使用CoT、ToT、RAP、大模型的推理能力、强化学习等技术)、行动执行模块(使用工具调用、API调用、脚本执行等技术)、自我反思与优化模块(使用大模型的自我评估能力、用户反馈、自动化测试、强化学习等技术)、交互模块(使用Chatbot、API、小程序、网页应用、物理设备接口等技术);
- 结合RAG系统:把垂直领域的专业知识存储到向量数据库中,当AI Agent需要用到这些知识时,先从向量数据库中检索出相关的知识,然后再把这些知识和用户的输入一起输入给大模型,从而减少甚至消除AI Agent的幻觉,提升AI Agent的专业性;
- 训练、调试、优化、迭代AI Agent:通过手动测试、自动化测试、A/B测试、用户反馈、强化学习(RLHF,Reinforcement Learning from Human Feedback;RLAIF,Reinforcement Learning from AI Feedback)等方法,不断训练、调试、优化、迭代AI Agent,直到它的行为符合预期;
- 部署、运维、管理、复用AI Agent:把AI Agent部署到云服务器、本地服务器、边缘设备等平台上,对AI Agent进行监控、日志记录、故障排除、版本控制、安全管理,建立AI Agent库(Agent Library),对AI Agent进行分类、标签、注释、版本控制,方便自己和团队成员复用;
- 确保AI Agent的安全性和道德伦理规范:通过设置约束条件、安全机制、容错机制、内容过滤机制、隐私保护机制、审计机制等方法,确保AI Agent的行为符合人类的预期和道德伦理规范;
- 降低开发门槛和使用门槛:把复杂的AI Agent开发流程封装成简单的低代码/无代码平台,把AI Agent封装成简单的API、小程序、网页应用、Chatbot等,让企业和个人用户不需要懂太多的技术也能开发和使用AI Agent。
2.2.5 边界与外延
AI Agent 驾驭师的边界是:他们主要通过设计、开发、集成、训练、调试、优化、迭代AI Agent的外围组件来提升AI Agent的能力,他们不会直接修改大模型的核心架构、参数、训练数据(当然,有一些高级的Agent Harness Engineer可能会参与大模型的微调工作,因为微调可以提升大模型的推理能力、工具调用能力、自我反思能力等,但微调不是Agent Harness Engineer的核心工作)。
AI Agent 驾驭师的外延是:随着AI Agent技术的不断发展,Agent Harness Engineer的工作内容也在不断扩展——比如,有些Agent Harness Engineer开始参与大模型的评估与测试工作,有些Agent Harness Engineer开始参与多Agent系统(Multi-Agent System)的设计与开发(因为多Agent系统可以让多个不同能力的AI Agent协同工作,完成更复杂的任务),有些Agent Harness Engineer开始参与物理AI Agent(Physical AI Agent,比如机器人、自动驾驶汽车、无人机等)的设计与开发(因为物理AI Agent本质上就是一个“带有物理执行器的AI Agent”)。
概念结构与核心要素组成
3.1 提示词工程师的概念结构与核心要素组成
3.1.1 工作内容
提示词工程师的核心工作内容可以概括为以下几个方面:
- 需求分析:与企业的业务部门、产品经理、设计师、开发工程师、用户等 stakeholders 沟通,了解他们对大模型的需求(比如需要大模型完成什么任务、输出内容的质量、风格、格式、效率、稳定性要求是什么、有没有什么约束条件、有没有什么安全隐患需要注意等);
- 提示词设计:根据需求分析的结果,结合各种提示词技巧和垂直领域的知识,设计出初步的提示词;
- 提示词开发:把初步的提示词转化为可执行的代码(比如使用Python调用OpenAI API、Anthropic API、Google Gemini API、Llama API等),或者把提示词输入到大模型的测试平台(比如OpenAI Playground、Anthropic Console、Google AI Studio、Hugging Face Spaces等)进行测试;
- 提示词测试:通过手动测试、自动化测试、A/B测试等方法,对提示词进行测试,评估提示词的输出结果是否符合预期;
- 提示词优化:根据测试的结果和用户的反馈,不断优化提示词的结构、内容、技巧,直到输出结果符合预期;
- 提示词迭代:随着大模型技术的不断发展、业务需求的不断变化、垂直领域知识的不断更新,不断迭代提示词;
- 提示词管理:建立提示词库(Prompt Library),对提示词进行分类、标签、注释、版本控制,方便自己和团队成员复用;
- 提示词培训:对企业的业务部门、产品经理、设计师、开发工程师、用户等 stakeholders 进行提示词培训,降低他们使用大模型的门槛;
- 提示词研究:关注大模型技术和提示词技术的最新发展趋势,研究新的提示词技巧,提升自己的专业能力;
- RAG系统的设计与开发(可选):参与RAG系统的设计与开发,优化检索提示词,提升检索质量;
- AI Agent的任务规划与拆解模块的设计与开发(可选):参与AI Agent的任务规划与拆解模块的设计与开发,因为任务规划与拆解模块本质上就是一个“自动提示词生成器”;
- 大模型的评估与测试(可选):参与大模型的评估与测试工作,设计高质量的评估提示词和测试用例。
3.1.2 核心技能
提示词工程师需要具备的核心技能可以概括为以下几个方面:
- 大模型基础知识:了解大语言模型(LLM)和多模态大模型(MLLM)的基本概念、工作原理、架构(比如Transformer架构)、参数规模、训练数据、能力边界、局限性(比如幻觉、偏见、有害内容、输入长度限制、输出长度限制、推理能力有限等);
- 提示词技巧:熟练掌握并运用各种提示词技巧,比如CoT(Chain of Thought,思维链)、ToT(Tree of Thought,思维树)、RAP(Reasoning via Acting and Planning,行动规划推理)、Self-Consistency(自我一致性)、Few-Shot Learning(少样本学习)、Zero-Shot Learning(零样本学习)、One-Shot Learning(单样本学习)、Role Prompting(角色提示)、Style Prompting(风格提示)、Format Prompting(格式提示)、Constraint Prompting(约束提示)、Verification Prompting(验证提示)、Retrieval-Augmented Generation(RAG,检索增强生成)等;
- 垂直领域知识:深入学习并理解至少一个垂直领域的专业术语、业务流程、行业规范、最佳实践(比如医疗、法律、金融、美妆、汽车、航天、教育、电商、内容运营、代码生成、代码测试等)——这一点非常重要,因为通用提示词工程师的竞争力不如垂直领域提示词工程师;
- 编程能力:至少熟练掌握一门编程语言(比如Python、JavaScript/TypeScript),能够使用编程语言调用大模型的API(比如OpenAI API、Anthropic API、Google Gemini API、Llama API等),能够编写简单的自动化测试脚本;
- 自然语言处理(NLP)基础知识:了解自然语言处理的基本概念、工作原理、常用技术(比如分词、词性标注、命名实体识别(NER)、关键词提取、情感分析、文本分类、文本摘要、机器翻译等);
- 多模态大模型基础知识(可选):了解多模态大模型的基本概念、工作原理、常用技术(比如OCR、ASR、TTS、计算机视觉等);
- RAG系统基础知识(可选):了解RAG系统的基本概念、工作原理、常用技术(比如向量数据库、文本嵌入(Text Embedding)、相似度检索等);
- 测试与评估能力:能够设计高质量的测试用例和评估指标(比如准确率、召回率、F1值、BLEU值、ROUGE值、Human Evaluation等),能够通过手动测试、自动化测试、A/B测试等方法对提示词进行测试与评估;
- 沟通能力:能够与企业的业务部门、产品经理、设计师、开发工程师、用户等 stakeholders 进行有效的沟通,了解他们的需求,向他们解释提示词的工作原理和使用方法;
- 学习能力:大模型技术和提示词技术的发展非常快,提示词工程师需要具备很强的学习能力,能够快速学习并掌握新的技术和技巧;
- 创新能力:能够根据不同的需求和场景,设计出创新的提示词;
- 耐心与细心:提示词的优化和迭代是一个非常繁琐的过程,提示词工程师需要具备很强的耐心和细心,能够不断地测试、优化、迭代提示词,直到输出结果符合预期。
3.1.3 核心工具
提示词工程师常用的核心工具可以概括为以下几个方面:
- 大模型测试平台:
- OpenAI Playground:OpenAI官方提供的大模型测试平台,支持GPT-4o、GPT-4 Turbo、GPT-3.5 Turbo等模型,支持调整温度(Temperature)、Top P、Top K、最大输出长度(Max Tokens)、频率惩罚(Frequency Penalty)、存在惩罚(Presence Penalty)等参数;
- Anthropic Console:Anthropic官方提供的大模型测试平台,支持Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku等模型,支持调整温度、Top P、最大输出长度等参数;
- Google AI Studio:Google官方提供的大模型测试平台,支持Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini 1.0 Pro等模型,支持调整温度、Top P、Top K、最大输出长度等参数;
- Hugging Face Spaces:Hugging Face提供的开源大模型测试平台,支持各种开源大模型(比如Llama 3、Mistral、Zephyr、Gemma等);
- 提示词库:
- OpenAI Prompt Engineering Guide:OpenAI官方提供的提示词工程指南,包含了各种提示词技巧和示例;
- Anthropic Prompt Engineering Guide:Anthropic官方提供的提示词工程指南,包含了各种提示词技巧和示例;
- Google AI Prompting Guide:Google官方提供的提示词工程指南,包含了各种提示词技巧和示例;
- Prompt Engineering Institute(PEI):一个专门研究提示词工程的机构,提供了各种提示词技巧、示例、课程和认证;
- Awesome Prompt Engineering:GitHub上的一个开源项目,收集了各种提示词技巧、示例、工具、课程、论文等资源;
- PromptBase:一个提示词交易平台,用户可以在上面购买和出售高质量的提示词;
- LangChain Hub:LangChain官方提供的提示词库,用户可以在上面分享和下载高质量的提示词;
- 编程语言与API:
- Python:提示词工程师最常用的编程语言,因为它有丰富的大模型API库(比如OpenAI Python SDK、Anthropic Python SDK、Google Generative AI Python SDK、LangChain等);
- JavaScript/TypeScript:提示词工程师常用的编程语言之一,因为它可以用来开发网页应用、小程序、Chatbot等;
- OpenAI API:OpenAI官方提供的大模型API,支持GPT-4o、GPT-4 Turbo、GPT-3.5 Turbo、Text Embedding等模型;
- Anthropic API:Anthropic官方提供的大模型API,支持Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku等模型;
- Google Gemini API:Google官方提供的大模型API,支持Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini 1.0 Pro等模型;
- Llama API:Meta官方提供的开源大模型API,支持Llama 3等模型;
- 向量数据库与RAG系统工具(可选):
- Pinecone:一个托管式向量数据库,支持快速的相似度检索;
- Weaviate:一个开源的向量数据库,支持快速的相似度检索和结构化数据存储;
- Chroma:一个开源的轻量级向量数据库,适合本地开发和测试;
- LangChain:一个开源的AI应用开发框架,支持RAG系统的设计与开发;
- LlamaIndex:一个开源的RAG系统开发框架,专门用于连接大模型和私有数据;
- 测试与评估工具(可选):
- OpenAI Evals:OpenAI官方提供的大模型评估框架,支持各种评估指标和测试用例;
- LangChain Evaluators:LangChain官方提供的提示词和AI应用评估框架,支持各种评估指标和测试用例;
- Human Evaluation Tools:比如UserTesting、SurveyMonkey等,用于收集用户的反馈;
- 版本控制工具:
- Git:提示词工程师最常用的版本控制工具,用于管理提示词的版本;
- GitHub/GitLab/Bitbucket:常用的代码托管平台,用于存储和分享提示词;
- 协作工具:
- Notion:常用的笔记和协作工具,用于记录提示词的设计思路、测试结果、用户反馈等;
- Confluence:常用的企业级协作工具,用于建立提示词库和分享提示词;
- Slack/Teams/Discord:常用的即时通讯工具,用于与团队成员沟通。
3.2 AI Agent 驾驭师的概念结构与核心要素组成
3.2.1 工作内容
AI Agent 驾驭师的核心工作内容可以概括为以下几个方面:
- 需求分析:与企业的业务部门、产品经理、设计师、开发工程师、用户等 stakeholders 沟通,了解他们对AI Agent的需求(比如需要AI Agent完成什么任务、任务的复杂度和难度如何、有没有什么约束条件、有没有什么安全隐患需要注意、有没有什么性能要求(比如生成速度、资源消耗)、有没有什么可扩展性要求、有没有什么可维护性要求等);
- AI Agent架构设计:根据需求分析的结果,选择合适的AI Agent架构(比如ReAct架构、Reflection架构、Plan-and-Execute架构、AutoGPT架构、BabyAGI架构等),设计完整的AI Agent架构图;
- AI Agent框架选择:根据需求分析的结果和AI Agent架构设计的结果,选择合适的AI Agent开发框架(比如LangChain、Microsoft AutoGen、Google DeepMind的Agent框架、AutoGPT、BabyAGI等);
- AI Agent模块设计与开发:设计、开发、集成各个AI Agent模块,包括感知模块、记忆模块、推理与规划模块、行动执行模块、自我反思与优化模块、交互模块;
- 工具设计与开发:如果现有的工具无法满足AI Agent的需求,需要设计、开发、集成新的工具(比如数据采集工具、数据分析工具、文件处理工具、API调用工具等);
- RAG系统设计与开发:如果AI Agent需要用到垂直领域的专业知识,需要设计、开发、集成RAG系统,把垂直领域的专业知识存储到向量数据库中,当AI Agent需要用到这些知识时,先从向量数据库中检索出相关的知识,然后再把这些知识和用户的输入一起输入给大模型;
- AI Agent测试:通过手动测试、自动化测试、A/B测试、用户反馈等方法,对AI Agent进行测试,评估AI Agent的行为是否符合预期;
- AI Agent训练:通过强化学习(RLHF,Reinforcement Learning from Human Feedback;RLAIF,Reinforcement Learning from AI Feedback)等方法,对AI Agent进行训练,提升AI Agent的能力;
- AI Agent调试与优化:根据测试的结果和用户的反馈,不断调试与优化AI Agent的各个模块、参数、逻辑,直到AI Agent的行为符合预期;
- AI Agent迭代:随着大模型技术的不断发展、AI Agent技术的不断发展、业务需求的不断变化、垂直领域知识的不断更新,不断迭代AI Agent;
- AI Agent部署:把AI Agent部署到云服务器、本地服务器、边缘设备等平台上;
- AI Agent运维:对AI Agent进行监控、日志记录、故障排除、性能优化、安全管理;
- AI Agent管理:建立AI Agent库(Agent Library),对AI Agent进行分类、标签、注释、版本控制,方便自己和团队成员复用;
- AI Agent培训:对企业的业务部门、产品经理、设计师、开发工程师、用户等 stakeholders 进行AI Agent培训,降低他们使用AI Agent的门槛;
- AI Agent研究:关注大模型技术和AI Agent技术的最新发展趋势,研究新的AI Agent架构、框架、技术,提升自己的专业能力;
- 多Agent系统设计与开发(可选):如果需要多个不同能力的AI Agent协同工作,完成更复杂的任务,需要设计、开发、集成多Agent系统;
- 物理AI Agent设计与开发(可选):如果需要AI Agent控制物理设备(比如机器人、自动驾驶汽车、无人机等),需要设计、开发、集成物理AI Agent。
3.2.2 核心技能
AI Agent 驾驭师需要具备的核心技能可以概括为以下几个方面:
- 大模型基础知识:了解大语言模型(LLM)和多模态大模型(MLLM)的基本概念、工作原理、架构(比如Transformer架构)、参数规模、训练数据、能力边界、局限性(比如幻觉、偏见、有害内容、输入长度限制、输出长度限制、推理能力有限等);
- 提示词工程技能:熟练掌握并运用各种提示词技巧,因为AI Agent的推理与规划模块、自我反思与优化模块本质上就是一个“自动提示词生成器”;
- **AI
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)