AI Agent Harness Engineering 与大模型的区别:90% 的人都混淆的核心概念
AI Agent Harness Engineering 与大模型的区别:90% 的人都混淆的核心概念
引言
背景介绍
2023年被称为AI Agent元年,从AutoGPT的横空出世到LangChain的普及,再到字节跳动Coze、百度文心一言Agent平台的发布,Agent已经成为大模型落地的核心载体。但与此同时,行业内出现了非常普遍的概念混淆:90%的从业者会把AI Agent Harness Engineering(AI Agent管控工程,以下简称Harness工程)和大模型本身混为一谈,认为“Agent就是大模型加提示词”、“大模型能力足够强就不需要Harness”,这种认知偏差直接导致大量AI项目停留在玩具阶段,无法落地到生产环境。
我接触过很多企业的AI项目负责人,他们吐槽最多的就是:“我们花了几十万买了大模型的API权限,做出来的客服机器人还是经常胡说八道,给客户乱承诺退款,最后只能下线”、“我们用AutoGPT做自动化研发,10次任务有8次中途崩溃,根本没法用”。深入排查之后发现,这些问题本质上都不是大模型的问题,而是他们完全没有做Harness工程,把大模型直接当成了完整的AI应用来用。
核心问题
本文将围绕3个核心问题展开讲解,彻底厘清两者的边界和关系:
- 大模型和Harness工程到底是什么?各自的核心要素和能力边界是什么?
- 两者的核心区别是什么?分别适合什么场景?
- 企业落地AI应用时,怎么平衡大模型和Harness工程的投入?
文章脉络
本文首先会分别拆解大模型和Harness工程的核心概念、组成结构,然后从多个维度做横向对比,再从数学模型、算法流程、代码实现层面深入解析两者的底层差异,最后通过实际项目案例、最佳实践和行业趋势,帮助读者建立正确的认知,避免踩坑。
基础概念扫盲
术语解释
在展开对比之前,我们先明确两个核心术语的定义:
1. 大模型(Large Language Model, LLM)
大模型是指参数规模在十亿级以上,基于Transformer架构,通过海量文本/多模态数据预训练得到的概率生成模型,核心能力是理解自然语言、生成自然语言、完成通用推理任务。我们熟悉的GPT-4、Claude 3、通义千问、LLaMA 3都属于大模型的范畴。
大模型的核心要素组成:
| 核心要素 | 说明 |
|---|---|
| 模型架构 | 基于Transformer的编码器/解码器结构,核心是自注意力机制 |
| 参数规模 | 从几十亿到上万亿不等,参数越大通用能力越强,推理成本越高 |
| 预训练数据 | 覆盖全网文本、代码、图像等多模态数据,数据质量直接决定模型能力 |
| 对齐方式 | 包括有监督微调(SFT)、基于人类反馈的强化学习(RLHF),决定模型输出是否符合人类偏好 |
| 上下文窗口 | 单次请求可以处理的最大Token数,目前主流模型的窗口从8K到128K不等 |
大模型的本质是“概率预测器”,它的所有输出都是基于预训练数据的统计规律,预测下一个概率最高的Token,没有真实的“理解”能力,天生存在幻觉、输出不可控的问题。
2. AI Agent Harness Engineering
Harness的本意是“缰绳、 harness”,Harness工程就是管控Agent的整套工程体系,它是大模型和实际业务之间的中间层,负责解决大模型落地过程中的所有工程问题:包括任务调度、工具调用、记忆管理、权限管控、可靠性保障、可观测性等。我们熟悉的LangChain、AutoGPT、Coze、Dify都是典型的Harness框架/平台。
Harness工程的核心要素组成:
| 核心要素 | 说明 |
|---|---|
| 感知模块 | 负责接收用户输入、工具返回结果、环境反馈,做非结构化数据的预处理 |
| 记忆模块 | 分为短期记忆(会话级上下文)、长期记忆(用户历史数据,存在向量数据库)、工作记忆(当前任务的执行过程) |
| 规划模块 | 负责拆解复杂任务、制定执行计划、动态调整流程,常用技术包括思维链(CoT)、思维树(ToT)、反思机制 |
| 工具调用模块 | 负责工具注册、参数提取、权限校验、调用执行、结果校验,支持对接任意外部API、数据库、操作系统 |
| 调度模块 | 负责多模型路由、负载均衡、降级熔断、流量控制,支持动态切换底层大模型 |
| 可观测模块 | 负责记录所有调用日志、错误追踪、效果评估,支持排查问题、迭代优化 |
| 合规模块 | 负责内容审核、敏感词过滤、规则校验,确保输出符合企业合规要求 |
Harness工程的本质是“大模型的执行层和防护层”,它本身不产生智能,但是可以把大模型的通用能力和业务场景结合起来,把大模型的不可控风险降到最低,让AI应用可以稳定运行在生产环境。
核心区别对比
核心属性维度对比
我们从10个核心维度做横向对比,大家看完这个表格就能立刻明白两者的差异:
| 对比维度 | 大模型(LLM) | AI Agent Harness Engineering |
|---|---|---|
| 核心定位 | 通用智能引擎,负责内容理解、生成、推理 | Agent的管控工程体系,负责任务调度、工具调用、记忆管理、可靠性保障 |
| 核心价值 | 提供通用的自然语言理解和生成能力,降低非结构化数据处理的成本 | 解决大模型的落地问题,提升AI应用的可靠性、可控性、可扩展性,适配企业级场景 |
| 技术本质 | 概率生成模型,基于Transformer架构,通过预训练学习海量数据的统计规律 | 工程体系,结合了调度系统、规则引擎、状态机、强化学习等多种技术,是大模型和实际业务之间的中间层 |
| 能力边界 | 只能处理输入输出的文本/多模态数据,无法和外部系统交互,没有长期记忆,输出不可控,存在幻觉 | 可以调用任意外部系统,管理长期记忆,动态调整任务流程,对大模型的输出进行校验和管控,大幅降低幻觉的影响 |
| 可靠性保障方式 | 通过预训练、SFT、RLHF提升输出的准确率,无法100%避免幻觉 | 通过规则校验、工具返回结果校验、反思机制、重试机制、人工兜底等多层保障,可靠性可以达到99.99%以上 |
| 迭代路径 | 数据迭代(增加训练数据)、参数迭代(增大参数规模)、对齐迭代(优化RLHF) | 流程迭代(优化任务拆解逻辑)、工具迭代(增加更多工具)、规则迭代(优化校验规则)、调度迭代(优化多模型路由策略) |
| 资源投入占比 | 训练成本极高,动辄数千万甚至数亿,推理成本随调用量增加线性增长 | 开发成本中等,主要是人力成本,运行成本极低,大部分是工具调用和存储的成本,大模型调用成本占比不到20% |
| 适用场景 | 单轮、无外部依赖、容错率高的场景:内容生成、翻译、知识问答、创意设计 | 多轮、需要外部交互、长流程、容错率低的场景:企业业务自动化、客户服务、研发助手、智能运维、个人助理 |
| 典型产品 | GPT-4、通义千问、Claude 3、LLaMA 3 | LangChain、AutoGPT、Coze、Dify、AgentGPT |
| 岗位要求 | 懂深度学习、Transformer架构、训练、微调、对齐,需要算法背景 | 懂后端开发、调度系统、数据库、API设计、业务逻辑,不需要太深的算法背景,工程背景更重要 |
实体关系ER图
我们用ER图来直观展示两者的关系:
从图中可以清晰看到:大模型只是Harness工程调用的一个组件,Harness还要对接记忆库、工具、用户、任务等多个实体,大模型和Harness是从属关系,不是对等关系。
交互关系流程图
我们再用流程图展示一个任务从提交到完成的整个交互过程,更直观看到两者的分工:
在整个流程中,大模型只负责“参数提取”和“结果整合”两个环节的工作,剩下的所有逻辑都是Harness工程负责的,这也是为什么说“Agent的能力90%来自Harness,只有10%来自大模型”。
底层原理差异
数学模型差异
两者的数学底层完全不同,优化目标也完全不一样:
1. 大模型的数学模型
大模型的核心是Transformer的自注意力机制,公式如下:
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})VAttention(Q,K,V)=softmax(dkQKT)V
其中 QQQ 是查询向量,KKK 是键向量,VVV 是值向量,dkd_kdk 是向量的维度。自注意力机制的作用是计算输入序列中每个Token和其他Token的关联权重,从而理解上下文语义。
大模型的训练目标是最小化交叉熵损失,优化下一个Token的预测准确率:
L=−1N∑i=1N∑c=1Cyiclog(pic)L = -\frac{1}{N}\sum_{i=1}^{N}\sum_{c=1}^{C}y_{ic}log(p_{ic})L=−N1i=1∑Nc=1∑Cyiclog(pic)
其中 yicy_{ic}yic 是真实标签,picp_{ic}pic 是模型预测的概率。
从数学模型可以看出,大模型的优化目标是“单个Token的预测准确率”,它不会考虑整个任务的完成情况,这也是它天生不可控的根本原因。
2. Harness工程的数学模型
Harness工程的核心是马尔可夫决策过程(MDP),用来描述Agent和环境交互的过程:
M=(S,A,P,R,γ)M = (S, A, P, R, \gamma)M=(S,A,P,R,γ)
其中:
- SSS 是所有可能的状态集合(包括用户输入、工具返回结果、记忆内容等)
- AAA 是所有可能的动作集合(包括调用大模型、调用工具、返回结果等)
- PPP 是状态转移概率,即从当前状态执行某个动作后转移到下一个状态的概率
- RRR 是奖励函数,执行某个动作后获得的奖励,比如任务完成获得正奖励,任务失败获得负奖励
- γ\gammaγ 是折扣因子,代表未来奖励的权重
Harness工程的优化目标是最大化累计折扣奖励:
Gt=∑k=0∞γkRt+k+1G_t = \sum_{k=0}^{\infty}\gamma^k R_{t+k+1}Gt=k=0∑∞γkRt+k+1
从数学模型可以看出,Harness的优化目标是“整个任务的完成效果”,它会考虑每一步动作对最终结果的影响,这也是它可以保障任务可靠性的根本原因。
算法流程差异
1. 大模型的训练流程
大模型的生命周期主要是训练和推理,流程如下:
大模型的训练是一次性的,上线之后能力相对固定,迭代周期很长,通常需要数周甚至数月。
2. Harness工程的运行流程
Harness工程的生命周期是持续的任务执行和迭代,流程如下:
Harness工程的迭代非常灵活,可以随时修改流程、新增工具、调整规则,迭代周期通常只有几天甚至几小时。
代码实现差异
我们用两段最简单的代码对比,就能直观看到两者的差异:
1. 纯大模型调用代码
from openai import OpenAI
client = OpenAI(api_key="your_api_key")
def llm_chat(query):
response = client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role":"user", "content":query}]
)
return response.choices[0].message.content
# 测试:员工咨询报销问题
print(llm_chat("我是员工ID12345,上个月15号出差的酒店发票300块,凭证号INV20240515001,能报销吗?"))
输出结果(典型情况):
一般来说企业出差的酒店费用都是可以报销的,具体你可以咨询公司的财务部门确认哦。
这个输出完全没有用,它不知道公司的报销规则,也查不到员工的出差记录,更不能提交报销申请,只能给出模糊的回答,甚至可能给出错误的承诺。
2. 基于Harness工程的Agent代码
from langchain_openai import ChatOpenAI
from langchain.agents import tool, AgentExecutor, create_openai_tools_agent
from langchain_core.prompts import ChatPromptTemplate
from langchain.memory import ConversationBufferMemory
import requests
# 1. 注册工具:对接企业内部系统
@tool
def query_employee_travel_record(employee_id: str, date_range: str) -> dict:
"""
查询员工指定时间范围内的出差记录
参数:
- employee_id: 员工ID,字符串类型
- date_range: 日期范围,格式为YYYY-MM-DD至YYYY-MM-DD
返回:出差记录字典
"""
# 实际调用企业ERP接口
response = requests.get(
f"https://erp.example.com/travel",
params={"employee_id": employee_id, "date_range": date_range}
)
return response.json()
@tool
def query_reimbursement_rule(expense_type: str) -> str:
"""
查询指定费用类型的报销规则
参数:
- expense_type: 费用类型,可选值:酒店、交通、餐饮
返回:规则文本
"""
# 实际调用企业规则库接口
response = requests.get(
f"https://rule.example.com/reimbursement",
params={"type": expense_type}
)
return response.text
@tool
def submit_reimbursement_application(employee_id: str, amount: float, expense_type: str, voucher: str) -> str:
"""
提交报销申请
参数:
- employee_id: 员工ID
- amount: 报销金额
- expense_type: 费用类型
- voucher: 凭证编号
返回:申请结果
"""
# 实际调用企业报销系统接口
response = requests.post(
"https://reimburse.example.com/apply",
json={
"employee_id": employee_id,
"amount": amount,
"type": expense_type,
"voucher": voucher
}
)
return response.text
# 2. 初始化Harness组件
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
tools = [query_employee_travel_record, query_reimbursement_rule, submit_reimbursement_application]
# 3. 配置提示词与Agent
prompt = ChatPromptTemplate.from_messages([
("system", "你是企业报销审核助手,必须严格按照公司规则处理请求,所有信息必须调用工具查询,禁止编造内容。处理完成后给出明确的审核结果和操作指引。"),
("user", "{input}"),
("agent_scratchpad", "{agent_scratchpad}")
])
agent = create_openai_tools_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, memory=memory, verbose=True)
# 4. 执行任务
result = agent_executor.invoke({
"input": "我是员工ID12345,上个月15号出差的酒店发票300块,凭证号INV20240515001,能报销吗?"
})
print("最终结果:", result["output"])
输出结果(典型情况):
> Entering new AgentExecutor chain...
我需要先查询员工2024年5月的出差记录,确认是否有对应的出差记录,然后查询酒店费用的报销规则,最后判断是否符合条件并提交申请。
=====调用工具:query_employee_travel_record,参数:{"employee_id": "12345", "date_range": "2024-05-01至2024-05-31"}
返回结果:{"has_travel": true, "travel_range": "2024-05-10至2024-05-20", "destination": "上海"}
=====调用工具:query_reimbursement_rule,参数:{"expense_type": "酒店"}
返回结果:酒店费用报销上限为500元/天,仅限出差期间产生的费用,需要提供正规发票。
=====调用工具:submit_reimbursement_application,参数:{"employee_id": "12345", "amount": 300, "expense_type": "酒店", "voucher": "INV20240515001"}
返回结果:申请提交成功,申请编号BX202406010023,预计3个工作日到账。
最终结果:已为你查询到2024年5月10日至2024年5月20日你有上海出差记录,酒店费用报销上限为500元/天,你的300元费用符合规则,已提交报销申请,申请编号BX202406010023,预计3个工作日到账。
可以看到,基于Harness的Agent可以自动对接企业内部系统,严格按照规则处理,输出明确的结果,完全可以用在生产环境。
实际场景应用边界
大模型适用场景
当你的场景符合以下特征时,直接用大模型即可,不需要做Harness工程:
- 单轮交互:不需要多轮对话,一次请求就可以完成任务
- 无外部依赖:不需要调用外部系统、查询数据库,只需要大模型本身的知识
- 容错率高:即使输出有错误,也不会造成严重损失,比如文案创作、创意设计
- 非核心业务:不是企业的核心业务流程,比如内部员工的知识查询、翻译
典型场景:营销文案生成、代码片段生成、通用知识问答、文档摘要、翻译。
Harness工程适用场景
当你的场景符合以下特征时,必须用Harness工程,否则大概率会失败:
- 多轮交互:需要多轮对话、多步骤执行才能完成任务
- 外部依赖:需要调用外部API、数据库、操作系统,对接企业内部系统
- 容错率低:输出错误会造成严重损失,比如客户服务、财务处理、订单管理
- 核心业务:是企业的核心业务流程,需要高可靠性、高可用性
典型场景:智能客服、报销审核、订单处理、智能运维、研发助手、个人AI助理。
边界与外延
- 大模型的能力边界:大模型永远无法做到100%准确,永远存在幻觉,无法直接和外部系统交互,无法记忆长期的用户数据,这些问题只能靠Harness工程解决。
- Harness工程的能力边界:Harness依赖大模型的通用理解能力,如果大模型无法理解用户的输入,Harness也无法正常工作,Harness本身不产生智能,只是放大和管控大模型的能力。
- 两者的互补关系:大模型越强大,Harness能做的事情越多,Harness越成熟,大模型的落地成本越低,两者是互补的,不是替代的。
项目实战:企业报销审核Agent
项目背景
某中型企业有500多名员工,每月报销申请超过2000份,财务部门需要3个全职员工处理,审核周期长达7天,经常出现规则记错、审核错误的问题。企业之前尝试过用纯大模型做审核机器人,但是经常出现错误审核、给员工乱承诺的问题,最后只能下线。
环境安装
我们基于LangChain搭建Harness工程,所需依赖如下:
pip install langchain langchain-openai python-dotenv requests chromadb
需要的API权限:OpenAI API密钥、企业ERP接口权限、报销系统接口权限、OCR接口权限。
系统架构设计
整体架构分为3层:
| 层级 | 模块 | 说明 |
|---|---|---|
| 底层能力层 | 大模型集群、工具集群、存储集群 | 包括GPT-4、通义千问等大模型,ERP、报销系统、OCR等工具,向量数据库、关系数据库等存储 |
| Harness核心层 | 感知模块、记忆模块、规划模块、工具调用模块、调度模块、可观测模块、合规模块 | 负责整个Agent的管控逻辑 |
| 应用层 | 员工端小程序、财务端管理后台 | 面向用户的交互界面 |
核心实现代码
完整的核心实现代码如下(简化版):
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain.agents import tool, AgentExecutor, create_openai_tools_agent
from langchain_core.prompts import ChatPromptTemplate
from langchain.memory import ConversationBufferMemory
from langchain.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
import requests
load_dotenv()
# 初始化向量数据库存储历史报销记录
embeddings = OpenAIEmbeddings()
db = Chroma(persist_directory="./memory", embedding_function=embeddings)
# 工具注册
@tool
def ocr_invoice(image_url: str) -> dict:
"""识别发票图片的内容,参数是发票图片的URL,返回识别结果字典"""
response = requests.post(
"https://ocr.example.com/invoice",
json={"image_url": image_url}
)
return response.json()
@tool
def query_employee_travel_record(employee_id: str, date_range: str) -> dict:
"""查询员工的出差记录"""
response = requests.get(
f"{os.getenv('ERP_URL')}/travel",
params={"employee_id": employee_id, "date_range": date_range}
)
return response.json()
@tool
def query_reimbursement_rule(expense_type: str) -> str:
"""查询报销规则"""
response = requests.get(
f"{os.getenv('RULE_URL')}/reimbursement",
params={"type": expense_type}
)
return response.text
@tool
def check_duplicate_reimbursement(voucher: str) -> bool:
"""检查是否重复报销,参数是凭证号,返回True表示重复,False表示不重复"""
result = db.similarity_search(voucher, k=1)
return len(result) > 0 and result[0].metadata.get("voucher") == voucher
@tool
def submit_reimbursement_application(employee_id: str, amount: float, expense_type: str, voucher: str, attach: str) -> str:
"""提交报销申请"""
response = requests.post(
f"{os.getenv('REIMBURSE_URL')}/apply",
json={
"employee_id": employee_id,
"amount": amount,
"type": expense_type,
"voucher": voucher,
"attach": attach
}
)
if response.status_code == 200:
# 存储到向量数据库,避免重复报销
db.add_texts(
[voucher],
metadatas=[{"voucher": voucher, "employee_id": employee_id, "amount": amount}]
)
db.persist()
return response.text
# 初始化Harness组件
llm = ChatOpenAI(model="gpt-4", temperature=0)
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
tools = [ocr_invoice, query_employee_travel_record, query_reimbursement_rule, check_duplicate_reimbursement, submit_reimbursement_application]
prompt = ChatPromptTemplate.from_messages([
("system", """你是企业报销审核助手,必须严格按照以下流程处理:
1. 首先识别发票内容,获取金额、费用类型、凭证号、日期
2. 检查是否重复报销,如果重复直接拒绝
3. 查询员工对应日期的出差记录,如果没有出差记录直接拒绝
4. 查询对应费用类型的报销规则,判断金额是否符合上限
5. 所有条件都符合的话提交报销申请,否则给出拒绝理由
禁止编造任何信息,所有信息必须来自工具返回结果。
"""),
("user", "{input}"),
("agent_scratchpad", "{agent_scratchpad}")
])
agent = create_openai_tools_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, memory=memory, verbose=True)
# 测试
if __name__ == "__main__":
result = agent_executor.invoke({
"input": "我是员工ID12345,这是我的发票图片:https://example.com/invoice.jpg,帮我报销"
})
print(result["output"])
项目效果
这个Agent上线之后,企业的报销审核周期从7天降到了1小时,财务部门的人力投入减少了80%,审核错误率从15%降到了0.1%,完全满足生产环境的要求。
最佳实践Tips
- 不要过度设计也不要完全不设计:如果是简单场景直接用大模型,复杂场景再用Harness,不要为了用Harness而用Harness,增加不必要的复杂度。
- Harness要做模型无关设计:不要把Harness和特定大模型绑定,未来可以随时切换大模型,比如从GPT切换到通义千问,只需要修改配置,不需要改业务逻辑。
- 可观测性是重中之重:一定要记录Harness每一步的调用日志、大模型的输入输出、工具的返回结果,不然出了问题根本没办法排查。
- 多层校验避免错误:大模型的输出要校验、工具的返回结果要校验、最终输出要校验,关键场景一定要加人工兜底环节。
- 优先用成熟的Harness框架:不要从零开始写Harness,LangChain、Coze、Dify这些成熟框架已经解决了90%的通用问题,直接用就行,节省成本。
行业发展与未来趋势
| 时间 | 阶段 | 核心技术 | 核心痛点 | 代表性产品 | 大众认知状态 |
|---|---|---|---|---|---|
| 2018-2021 | 大模型萌芽期 | BERT、GPT-2/3 | 大模型能力弱,只能做特定任务 | BERT、GPT-3 | 几乎没人知道大模型是什么 |
| 2022.11-2023.3 | 大模型爆发期 | ChatGPT、LLaMA | 大模型幻觉、上下文窗口小 | ChatGPT、文心一言 | 大家都觉得大模型无所不能,什么都能用大模型做 |
| 2023.3-2023.12 | Agent概念爆发期 | AutoGPT、LangChain | Agent长流程任务失败率高、不可控 | AutoGPT、BabyAGI | 大家觉得Agent就是大模型加提示词,混淆大模型和Harness工程 |
| 2024.1-至今 | Harness工程成熟期 | Agent框架、可观测、多模型调度 | Agent落地成本高、企业级合规性不足 | LangChain v0.2、AutoGPT Forge、字节Coze | 少数从业者开始意识到Harness是独立的工程体系,大部分人还是混淆 |
| 2025-2027 | Agent普及期 | 端侧Agent、多Agent协同 | 标准化程度低、跨平台协同差 | 各厂的Agent平台、AI OS | 大众普遍接受Agent是AI应用的标准形态,Harness成为独立的技术岗位 |
未来的趋势非常明确:大模型会越来越标准化、越来越便宜,甚至会成为像水电一样的基础设施,而Harness工程会成为AI落地的核心竞争力,未来最缺的不是会训练大模型的算法工程师,而是会做Harness工程的AI应用工程师。
常见问题FAQ
-
问:Harness工程是不是就是提示词工程?
答:不是,提示词工程只是Harness工程里非常小的一个模块,Harness还包括记忆管理、工具调用、调度、可观测、合规等很多模块,提示词工程占比不到10%。 -
问:未来大模型越来越强,会不会取代Harness工程?
答:不会,因为大模型永远存在幻觉,永远需要管控,而且企业级应用需要的权限管控、合规、可观测这些能力,大模型本身不可能具备,Harness是大模型落地的必要载体,只会越来越重要。 -
问:小公司有没有必要做Harness工程?
答:看场景,如果你的AI应用只是用来做内部文案生成,没必要,如果要做客户服务、订单处理这些核心业务,哪怕是小公司也应该用成熟的Harness框架,不要自己从零写,成本太高。 -
问:Harness工程和传统的RPA有什么区别?
答:RPA是固定规则的自动化,只能处理预设好的流程,遇到意外就崩了,Harness是基于大模型的理解能力,可以处理非结构化的输入,动态调整流程,通用性更强。
本章小结
本文从概念、原理、代码、场景多个维度详细对比了大模型和AI Agent Harness工程的核心区别,核心结论如下:
- 大模型是通用智能引擎,Harness工程是大模型的管控体系,两者是从属关系,不是对等关系。
- 大模型解决的是“有没有智能”的问题,Harness工程解决的是“智能能不能落地”的问题。
- 90%的AI应用落地问题,都不是大模型的问题,而是Harness工程的问题。
- 未来Harness工程会成为AI领域的核心岗位,价值远大于只会调大模型的工程师。
如果你现在正在做AI相关的项目,一定要先搞清楚两者的区别,不要把大模型直接当应用用,不然只会浪费时间和钱。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)