AI Agent Harness Engineering 的商业化困局:按 Token 计费与按结果付费的博弈
AI Agent Harness Engineering 的商业化困局:按 Token 计费与按结果付费的博弈
关键词:AI Agent Harness、LLM商业化、按Token计费、按结果付费、大模型成本控制、Agent落地、SaaS定价模型
摘要:2024年AI Agent被公认为下一代AI交互的核心入口,国内Agent相关融资规模已突破300亿,但90%的Agent服务商都卡在商业化定价环节:要么按Token计费被用户吐槽“无效消耗也要付钱”,要么按结果付费自身承担过高的失败风险导致亏损。本文将从核心概念拆解、博弈本质分析、数学模型推导、实战仿真、行业案例等维度,彻底讲透两种计费模式的优劣势、适用场景、盈亏平衡点,以及混合模式的最佳实践,为AI从业者提供可落地的商业化定价方案。
背景介绍
目的和范围
你有没有过这样的经历:用AI写一份活动方案,前前后后改了10次,花了几万Token,最后出来的结果还是不能用,钱却已经扣了?或者你是AI创业者,做了一个合同审查Agent,按结果收费的话,遇到故意刁难的用户反复要求修改,成本直接翻倍,按Token收费又没人愿意买?
本文的核心目的就是破解这个困局:我们会拆解AI Agent Harness(Agent调度控制层)的核心价值,推导两种计费模式的利润公式,找到盈亏平衡的临界点,给出不同场景下的定价最佳实践。本文不涉及复杂的底层模型训练,只讲所有AI从业者都能直接用的商业化定价逻辑。
预期读者
AI创业者、LLM产品经理、Agent开发者、SaaS运营负责人、企业AI采购决策者
文档结构概述
我们会先从一个生活小故事引出核心概念,再拆解两种计费模式的博弈本质,通过数学公式算清楚赚不赚钱,然后给一个可直接运行的仿真工具,最后结合行业案例给出落地建议。
术语表
核心术语定义
- AI Agent Harness Engineering:Agent的“后台调度指挥系统”,负责任务拆分、模型路由、工具调用、容错重试、结果核验的整套技术体系,相当于演唱会的总导演组,协调歌手、灯光、音响、道具,保证演出顺利完成。
- 按Token计费:按照大模型处理的字符数(1Token约等于0.7个汉字)收费,相当于买水按升算,用多少付多少,不管你买的水有没有喝完、有没有撒掉。
- 按结果付费:只有Agent完成了用户约定的任务目标(比如整理完符合要求的财报、订到符合条件的机票、写的文案通过率达标)才收费,没达到要求不收费,相当于点外卖,收到完好的热饭才付钱,撒了冷了直接退款。
相关概念解释
- 任务成功率:Agent完成用户需求的比例,100个任务里有80个符合要求,成功率就是80%。
- Token消耗率:完成单个任务平均消耗的Token数量,直接决定服务商的底层成本。
缩略词列表
- LLM:大语言模型
- SaaS:软件即服务
- ROI:投资回报率
核心概念与联系
故事引入
我们先讲一个大家都能懂的小故事:
你在学校门口开了一个代取快递的小店,招聘了几个兼职跑腿的学生。现在有两种收费方式:
A方案:按步数收费,走1步收1分钱,哪怕跑腿的同学走了1万步最后快递丢了,客户也要付100块钱。
B方案:按拿到快递收费,客户拿到完好的快递才付5块钱,没拿到或者快递坏了一分钱不收。
如果你是店主,你选哪个?如果你是客户,你选哪个?
这就是现在整个AI Agent行业面临的真实困境:兼职跑腿的学生就是大模型,步数就是Token,拿到快递就是完成任务。A方案就是按Token计费,B方案就是按结果付费。
核心概念解释(像给小学生讲故事一样)
核心概念一:AI Agent Harness
就相当于代取快递店的调度系统:它会先问清楚客户的快递在哪、有没有时效要求、要不要上楼,然后给跑腿的同学规划最短路线,提醒不要丢件,快递拿回来之后先检查有没有破损,没问题再给客户,要是丢了立刻安排人重新去取。
Harness的能力直接决定了两个核心指标:一是跑腿的同学走的步数(Token消耗),二是客户拿到完好快递的概率(任务成功率)。
核心概念二:按Token计费
就像按跑腿的步数收费:店主完全不用担风险,走多少步收多少钱,哪怕快递丢了也不亏。但客户会非常不爽:我花了钱最后没拿到快递,凭什么要付钱?而且你会不会故意绕远路多走步数赚我钱?
核心概念三:按结果付费
就像按拿到快递收费:客户非常开心,没拿到快递一分钱不花,也不怕你绕路。但店主风险就大了:要是快递点太远,或者经常丢件,跑腿的同学跑了十次才拿到,成本都要20块了,才收5块钱,直接亏到姥姥家。
核心概念之间的关系(用小学生能理解的比喻)
Harness、按Token计费、按结果付费三个概念就像铁三角:
- Harness和按Token计费的关系:Harness相当于调度系统,要尽量给跑腿的同学规划最短路线,少走冤枉路,降低Token消耗成本,按Token计费的利润才会高。
- Harness和按结果付费的关系:Harness要尽量保证快递不丢不损,提高任务成功率,这样按结果付费的时候才不用反复跑,成本可控。
- 按Token和按结果付费的关系:就是成本和风险的博弈:按Token风险在客户,按结果风险在服务商,两者没有绝对的好坏,核心看Harness能不能把Token成本降下来、把成功率提上去。
核心概念属性对比
我们用一个表格把两种计费模式的差异列得清清楚楚:
| 对比维度 | 按Token计费 | 按结果付费 |
|---|---|---|
| 风险承担方 | 用户 | 服务商 |
| 定价透明度 | 高(明码标价每千Token价格) | 中(结果判定标准需要提前约定) |
| 用户接受度 | 低(怕无效消耗) | 高(无效果不花钱) |
| 适合场景 | 低价值高成功率任务 | 高价值低容错任务 |
| 利润率波动 | 极小(和用量线性相关) | 大(和成功率强相关) |
| 竞争壁垒 | 低(拼价格战) | 高(拼Harness的成本控制和成功率) |
| 平均客单价 | 低 | 高(通常是按Token的3-10倍) |
核心概念实体关系图
AI Agent Harness 架构流程图
博弈本质与数学模型推导
很多创业者不敢做按结果付费,本质是没算清楚账:到底成功率到多少的时候,按结果付费比按Token更赚钱?我们用数学公式把这个账算得明明白白。
按Token计费的利润公式
按Token计费的收入完全和消耗的Token挂钩,和成功率无关,利润公式非常简单:
Ptoken=N∗k∗Pt−N∗k∗Ct−CfP_{token} = N * k * P_t - N * k * C_t - C_fPtoken=N∗k∗Pt−N∗k∗Ct−Cf
其中:
- PtokenP_{token}Ptoken:按Token计费的总利润
- NNN:总任务数
- kkk:单次任务平均消耗的Token数(单位:千)
- PtP_tPt:每千Token的售价
- CtC_tCt:每千Token的成本
- CfC_fCf:固定成本(研发、服务器、人员工资等)
举个例子:你做了一个聊天Agent,单次任务平均消耗10千Token(也就是1万Token),每千Token售价0.015元,成本0.01元,每月10万次任务,固定成本1万元。
那每月利润就是:100000∗10∗0.015−100000∗10∗0.01−10000=15000−10000−10000=−5000100000 * 10 * 0.015 - 100000 *10 *0.01 - 10000 = 15000 -10000 -10000 = -5000100000∗10∗0.015−100000∗10∗0.01−10000=15000−10000−10000=−5000元,也就是每个月亏5000块。
按结果付费的利润公式
按结果付费的收入只和成功的任务数挂钩,但是失败的任务也要消耗Token成本,还要考虑重试的成本,利润公式如下:
Poutcome=N∗S∗Po−N∗1S∗k∗Ct−CfP_{outcome} = N * S * P_o - N * \frac{1}{S} * k * C_t - C_fPoutcome=N∗S∗Po−N∗S1∗k∗Ct−Cf
其中:
- PoutcomeP_{outcome}Poutcome:按结果付费的总利润
- SSS:任务成功率
- PoP_oPo:单次成功任务的售价
- 1S\frac{1}{S}S1:完成单次成功任务的期望尝试次数(比如成功率80%,平均要尝试1.25次才能成功)
还是刚才的例子:现在改成按结果付费,单次成功任务售价1元,成功率80%,其他参数不变。
每月利润就是:100000∗0.8∗1−100000∗(1/0.8)∗10∗0.01−10000=80000−12500−10000=57500100000 * 0.8 * 1 - 100000 * (1/0.8) * 10 *0.01 - 10000 = 80000 - 12500 -10000 = 57500100000∗0.8∗1−100000∗(1/0.8)∗10∗0.01−10000=80000−12500−10000=57500元,每个月赚57500,比按Token的时候多赚62500元!
盈亏平衡临界点计算
很多人会问:那成功率低到多少的时候,按结果付费会比按Token更差?我们让两个利润相等,解出成功率的临界值:
Sbreak=Po+Po2+4∗Pt∗k∗Po2∗PoS_{break} = \frac{P_o + \sqrt{P_o^2 + 4 * P_t * k * P_o}}{2 * P_o}Sbreak=2∗PoPo+Po2+4∗Pt∗k∗Po
代入刚才的例子:Po=1P_o=1Po=1,Pt=0.015P_t=0.015Pt=0.015,k=10k=10k=10,算出来Sbreak=38%S_{break}=38\%Sbreak=38%,也就是只要你的任务成功率高于38%,按结果付费就比按Token更赚钱!
是不是非常反直觉?很多创业者以为按结果付费风险很高,但实际上只要成功率超过40%,就能比按Token赚更多的钱,而且客单价更高,用户粘性更强。
项目实战:计费模式仿真工具
我们做一个可直接运行的Python仿真工具,你可以调整自己的业务参数,直接看到两种模式的利润对比,找到自己的盈亏平衡点。
开发环境搭建
- 安装Python3.9+
- 安装依赖:
pip install streamlit pandas numpy
源代码实现
import pandas as pd
import numpy as np
import streamlit as st
# 核心利润计算函数
def calculate_profit(
token_per_task: int = 10, # 单次任务平均Token数(单位:千)
price_per_k_token: float = 0.015, # 每千Token售价(元)
cost_per_k_token: float = 0.01, # 每千Token成本(元)
price_per_outcome: float = 1.0, # 单次成功任务售价(元)
max_retry_times: int = 3, # 最大重试次数
fixed_cost: float = 10000, # 月固定成本(元)
month_task_count: int = 100000, # 月总任务数
success_rate: float = 0.8 # 单次任务成功率
) -> dict:
# 按Token计费利润计算
total_token = month_task_count * token_per_task
revenue_token = total_token * price_per_k_token
cost_token = total_token * cost_per_k_token
profit_token = revenue_token - cost_token - fixed_cost
# 按结果付费利润计算
# 考虑最大重试次数后的实际成功率
actual_success_rate = 1 - (1 - success_rate) ** (max_retry_times + 1)
# 单次成功任务的期望尝试次数
expected_attempts = sum([(i+1) * (success_rate * (1-success_rate)**i) for i in range(max_retry_times)]) + \
(max_retry_times + 1) * (1-success_rate)**max_retry_times
# 总成本
cost_outcome = month_task_count * expected_attempts * token_per_task * cost_per_k_token
# 总收入
revenue_outcome = month_task_count * actual_success_rate * price_per_outcome
# 利润
profit_outcome = revenue_outcome - cost_outcome - fixed_cost
# 计算盈亏平衡成功率
s = np.arange(0.1, 1.0, 0.001)
p_token = month_task_count * token_per_task * (price_per_k_token - cost_per_k_token) - fixed_cost
p_outcome = month_task_count * ( (1 - (1-s)**(max_retry_times+1)) * price_per_outcome - \
(sum([(i+1) * (s * (1-s)**i) for i in range(max_retry_times)]) + (max_retry_times+1)*(1-s)**max_retry_times) * token_per_task * cost_per_k_token ) - fixed_cost
break_point = s[np.argmin(np.abs(p_outcome - p_token))]
return {
"按Token计费月利润": round(profit_token, 2),
"按结果付费月利润": round(profit_outcome, 2),
"实际成功率(含重试)": round(actual_success_rate * 100, 2),
"盈亏平衡成功率": round(break_point * 100, 2),
"单次任务Token收入": round(revenue_token / month_task_count, 4),
"单次成功结果收入": round(revenue_outcome / (month_task_count * actual_success_rate), 4) if actual_success_rate > 0 else 0
}
# 可视化界面
st.set_page_config(page_title="AI Agent 计费模式仿真工具", layout="wide")
st.title("🤖 AI Agent Harness 计费模式仿真工具")
st.markdown("调整左侧参数,实时查看两种计费模式的利润对比,找到你的盈亏平衡点")
# 侧边栏参数配置
with st.sidebar:
st.header("⚙️ 业务参数配置")
token_per_task = st.slider("单次任务平均Token数(千)", min_value=1, max_value=100, value=10)
price_per_k_token = st.slider("每千Token售价(元)", min_value=0.001, max_value=0.1, value=0.015, step=0.001)
cost_per_k_token = st.slider("每千Token成本(元)", min_value=0.0005, max_value=0.05, value=0.01, step=0.0005)
price_per_outcome = st.slider("单次成功任务售价(元)", min_value=0.1, max_value=100.0, value=1.0, step=0.1)
success_rate = st.slider("单次任务成功率", min_value=0.1, max_value=1.0, value=0.8, step=0.05)
max_retry_times = st.slider("最大重试次数", min_value=0, max_value=10, value=3)
month_task_count = st.number_input("月总任务数", min_value=1000, max_value=1000000, value=100000, step=10000)
fixed_cost = st.number_input("月固定成本(元)", min_value=1000, max_value=1000000, value=10000, step=1000)
# 计算结果
result = calculate_profit(
token_per_task=token_per_task,
price_per_k_token=price_per_k_token,
cost_per_k_token=cost_per_k_token,
price_per_outcome=price_per_outcome,
max_retry_times=max_retry_times,
fixed_cost=fixed_cost,
month_task_count=month_task_count,
success_rate=success_rate
)
# 展示核心指标
st.subheader("📊 核心指标对比")
col1, col2, col3, col4 = st.columns(4)
col1.metric("按Token计费月利润", f"¥{result['按Token计费月利润']:,}", delta_color="normal")
col2.metric("按结果付费月利润", f"¥{result['按结果付费月利润']:,}", delta=f"¥{result['按结果付费月利润'] - result['按Token计费月利润']:,} 相比按Token")
col3.metric("实际成功率(含重试)", f"{result['实际成功率(含重试)']}%")
col4.metric("盈亏平衡成功率", f"{result['盈亏平衡成功率']}%")
# 不同成功率下的利润曲线
st.subheader("📈 不同成功率下的利润对比")
success_rates = np.arange(0.1, 1.0, 0.05)
profits_token = []
profits_outcome = []
for s in success_rates:
res = calculate_profit(success_rate=s, month_task_count=month_task_count, fixed_cost=fixed_cost, max_retry_times=max_retry_times)
profits_token.append(res['按Token计费月利润'])
profits_outcome.append(res['按结果付费月利润'])
df = pd.DataFrame({
"成功率": success_rates * 100,
"按Token计费利润": profits_token,
"按结果付费利润": profits_outcome
})
st.line_chart(df, x="成功率", y=["按Token计费利润", "按结果付费利润"], use_container_width=True)
# 最佳实践建议
st.subheader("💡 定价建议")
if result['按结果付费月利润'] > result['按Token计费月利润']:
st.success(f"✅ 当前参数下建议优先选择按结果付费,比按Token每月多赚¥{result['按结果付费月利润'] - result['按Token计费月利润']:,}")
st.info("💡 建议优化Harness的重试逻辑和结果核验能力,进一步提升成功率,降低成本")
else:
st.warning(f"⚠️ 当前参数下按结果付费利润低于按Token,建议先优化Harness能力:1. 用动态路由降低Token成本;2. 提升任务成功率到{result['盈亏平衡成功率']}%以上再考虑按结果付费")
运行方式
把代码保存为agent_pricing.py,运行streamlit run agent_pricing.py,就可以在浏览器里打开可视化界面,调整参数看结果。
实际应用场景与行业案例
我们结合三个真实的行业场景,看看不同的公司是怎么选择计费模式的:
场景1:ToC智能聊天机器人
核心特征:任务简单,成功率95%以上,客单价低,用户对价格敏感
定价选择:按Token计费为主,搭配免费额度
案例:某AI聊天APP,每千Token售价0.012元,每天给用户免费1万Token,超过的部分收费。因为成功率极高,几乎没有无效消耗,用户接受度很高,每月流水超过2000万,利润率30%以上。
场景2:ToB智能招聘Agent
核心特征:任务价值高,客单价高,用户对结果敏感,成功率70%左右
定价选择:混合模式+按结果付费为主
案例:某做AI简历筛选的公司,一开始按Token收费,每个企业客户每月平均付2000元,客户抱怨“花了钱没招到合适的人”,满意度只有30%。后来改成按成功入职的候选人收费,每个成功入职的收2000元,先收10%的基础服务费(相当于覆盖基础Token成本),入职成功再收剩下的90%。改完之后客户满意度涨到92%,客单价翻了10倍,每月收入翻了5倍,利润率稳定在40%以上。
场景3:ToB法律合同审查Agent
核心特征:任务价值极高,容错率为0,成功率要求100%,客单价极高
定价选择:纯按结果付费
案例:某做AI合同审查的公司,审查一份100页的融资合同收5000元,保证审查出的风险点准确率100%,遗漏的话赔偿合同金额的1%。他们的Harness层做了3层核验:先用小模型初审,再用GPT-4复审,最后人工抽验,成功率100%,单份合同的Token成本只有50元,利润率高达99%,现在已经服务了超过300家上市公司。
最佳实践Tips
结合我们服务过的50+AI Agent创业公司的经验,给大家几个可直接落地的建议:
- 初期优先选混合模式:先收10%-20%的基础Token费用,成功后再收剩下的增值费,双方都承担一部分风险,用户容易接受,服务商也不会亏太多。
- 结果判定标准一定要书面化:把“什么是任务完成”写得清清楚楚,比如“财报分析需要包含营收、利润、增长率3个核心指标的同比环比分析,数据误差不超过5%”,避免后期扯皮。
- 加任务可行性预审:对于明显不可能完成的任务(比如“写一篇符合诺贝尔奖水平的10万字小说”)直接拒绝,避免无效的Token消耗。
- 用Harness的动态路由降成本:简单任务用便宜的小模型(比如Qwen-7B,成本只有GPT-4的1%),复杂任务用大模型,平均Token成本可以降70%以上。
- 给用户开放可观测性:把每一步的Token消耗、任务进度、核验结果展示给用户,哪怕按Token收费,用户也知道你没有乱花他的钱,接受度会高很多。
未来发展趋势与挑战
行业发展历程与趋势
我们整理了2022年到2030年AI Agent计费模式的演变趋势:
| 时间区间 | 主流计费模式 | 核心驱动因素 | 占比 |
|---|---|---|---|
| 2022-2023年 | 按Token计费 | Agent技术不成熟,成功率低,服务商不敢担风险 | 90% |
| 2024-2026年 | 混合模式 | Harness技术成熟,成功率稳定在70%以上,用户对按结果付费接受度提升 | 60% |
| 2027-2030年 | 按结果付费为主 | 结果核验大模型成熟,判定标准统一,成功率稳定在95%以上 | 75% |
未来挑战
- 结果判定标准的统一:现在不同用户对“好的结果”定义不一样,未来会出现通用的结果核验大模型,自动判断任务是否达标,准确率99%以上,不需要人工扯皮。
- 恶意薅羊毛的防范:有用户故意提不可能完成的任务,消耗服务商的Token成本,未来Harness会内置任务风险评估模型,提前识别恶意请求。
- 成本的透明化:用户现在觉得按结果付费的价格太高,未来Harness会给用户展示成本构成,让用户知道“你付的10块钱里,2块是Token成本,3块是技术服务费,5块是风险承担费”,提升定价透明度。
总结:学到了什么?
核心概念回顾
- AI Agent Harness:是Agent的调度中枢,直接决定Token成本和任务成功率,是商业化的核心竞争力。
- 按Token计费:按用量收费,风险在用户,适合低价值高成功率的场景。
- 按结果付费:按效果收费,风险在服务商,适合高价值低容错的场景,利润空间是按Token的3-10倍。
核心结论回顾
- 按结果付费的门槛远没有大家想的那么高,只要成功率超过40%,通常就比按Token更赚钱。
- 没有绝对好的计费模式,核心看你的Harness能力能不能支撑风险承担。
- 混合模式是现阶段的最优解,兼顾用户接受度和服务商的风险控制。
思考题:动动小脑筋
- 如果你是做简历优化Agent的创业者,单次任务平均消耗1万Token,每千Token成本0.01元,成功率70%,优化后的简历通过率比原来高30%,客单价10元,你会怎么设计定价模式?
- 如果你是企业的AI采购负责人,要采购一个客户服务Agent,每个月大概10万次会话,成功率要求90%,你更愿意选按Token还是按结果付费?为什么?
附录:常见问题与解答
Q1:按结果付费会不会让服务商偷工减料,用最差的模型凑结果?
A:不会,因为结果核验环节会卡死质量,而且现在Harness可以做到成本和质量的平衡,选性价比最高的模型,既保证结果达标,又控制成本。
Q2:按Token计费有没有办法避免服务商乱花Token?
A:有,现在LangSmith、LLM Monitor等可观测性工具可以展示每一步的Token消耗,用户可以审计,发现异常消耗可以申请退款。
Q3:小团队没有很强的Harness能力,是不是就不能做按结果付费?
A:不是,你可以选择客单价足够高的场景,比如一份专利申请收5000元,哪怕成功率只有20%,成本也只有100元,还是赚的。
扩展阅读 & 参考资料
- a16z《2024年AI Agent商业化白皮书》
- OpenAI《企业级Agent定价指南》
- LangChain《Harness成本优化最佳实践》
- 麦肯锡《AI落地的ROI测算模型》
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)