AI Agent Harness Engineering 的商业化困局:按 Token 计费与按结果付费的博弈

关键词:AI Agent Harness、LLM商业化、按Token计费、按结果付费、大模型成本控制、Agent落地、SaaS定价模型

摘要:2024年AI Agent被公认为下一代AI交互的核心入口,国内Agent相关融资规模已突破300亿,但90%的Agent服务商都卡在商业化定价环节:要么按Token计费被用户吐槽“无效消耗也要付钱”,要么按结果付费自身承担过高的失败风险导致亏损。本文将从核心概念拆解、博弈本质分析、数学模型推导、实战仿真、行业案例等维度,彻底讲透两种计费模式的优劣势、适用场景、盈亏平衡点,以及混合模式的最佳实践,为AI从业者提供可落地的商业化定价方案。


背景介绍

目的和范围

你有没有过这样的经历:用AI写一份活动方案,前前后后改了10次,花了几万Token,最后出来的结果还是不能用,钱却已经扣了?或者你是AI创业者,做了一个合同审查Agent,按结果收费的话,遇到故意刁难的用户反复要求修改,成本直接翻倍,按Token收费又没人愿意买?
本文的核心目的就是破解这个困局:我们会拆解AI Agent Harness(Agent调度控制层)的核心价值,推导两种计费模式的利润公式,找到盈亏平衡的临界点,给出不同场景下的定价最佳实践。本文不涉及复杂的底层模型训练,只讲所有AI从业者都能直接用的商业化定价逻辑。

预期读者

AI创业者、LLM产品经理、Agent开发者、SaaS运营负责人、企业AI采购决策者

文档结构概述

我们会先从一个生活小故事引出核心概念,再拆解两种计费模式的博弈本质,通过数学公式算清楚赚不赚钱,然后给一个可直接运行的仿真工具,最后结合行业案例给出落地建议。

术语表

核心术语定义
  1. AI Agent Harness Engineering:Agent的“后台调度指挥系统”,负责任务拆分、模型路由、工具调用、容错重试、结果核验的整套技术体系,相当于演唱会的总导演组,协调歌手、灯光、音响、道具,保证演出顺利完成。
  2. 按Token计费:按照大模型处理的字符数(1Token约等于0.7个汉字)收费,相当于买水按升算,用多少付多少,不管你买的水有没有喝完、有没有撒掉。
  3. 按结果付费:只有Agent完成了用户约定的任务目标(比如整理完符合要求的财报、订到符合条件的机票、写的文案通过率达标)才收费,没达到要求不收费,相当于点外卖,收到完好的热饭才付钱,撒了冷了直接退款。
相关概念解释
  1. 任务成功率:Agent完成用户需求的比例,100个任务里有80个符合要求,成功率就是80%。
  2. Token消耗率:完成单个任务平均消耗的Token数量,直接决定服务商的底层成本。
缩略词列表
  • LLM:大语言模型
  • SaaS:软件即服务
  • ROI:投资回报率

核心概念与联系

故事引入

我们先讲一个大家都能懂的小故事:
你在学校门口开了一个代取快递的小店,招聘了几个兼职跑腿的学生。现在有两种收费方式:
A方案:按步数收费,走1步收1分钱,哪怕跑腿的同学走了1万步最后快递丢了,客户也要付100块钱。
B方案:按拿到快递收费,客户拿到完好的快递才付5块钱,没拿到或者快递坏了一分钱不收。
如果你是店主,你选哪个?如果你是客户,你选哪个?
这就是现在整个AI Agent行业面临的真实困境:兼职跑腿的学生就是大模型,步数就是Token,拿到快递就是完成任务。A方案就是按Token计费,B方案就是按结果付费。

核心概念解释(像给小学生讲故事一样)

核心概念一:AI Agent Harness

就相当于代取快递店的调度系统:它会先问清楚客户的快递在哪、有没有时效要求、要不要上楼,然后给跑腿的同学规划最短路线,提醒不要丢件,快递拿回来之后先检查有没有破损,没问题再给客户,要是丢了立刻安排人重新去取。
Harness的能力直接决定了两个核心指标:一是跑腿的同学走的步数(Token消耗),二是客户拿到完好快递的概率(任务成功率)。

核心概念二:按Token计费

就像按跑腿的步数收费:店主完全不用担风险,走多少步收多少钱,哪怕快递丢了也不亏。但客户会非常不爽:我花了钱最后没拿到快递,凭什么要付钱?而且你会不会故意绕远路多走步数赚我钱?

核心概念三:按结果付费

就像按拿到快递收费:客户非常开心,没拿到快递一分钱不花,也不怕你绕路。但店主风险就大了:要是快递点太远,或者经常丢件,跑腿的同学跑了十次才拿到,成本都要20块了,才收5块钱,直接亏到姥姥家。

核心概念之间的关系(用小学生能理解的比喻)

Harness、按Token计费、按结果付费三个概念就像铁三角:

  • Harness和按Token计费的关系:Harness相当于调度系统,要尽量给跑腿的同学规划最短路线,少走冤枉路,降低Token消耗成本,按Token计费的利润才会高。
  • Harness和按结果付费的关系:Harness要尽量保证快递不丢不损,提高任务成功率,这样按结果付费的时候才不用反复跑,成本可控。
  • 按Token和按结果付费的关系:就是成本和风险的博弈:按Token风险在客户,按结果风险在服务商,两者没有绝对的好坏,核心看Harness能不能把Token成本降下来、把成功率提上去。

核心概念属性对比

我们用一个表格把两种计费模式的差异列得清清楚楚:

对比维度 按Token计费 按结果付费
风险承担方 用户 服务商
定价透明度 高(明码标价每千Token价格) 中(结果判定标准需要提前约定)
用户接受度 低(怕无效消耗) 高(无效果不花钱)
适合场景 低价值高成功率任务 高价值低容错任务
利润率波动 极小(和用量线性相关) 大(和成功率强相关)
竞争壁垒 低(拼价格战) 高(拼Harness的成本控制和成功率)
平均客单价 高(通常是按Token的3-10倍)

核心概念实体关系图

优化Token消耗

提升任务成功率

成本收入博弈

AI_Agent_Harness

int

任务拆分能力

int

路由优化能力

int

容错重试能力

int

结果核验能力

按Token计费

float

每千Token售价

float

每千Token成本

float

固定成本

按结果付费

float

单次成功售价

float

任务成功率

float

重试成本

AI Agent Harness 架构流程图

用户任务

Harness层

任务拆分

路由调度

工具调用

容错重试

结果核验

大模型集群

工具API

知识库

成本统计模块

结果校验模块

按Token计费

按结果付费


博弈本质与数学模型推导

很多创业者不敢做按结果付费,本质是没算清楚账:到底成功率到多少的时候,按结果付费比按Token更赚钱?我们用数学公式把这个账算得明明白白。

按Token计费的利润公式

按Token计费的收入完全和消耗的Token挂钩,和成功率无关,利润公式非常简单:
Ptoken=N∗k∗Pt−N∗k∗Ct−CfP_{token} = N * k * P_t - N * k * C_t - C_fPtoken=NkPtNkCtCf
其中:

  • PtokenP_{token}Ptoken:按Token计费的总利润
  • NNN:总任务数
  • kkk:单次任务平均消耗的Token数(单位:千)
  • PtP_tPt:每千Token的售价
  • CtC_tCt:每千Token的成本
  • CfC_fCf:固定成本(研发、服务器、人员工资等)
    举个例子:你做了一个聊天Agent,单次任务平均消耗10千Token(也就是1万Token),每千Token售价0.015元,成本0.01元,每月10万次任务,固定成本1万元。
    那每月利润就是:100000∗10∗0.015−100000∗10∗0.01−10000=15000−10000−10000=−5000100000 * 10 * 0.015 - 100000 *10 *0.01 - 10000 = 15000 -10000 -10000 = -5000100000100.015100000100.0110000=150001000010000=5000元,也就是每个月亏5000块。

按结果付费的利润公式

按结果付费的收入只和成功的任务数挂钩,但是失败的任务也要消耗Token成本,还要考虑重试的成本,利润公式如下:
Poutcome=N∗S∗Po−N∗1S∗k∗Ct−CfP_{outcome} = N * S * P_o - N * \frac{1}{S} * k * C_t - C_fPoutcome=NSPoNS1kCtCf
其中:

  • PoutcomeP_{outcome}Poutcome:按结果付费的总利润
  • SSS:任务成功率
  • PoP_oPo:单次成功任务的售价
  • 1S\frac{1}{S}S1:完成单次成功任务的期望尝试次数(比如成功率80%,平均要尝试1.25次才能成功)
    还是刚才的例子:现在改成按结果付费,单次成功任务售价1元,成功率80%,其他参数不变。
    每月利润就是:100000∗0.8∗1−100000∗(1/0.8)∗10∗0.01−10000=80000−12500−10000=57500100000 * 0.8 * 1 - 100000 * (1/0.8) * 10 *0.01 - 10000 = 80000 - 12500 -10000 = 575001000000.81100000(1/0.8)100.0110000=800001250010000=57500元,每个月赚57500,比按Token的时候多赚62500元!

盈亏平衡临界点计算

很多人会问:那成功率低到多少的时候,按结果付费会比按Token更差?我们让两个利润相等,解出成功率的临界值:
Sbreak=Po+Po2+4∗Pt∗k∗Po2∗PoS_{break} = \frac{P_o + \sqrt{P_o^2 + 4 * P_t * k * P_o}}{2 * P_o}Sbreak=2PoPo+Po2+4PtkPo
代入刚才的例子:Po=1P_o=1Po=1Pt=0.015P_t=0.015Pt=0.015k=10k=10k=10,算出来Sbreak=38%S_{break}=38\%Sbreak=38%,也就是只要你的任务成功率高于38%,按结果付费就比按Token更赚钱!
是不是非常反直觉?很多创业者以为按结果付费风险很高,但实际上只要成功率超过40%,就能比按Token赚更多的钱,而且客单价更高,用户粘性更强。

项目实战:计费模式仿真工具

我们做一个可直接运行的Python仿真工具,你可以调整自己的业务参数,直接看到两种模式的利润对比,找到自己的盈亏平衡点。

开发环境搭建

  1. 安装Python3.9+
  2. 安装依赖:pip install streamlit pandas numpy

源代码实现

import pandas as pd
import numpy as np
import streamlit as st

# 核心利润计算函数
def calculate_profit(
    token_per_task: int = 10,  # 单次任务平均Token数(单位:千)
    price_per_k_token: float = 0.015,  # 每千Token售价(元)
    cost_per_k_token: float = 0.01,  # 每千Token成本(元)
    price_per_outcome: float = 1.0,  # 单次成功任务售价(元)
    max_retry_times: int = 3,  # 最大重试次数
    fixed_cost: float = 10000,  # 月固定成本(元)
    month_task_count: int = 100000,  # 月总任务数
    success_rate: float = 0.8  # 单次任务成功率
) -> dict:
    # 按Token计费利润计算
    total_token = month_task_count * token_per_task
    revenue_token = total_token * price_per_k_token
    cost_token = total_token * cost_per_k_token
    profit_token = revenue_token - cost_token - fixed_cost

    # 按结果付费利润计算
    # 考虑最大重试次数后的实际成功率
    actual_success_rate = 1 - (1 - success_rate) ** (max_retry_times + 1)
    # 单次成功任务的期望尝试次数
    expected_attempts = sum([(i+1) * (success_rate * (1-success_rate)**i) for i in range(max_retry_times)]) + \
                        (max_retry_times + 1) * (1-success_rate)**max_retry_times
    # 总成本
    cost_outcome = month_task_count * expected_attempts * token_per_task * cost_per_k_token
    # 总收入
    revenue_outcome = month_task_count * actual_success_rate * price_per_outcome
    # 利润
    profit_outcome = revenue_outcome - cost_outcome - fixed_cost

    # 计算盈亏平衡成功率
    s = np.arange(0.1, 1.0, 0.001)
    p_token = month_task_count * token_per_task * (price_per_k_token - cost_per_k_token) - fixed_cost
    p_outcome = month_task_count * ( (1 - (1-s)**(max_retry_times+1)) * price_per_outcome - \
                (sum([(i+1) * (s * (1-s)**i) for i in range(max_retry_times)]) + (max_retry_times+1)*(1-s)**max_retry_times) * token_per_task * cost_per_k_token ) - fixed_cost
    break_point = s[np.argmin(np.abs(p_outcome - p_token))]

    return {
        "按Token计费月利润": round(profit_token, 2),
        "按结果付费月利润": round(profit_outcome, 2),
        "实际成功率(含重试)": round(actual_success_rate * 100, 2),
        "盈亏平衡成功率": round(break_point * 100, 2),
        "单次任务Token收入": round(revenue_token / month_task_count, 4),
        "单次成功结果收入": round(revenue_outcome / (month_task_count * actual_success_rate), 4) if actual_success_rate > 0 else 0
    }

# 可视化界面
st.set_page_config(page_title="AI Agent 计费模式仿真工具", layout="wide")
st.title("🤖 AI Agent Harness 计费模式仿真工具")
st.markdown("调整左侧参数,实时查看两种计费模式的利润对比,找到你的盈亏平衡点")

# 侧边栏参数配置
with st.sidebar:
    st.header("⚙️ 业务参数配置")
    token_per_task = st.slider("单次任务平均Token数(千)", min_value=1, max_value=100, value=10)
    price_per_k_token = st.slider("每千Token售价(元)", min_value=0.001, max_value=0.1, value=0.015, step=0.001)
    cost_per_k_token = st.slider("每千Token成本(元)", min_value=0.0005, max_value=0.05, value=0.01, step=0.0005)
    price_per_outcome = st.slider("单次成功任务售价(元)", min_value=0.1, max_value=100.0, value=1.0, step=0.1)
    success_rate = st.slider("单次任务成功率", min_value=0.1, max_value=1.0, value=0.8, step=0.05)
    max_retry_times = st.slider("最大重试次数", min_value=0, max_value=10, value=3)
    month_task_count = st.number_input("月总任务数", min_value=1000, max_value=1000000, value=100000, step=10000)
    fixed_cost = st.number_input("月固定成本(元)", min_value=1000, max_value=1000000, value=10000, step=1000)

# 计算结果
result = calculate_profit(
    token_per_task=token_per_task,
    price_per_k_token=price_per_k_token,
    cost_per_k_token=cost_per_k_token,
    price_per_outcome=price_per_outcome,
    max_retry_times=max_retry_times,
    fixed_cost=fixed_cost,
    month_task_count=month_task_count,
    success_rate=success_rate
)

# 展示核心指标
st.subheader("📊 核心指标对比")
col1, col2, col3, col4 = st.columns(4)
col1.metric("按Token计费月利润", f"¥{result['按Token计费月利润']:,}", delta_color="normal")
col2.metric("按结果付费月利润", f"¥{result['按结果付费月利润']:,}", delta=f"¥{result['按结果付费月利润'] - result['按Token计费月利润']:,} 相比按Token")
col3.metric("实际成功率(含重试)", f"{result['实际成功率(含重试)']}%")
col4.metric("盈亏平衡成功率", f"{result['盈亏平衡成功率']}%")

# 不同成功率下的利润曲线
st.subheader("📈 不同成功率下的利润对比")
success_rates = np.arange(0.1, 1.0, 0.05)
profits_token = []
profits_outcome = []
for s in success_rates:
    res = calculate_profit(success_rate=s, month_task_count=month_task_count, fixed_cost=fixed_cost, max_retry_times=max_retry_times)
    profits_token.append(res['按Token计费月利润'])
    profits_outcome.append(res['按结果付费月利润'])

df = pd.DataFrame({
    "成功率": success_rates * 100,
    "按Token计费利润": profits_token,
    "按结果付费利润": profits_outcome
})
st.line_chart(df, x="成功率", y=["按Token计费利润", "按结果付费利润"], use_container_width=True)

# 最佳实践建议
st.subheader("💡 定价建议")
if result['按结果付费月利润'] > result['按Token计费月利润']:
    st.success(f"✅ 当前参数下建议优先选择按结果付费,比按Token每月多赚¥{result['按结果付费月利润'] - result['按Token计费月利润']:,}")
    st.info("💡 建议优化Harness的重试逻辑和结果核验能力,进一步提升成功率,降低成本")
else:
    st.warning(f"⚠️ 当前参数下按结果付费利润低于按Token,建议先优化Harness能力:1. 用动态路由降低Token成本;2. 提升任务成功率到{result['盈亏平衡成功率']}%以上再考虑按结果付费")

运行方式

把代码保存为agent_pricing.py,运行streamlit run agent_pricing.py,就可以在浏览器里打开可视化界面,调整参数看结果。

实际应用场景与行业案例

我们结合三个真实的行业场景,看看不同的公司是怎么选择计费模式的:

场景1:ToC智能聊天机器人

核心特征:任务简单,成功率95%以上,客单价低,用户对价格敏感
定价选择:按Token计费为主,搭配免费额度
案例:某AI聊天APP,每千Token售价0.012元,每天给用户免费1万Token,超过的部分收费。因为成功率极高,几乎没有无效消耗,用户接受度很高,每月流水超过2000万,利润率30%以上。

场景2:ToB智能招聘Agent

核心特征:任务价值高,客单价高,用户对结果敏感,成功率70%左右
定价选择:混合模式+按结果付费为主
案例:某做AI简历筛选的公司,一开始按Token收费,每个企业客户每月平均付2000元,客户抱怨“花了钱没招到合适的人”,满意度只有30%。后来改成按成功入职的候选人收费,每个成功入职的收2000元,先收10%的基础服务费(相当于覆盖基础Token成本),入职成功再收剩下的90%。改完之后客户满意度涨到92%,客单价翻了10倍,每月收入翻了5倍,利润率稳定在40%以上。

场景3:ToB法律合同审查Agent

核心特征:任务价值极高,容错率为0,成功率要求100%,客单价极高
定价选择:纯按结果付费
案例:某做AI合同审查的公司,审查一份100页的融资合同收5000元,保证审查出的风险点准确率100%,遗漏的话赔偿合同金额的1%。他们的Harness层做了3层核验:先用小模型初审,再用GPT-4复审,最后人工抽验,成功率100%,单份合同的Token成本只有50元,利润率高达99%,现在已经服务了超过300家上市公司。

最佳实践Tips

结合我们服务过的50+AI Agent创业公司的经验,给大家几个可直接落地的建议:

  1. 初期优先选混合模式:先收10%-20%的基础Token费用,成功后再收剩下的增值费,双方都承担一部分风险,用户容易接受,服务商也不会亏太多。
  2. 结果判定标准一定要书面化:把“什么是任务完成”写得清清楚楚,比如“财报分析需要包含营收、利润、增长率3个核心指标的同比环比分析,数据误差不超过5%”,避免后期扯皮。
  3. 加任务可行性预审:对于明显不可能完成的任务(比如“写一篇符合诺贝尔奖水平的10万字小说”)直接拒绝,避免无效的Token消耗。
  4. 用Harness的动态路由降成本:简单任务用便宜的小模型(比如Qwen-7B,成本只有GPT-4的1%),复杂任务用大模型,平均Token成本可以降70%以上。
  5. 给用户开放可观测性:把每一步的Token消耗、任务进度、核验结果展示给用户,哪怕按Token收费,用户也知道你没有乱花他的钱,接受度会高很多。

未来发展趋势与挑战

行业发展历程与趋势

我们整理了2022年到2030年AI Agent计费模式的演变趋势:

时间区间 主流计费模式 核心驱动因素 占比
2022-2023年 按Token计费 Agent技术不成熟,成功率低,服务商不敢担风险 90%
2024-2026年 混合模式 Harness技术成熟,成功率稳定在70%以上,用户对按结果付费接受度提升 60%
2027-2030年 按结果付费为主 结果核验大模型成熟,判定标准统一,成功率稳定在95%以上 75%

未来挑战

  1. 结果判定标准的统一:现在不同用户对“好的结果”定义不一样,未来会出现通用的结果核验大模型,自动判断任务是否达标,准确率99%以上,不需要人工扯皮。
  2. 恶意薅羊毛的防范:有用户故意提不可能完成的任务,消耗服务商的Token成本,未来Harness会内置任务风险评估模型,提前识别恶意请求。
  3. 成本的透明化:用户现在觉得按结果付费的价格太高,未来Harness会给用户展示成本构成,让用户知道“你付的10块钱里,2块是Token成本,3块是技术服务费,5块是风险承担费”,提升定价透明度。

总结:学到了什么?

核心概念回顾

  1. AI Agent Harness:是Agent的调度中枢,直接决定Token成本和任务成功率,是商业化的核心竞争力。
  2. 按Token计费:按用量收费,风险在用户,适合低价值高成功率的场景。
  3. 按结果付费:按效果收费,风险在服务商,适合高价值低容错的场景,利润空间是按Token的3-10倍。

核心结论回顾

  1. 按结果付费的门槛远没有大家想的那么高,只要成功率超过40%,通常就比按Token更赚钱。
  2. 没有绝对好的计费模式,核心看你的Harness能力能不能支撑风险承担。
  3. 混合模式是现阶段的最优解,兼顾用户接受度和服务商的风险控制。

思考题:动动小脑筋

  1. 如果你是做简历优化Agent的创业者,单次任务平均消耗1万Token,每千Token成本0.01元,成功率70%,优化后的简历通过率比原来高30%,客单价10元,你会怎么设计定价模式?
  2. 如果你是企业的AI采购负责人,要采购一个客户服务Agent,每个月大概10万次会话,成功率要求90%,你更愿意选按Token还是按结果付费?为什么?

附录:常见问题与解答

Q1:按结果付费会不会让服务商偷工减料,用最差的模型凑结果?
A:不会,因为结果核验环节会卡死质量,而且现在Harness可以做到成本和质量的平衡,选性价比最高的模型,既保证结果达标,又控制成本。
Q2:按Token计费有没有办法避免服务商乱花Token?
A:有,现在LangSmith、LLM Monitor等可观测性工具可以展示每一步的Token消耗,用户可以审计,发现异常消耗可以申请退款。
Q3:小团队没有很强的Harness能力,是不是就不能做按结果付费?
A:不是,你可以选择客单价足够高的场景,比如一份专利申请收5000元,哪怕成功率只有20%,成本也只有100元,还是赚的。

扩展阅读 & 参考资料

  1. a16z《2024年AI Agent商业化白皮书》
  2. OpenAI《企业级Agent定价指南》
  3. LangChain《Harness成本优化最佳实践》
  4. 麦肯锡《AI落地的ROI测算模型》
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐