API 中转站扣费透明怎么判断?看 usage、prompt_tokens、completion_tokens 和缓存字段
很多人选 API 中转站,第一眼只看价格。
比如:
这个站好便宜
那个站倍率低
这个模型只要几折
但我现在更建议你先看另一个东西:
扣费透明度。
因为 API 中转站便宜不便宜,不是只看价格表。
你还要看每次请求到底消耗了多少 token、有没有返回 usage、缓存有没有证据、扣费能不能对上。
1. 什么是 usage 字段?
正常的 OpenAI-compatible API 返回里,一般会有 usage 字段。
大概长这样:
"usage": {
"prompt_tokens": 100,
"completion_tokens": 50,
"total_tokens": 150
}
这几个字段很好理解:
prompt_tokens:你发过去的内容消耗
completion_tokens:模型回复消耗
total_tokens:总消耗
如果你是开发者,这个字段非常重要。
因为它是你判断成本的基础。
2. 没有 usage 字段有什么问题?
没有 usage,不代表一定不能用。
但问题是:
你很难判断一次请求到底扣了多少。
尤其是用 API 中转站的时候,如果没有 usage,你只能看后台余额变化。
这就会带来几个麻烦:
- 不知道 prompt 消耗多少
- 不知道回复消耗多少
- 不知道扣费是否和 token 对得上
- 不知道缓存有没有生效
- 不方便排查异常消耗
- 不方便做自己的成本统计
所以我一般会把 usage 字段看作“扣费透明度”的基础指标。
3. prompt_tokens 和 completion_tokens 分别看什么?
prompt_tokens
这个代表你输入的内容消耗。
比如你给模型发了一大段代码、一篇文档、一个很长的上下文,prompt_tokens 就会变多。
如果你在 Cursor、Cline 里用 API,prompt_tokens 往往不低。
因为开发工具会把代码上下文、文件片段、历史对话都塞进去。
completion_tokens
这个代表模型输出消耗。
比如模型回复越长,completion_tokens 越高。
如果你让模型生成代码、写方案、改文件,completion_tokens 也会明显增加。
total_tokens
这个就是总消耗。
一般是:
prompt_tokens + completion_tokens = total_tokens
如果一个平台连 total_tokens 都不返回,那你就很难做精确判断。
4. 为什么缓存字段也重要?
现在很多模型或网关会有缓存机制。
缓存命中后,理论上成本可能更低,速度也可能更快。
常见相关字段可能包括:
cached_tokens
cache_hit
prompt_tokens_details
不同平台字段不一定一样。
但核心逻辑是:
如果平台说自己支持缓存优惠,最好能在接口返回里看到缓存命中信号。
否则你不知道它到底有没有命中,也不知道扣费是否按缓存价格走。
5. raw quota 是什么?
有些 API 中转站会显示 raw quota 或原始额度信息。
这个对高级用户比较有用。
因为它可能帮助你判断:
- 实际消耗是否和账单一致
- 平台换算倍率是否清楚
- 不同模型扣费是否可追踪
- 请求有没有异常消耗
普通用户不一定每天看 raw quota,但如果你要长期用,最好能看到。
6. 扣费透明,不等于一定便宜
这个点很重要。
有的平台价格看起来不是最低,但 usage 清楚、扣费规则清楚、稳定性好。
有的平台价格看起来很便宜,但 usage 不返回,扣费明细也模糊。
对我来说,长期使用更看重:
能不能解释每一次扣费
而不是只看首页写了几折。
尤其是你接 Cursor / Cline / Continue 这种工具,token 消耗会比较快。
如果扣费不透明,用几天你可能都不知道钱花在哪里。
7. 怎么快速判断一个中转站扣费是否透明?
我建议看 5 个点:
第一,有没有 usage 字段
这是基础。
没有 usage,扣费透明度直接打折。
第二,usage 是否完整
至少要有:
prompt_tokens
completion_tokens
total_tokens
第三,有没有缓存命中信号
比如:
cached_tokens
cache hit
prompt_tokens_details
字段名不一定完全一致,但最好能看到相关证据。
第四,后台账单能不能对上
接口返回的 token 消耗,最好能和后台扣费记录大致对上。
第五,异常请求有没有说明
比如请求失败时,到底扣不扣费?
timeout 算不算?
上游报错算不算?
这些规则最好提前搞清楚。
8. 用 AI API Doctor 看 usage 和扣费透明度
我做的 AI API Doctor 里,也把 usage 字段作为一个检查点。
它会帮你看:
- 是否返回 usage
- prompt_tokens 是否存在
- completion_tokens 是否存在
- total_tokens 是否存在
- 是否能看到缓存命中信号
- 返回格式是否适合 OpenAI-compatible 客户端
- 稳定性采样是否正常
它不会告诉你“这个平台一定便宜”,但可以帮你判断:
这个 API 返回的信息够不够透明。
9. 注意:usage 不是唯一指标
也别误会。
有 usage 不代表这个平台一定好。
你还要看:
稳定性
模型权限
返回速度
错误率
tool_calls 兼容性
function_call 兼容性
售后响应
充值和退款规则
usage 只是扣费透明的第一步。
但如果第一步都没有,那就要谨慎一点。
API 中转站扣费透明,核心不是看老板怎么说,而是看接口返回了什么。
重点看:
usage
prompt_tokens
completion_tokens
total_tokens
cached_tokens
raw quota
后台扣费记录
如果你只是临时测试,可能影响不大。
但如果你要长期接 Cursor、Cline、Continue、Claude Code,扣费透明度就非常重要。
一句话:
价格便宜只是入口,usage 清楚才是长期使用的底气。
开源地址:https://github.com/JustinXai/ai-api-doctor-site
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)