API 中转站扣费透明怎么判断？看 usage、prompt_tokens、completion_tokens 和缓存字段

yueseyoushanhe

314人浏览 · 2026-05-23 10:12:44

yueseyoushanhe · 2026-05-23 10:12:44 发布

很多人选 API 中转站，第一眼只看价格。

比如：

这个站好便宜
那个站倍率低
这个模型只要几折

但我现在更建议你先看另一个东西：

扣费透明度。

因为 API 中转站便宜不便宜，不是只看价格表。
你还要看每次请求到底消耗了多少 token、有没有返回 usage、缓存有没有证据、扣费能不能对上。

1. 什么是 usage 字段？

正常的 OpenAI-compatible API 返回里，一般会有 usage 字段。

大概长这样：

"usage": {
  "prompt_tokens": 100,
  "completion_tokens": 50,
  "total_tokens": 150
}

这几个字段很好理解：

prompt_tokens：你发过去的内容消耗
completion_tokens：模型回复消耗
total_tokens：总消耗

如果你是开发者，这个字段非常重要。

因为它是你判断成本的基础。

2. 没有 usage 字段有什么问题？

没有 usage，不代表一定不能用。

但问题是：

你很难判断一次请求到底扣了多少。

尤其是用 API 中转站的时候，如果没有 usage，你只能看后台余额变化。

这就会带来几个麻烦：

不知道 prompt 消耗多少
不知道回复消耗多少
不知道扣费是否和 token 对得上
不知道缓存有没有生效
不方便排查异常消耗
不方便做自己的成本统计

所以我一般会把 usage 字段看作“扣费透明度”的基础指标。

3. prompt_tokens 和 completion_tokens 分别看什么？

prompt_tokens

这个代表你输入的内容消耗。

比如你给模型发了一大段代码、一篇文档、一个很长的上下文，prompt_tokens 就会变多。

如果你在 Cursor、Cline 里用 API，prompt_tokens 往往不低。

因为开发工具会把代码上下文、文件片段、历史对话都塞进去。

completion_tokens

这个代表模型输出消耗。

比如模型回复越长，completion_tokens 越高。

如果你让模型生成代码、写方案、改文件，completion_tokens 也会明显增加。

total_tokens

这个就是总消耗。

一般是：

prompt_tokens + completion_tokens = total_tokens

如果一个平台连 total_tokens 都不返回，那你就很难做精确判断。

4. 为什么缓存字段也重要？

现在很多模型或网关会有缓存机制。

缓存命中后，理论上成本可能更低，速度也可能更快。

常见相关字段可能包括：

cached_tokens
cache_hit
prompt_tokens_details

不同平台字段不一定一样。

但核心逻辑是：

如果平台说自己支持缓存优惠，最好能在接口返回里看到缓存命中信号。

否则你不知道它到底有没有命中，也不知道扣费是否按缓存价格走。

5. raw quota 是什么？

有些 API 中转站会显示 raw quota 或原始额度信息。

这个对高级用户比较有用。

因为它可能帮助你判断：

实际消耗是否和账单一致
平台换算倍率是否清楚
不同模型扣费是否可追踪
请求有没有异常消耗

普通用户不一定每天看 raw quota，但如果你要长期用，最好能看到。

6. 扣费透明，不等于一定便宜

这个点很重要。

有的平台价格看起来不是最低，但 usage 清楚、扣费规则清楚、稳定性好。
有的平台价格看起来很便宜，但 usage 不返回，扣费明细也模糊。

对我来说，长期使用更看重：

能不能解释每一次扣费

而不是只看首页写了几折。

尤其是你接 Cursor / Cline / Continue 这种工具，token 消耗会比较快。
如果扣费不透明，用几天你可能都不知道钱花在哪里。

7. 怎么快速判断一个中转站扣费是否透明？

我建议看 5 个点：

第一，有没有 usage 字段

这是基础。

没有 usage，扣费透明度直接打折。

第二，usage 是否完整

至少要有：

prompt_tokens
completion_tokens
total_tokens

第三，有没有缓存命中信号

比如：

cached_tokens
cache hit
prompt_tokens_details

字段名不一定完全一致，但最好能看到相关证据。

第四，后台账单能不能对上

接口返回的 token 消耗，最好能和后台扣费记录大致对上。

第五，异常请求有没有说明

比如请求失败时，到底扣不扣费？
timeout 算不算？
上游报错算不算？

这些规则最好提前搞清楚。

8. 用 AI API Doctor 看 usage 和扣费透明度

我做的 AI API Doctor 里，也把 usage 字段作为一个检查点。

它会帮你看：

是否返回 usage
prompt_tokens 是否存在
completion_tokens 是否存在
total_tokens 是否存在
是否能看到缓存命中信号
返回格式是否适合 OpenAI-compatible 客户端
稳定性采样是否正常

工具地址：https://aiapidoctor.com/

它不会告诉你“这个平台一定便宜”，但可以帮你判断：

这个 API 返回的信息够不够透明。

9. 注意：usage 不是唯一指标

也别误会。

有 usage 不代表这个平台一定好。

你还要看：

稳定性
模型权限
返回速度
错误率
tool_calls 兼容性
function_call 兼容性
售后响应
充值和退款规则

usage 只是扣费透明的第一步。

但如果第一步都没有，那就要谨慎一点。

API 中转站扣费透明，核心不是看老板怎么说，而是看接口返回了什么。

重点看：

usage
prompt_tokens
completion_tokens
total_tokens
cached_tokens
raw quota
后台扣费记录

如果你只是临时测试，可能影响不大。
但如果你要长期接 Cursor、Cline、Continue、Claude Code，扣费透明度就非常重要。

一句话：

价格便宜只是入口，usage 清楚才是长期使用的底气。

开源地址：https://github.com/JustinXai/ai-api-doctor-site

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

SEO没有死，它只是换了个死法——一个从业者的2026年中场总结

AtomGit开源社区

详细讲解一下epoll

AtomGit开源社区

何庭波万字论文，详述华为“韬定律”

大约到2030年之前，AI加速器，即Ascend SuperPoD系列，包括2025年的Ascend910C、2026年的Ascend950，以及后续Ascend990，将依赖成熟技术组合：chiplet、2.5D扇出，以及基于微凸点和标准间距混合键合的3D堆叠。沿着这一路径，到2035年，硬件集成度预计增长超过100倍，τ的降低将分布在技术栈的每一层，而不再集中在器件层。协议层与物理层之间的这种