很多人选 API 中转站,第一眼只看价格。

比如:

这个站好便宜
那个站倍率低
这个模型只要几折

但我现在更建议你先看另一个东西:

扣费透明度。

因为 API 中转站便宜不便宜,不是只看价格表。
你还要看每次请求到底消耗了多少 token、有没有返回 usage、缓存有没有证据、扣费能不能对上。


1. 什么是 usage 字段?

正常的 OpenAI-compatible API 返回里,一般会有 usage 字段。

大概长这样:

"usage": {
  "prompt_tokens": 100,
  "completion_tokens": 50,
  "total_tokens": 150
}

这几个字段很好理解:

prompt_tokens:你发过去的内容消耗
completion_tokens:模型回复消耗
total_tokens:总消耗

如果你是开发者,这个字段非常重要。

因为它是你判断成本的基础。


2. 没有 usage 字段有什么问题?

没有 usage,不代表一定不能用。

但问题是:

你很难判断一次请求到底扣了多少。

尤其是用 API 中转站的时候,如果没有 usage,你只能看后台余额变化。

这就会带来几个麻烦:

  • 不知道 prompt 消耗多少
  • 不知道回复消耗多少
  • 不知道扣费是否和 token 对得上
  • 不知道缓存有没有生效
  • 不方便排查异常消耗
  • 不方便做自己的成本统计

所以我一般会把 usage 字段看作“扣费透明度”的基础指标。


3. prompt_tokens 和 completion_tokens 分别看什么?

prompt_tokens

这个代表你输入的内容消耗。

比如你给模型发了一大段代码、一篇文档、一个很长的上下文,prompt_tokens 就会变多。

如果你在 Cursor、Cline 里用 API,prompt_tokens 往往不低。

因为开发工具会把代码上下文、文件片段、历史对话都塞进去。


completion_tokens

这个代表模型输出消耗。

比如模型回复越长,completion_tokens 越高。

如果你让模型生成代码、写方案、改文件,completion_tokens 也会明显增加。


total_tokens

这个就是总消耗。

一般是:

prompt_tokens + completion_tokens = total_tokens

如果一个平台连 total_tokens 都不返回,那你就很难做精确判断。


4. 为什么缓存字段也重要?

现在很多模型或网关会有缓存机制。

缓存命中后,理论上成本可能更低,速度也可能更快。

常见相关字段可能包括:

cached_tokens
cache_hit
prompt_tokens_details

不同平台字段不一定一样。

但核心逻辑是:

如果平台说自己支持缓存优惠,最好能在接口返回里看到缓存命中信号。

否则你不知道它到底有没有命中,也不知道扣费是否按缓存价格走。


5. raw quota 是什么?

有些 API 中转站会显示 raw quota 或原始额度信息。

这个对高级用户比较有用。

因为它可能帮助你判断:

  • 实际消耗是否和账单一致
  • 平台换算倍率是否清楚
  • 不同模型扣费是否可追踪
  • 请求有没有异常消耗

普通用户不一定每天看 raw quota,但如果你要长期用,最好能看到。


6. 扣费透明,不等于一定便宜

这个点很重要。

有的平台价格看起来不是最低,但 usage 清楚、扣费规则清楚、稳定性好。
有的平台价格看起来很便宜,但 usage 不返回,扣费明细也模糊。

对我来说,长期使用更看重:

能不能解释每一次扣费

而不是只看首页写了几折。

尤其是你接 Cursor / Cline / Continue 这种工具,token 消耗会比较快。
如果扣费不透明,用几天你可能都不知道钱花在哪里。


7. 怎么快速判断一个中转站扣费是否透明?

我建议看 5 个点:

第一,有没有 usage 字段

这是基础。

没有 usage,扣费透明度直接打折。


第二,usage 是否完整

至少要有:

prompt_tokens
completion_tokens
total_tokens

第三,有没有缓存命中信号

比如:

cached_tokens
cache hit
prompt_tokens_details

字段名不一定完全一致,但最好能看到相关证据。


第四,后台账单能不能对上

接口返回的 token 消耗,最好能和后台扣费记录大致对上。


第五,异常请求有没有说明

比如请求失败时,到底扣不扣费?
timeout 算不算?
上游报错算不算?

这些规则最好提前搞清楚。


8. 用 AI API Doctor 看 usage 和扣费透明度

我做的 AI API Doctor 里,也把 usage 字段作为一个检查点。

它会帮你看:

  • 是否返回 usage
  • prompt_tokens 是否存在
  • completion_tokens 是否存在
  • total_tokens 是否存在
  • 是否能看到缓存命中信号
  • 返回格式是否适合 OpenAI-compatible 客户端
  • 稳定性采样是否正常

工具地址:https://aiapidoctor.com/

它不会告诉你“这个平台一定便宜”,但可以帮你判断:

这个 API 返回的信息够不够透明。


9. 注意:usage 不是唯一指标

也别误会。

有 usage 不代表这个平台一定好。

你还要看:

稳定性
模型权限
返回速度
错误率
tool_calls 兼容性
function_call 兼容性
售后响应
充值和退款规则

usage 只是扣费透明的第一步。

但如果第一步都没有,那就要谨慎一点。

API 中转站扣费透明,核心不是看老板怎么说,而是看接口返回了什么。

重点看:

usage
prompt_tokens
completion_tokens
total_tokens
cached_tokens
raw quota
后台扣费记录

如果你只是临时测试,可能影响不大。
但如果你要长期接 Cursor、Cline、Continue、Claude Code,扣费透明度就非常重要。

一句话:

价格便宜只是入口,usage 清楚才是长期使用的底气。

开源地址:https://github.com/JustinXai/ai-api-doctor-site

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐