黄仁勋的Token经济，李彦宏的DAA，AI度量衡之争才刚开始

王木风

285人浏览 · 2026-05-15 07:54:07

王木风 · 2026-05-15 07:54:07 发布

刷到黄仁勋和李彦宏最近关于AI计费的讨论，第一反应是——好家伙，这哪是定价，这是在定规矩。

黄老板在Computex上说，未来的AI世界将由“Token经济”驱动，计算要按Token来买卖。几乎同时，李彦宏在百度AI开发者大会上，把自家的计费单位从“千Tokens”换成了“DAA”（DAA Hour）。这俩词，一个来自芯片霸主，一个来自国内大厂，背后是两套完全不同的价值坐标系。

说白了，这不是简单的价格战，是AI基础设施的“度量衡”之争。就像当年秦始皇统一货币和度量衡，谁定义了标准，谁就握住了生态的钥匙。

1. 黄仁勋的“Token经济”：从芯片到算力货币

先看黄仁勋的Token。这玩意儿，说白了就是把大模型“吃进去”的文字、图片、代码，量化成一个个标准化的计算单元。1个Token约等于0.75个英文单词或半个汉字。

听起来挺技术，对吧？但老黄把它拔高到了“经济”层面。他的逻辑链条是：

一切皆Token：未来所有数字内容（文本、图像、视频、3D模型）都能被Token化。
计算即交易：你需要AI处理这些Token，就得用我的GPU（或者我授权的云服务）来“燃烧”算力。
Token即货币：于是，Token成了衡量和交换AI算力的基本单位，形成一套闭环经济。

这招挺狠的。它把英伟达从单纯的“卖铲子”（GPU硬件）升级成了“制定金本位”（Token标准）的角色。你想玩AI？先得用我的“货币”体系。

不过这里有个前提。Token经济的底层假设是：AI推理的成本，主要由“处理的数据量”（Token数）线性决定。这在小模型、短上下文场景下可能成立，但遇到动辄百万Token的长上下文、复杂推理链（Chain-of-Thought），或者需要频繁调用外部工具（Tool Calling）的智能体（Agent），情况就复杂了。

我跑了一下几个主流API的价格表，发现一个反直觉的点：按Token计费时，输入（Input）和输出（Output）的价格经常不一样，而且长上下文可能有额外溢价或折扣。这说明，纯粹按Token数量计价，模型厂商自己都觉得有点“糙”，得打各种补丁。

2. 李彦宏的“DAA”：回归“有效计算时间”

再看李彦宏的DAA（DAA Hour）。百度文心大模型把这个新单位定义为：“每秒处理1.5K Tokens的算力，持续运行一小时”。

这就有意思了。DAA跳出了“数豆子”（Token数）的逻辑，转向了“看钟表”（计算时间）。它更接近于我们租用云服务器时熟悉的“vCPU小时”或“GPU小时”。

这种转变，个人觉得，反映了国内大模型在追求“性价比”和“场景适配”上的务实思路。

计费维度	Token经济 (如 OpenAI)	DAA (百度文心)
核心单位	Token (输入/输出数量)	DAA Hour (有效算力时间)
定价逻辑	按“数据吞吐量”收费	按“计算资源占用时间”收费
优势	简单直观，易于理解	可能更贴合复杂、长耗时任务的实际成本
挑战	长文本、复杂推理的成本估算可能失真	需要明确界定何为“有效”计算，避免争议

DAA试图把黑盒的模型推理，包装成一个更“云原生”、更让企业IT采购部门熟悉的商品。对于需要长时间、高并发调用AI服务的企业应用来说，按时间包月/包年，可能比按Token数零敲碎打，在预算管理上更友好。

但问题也在这儿。“有效计算时间”怎么界定？模型预热、排队等待的时间算不算？不同复杂度的请求（比如简单分类 vs 代码生成）都按同一时间单价算，公平吗？这需要非常透明和精细的监控与计费系统来支撑，不然容易变成一笔糊涂账。

3. 为什么是现在？成本与场景的双重挤压

这场度量衡之争现在爆发，不是偶然。

首先是成本压力打到骨头里了。 国内大模型价格战已经卷到了“毛分时代”。输入Token价格低至每百万0.4元人民币，做个内部工具，调用成本相比去年直接降了两个数量级。当价格低到一定程度，计费模型本身的“摩擦成本”和“认知成本”就凸显出来了。继续按Token几分几厘地算，财务对账能累死。

其次是应用场景复杂化了。 早期的AI应用多是“一问一答”。现在呢？AI要写长篇报告、要分析上百页PDF、要当24小时在线的客服机器人、要调度整个业务流程。这些场景里，单纯的Token数已经很难准确反映AI服务提供的价值（或消耗的资源）。用户开始关心“完成我这个任务，到底要花多少钱/占用多少资源”，而不是“你处理了多少个字”。

说实话，这两种模式没有绝对的对错，它们很可能长期共存，服务于不同的客户和场景。

标准化、轻量级、高频的调用（比如智能客服的简单问答、文本润色），可能更适合按Token计费，清晰明了。
重型、长耗时、定制化的企业级服务（比如代码生成平台、AI数据分析流水线），按DAA这类“计算时间”或“资源包”计费，可能更符合甲方的采购习惯和预算模型。

4. 对开发者意味着什么？新的成本和架构考量

对我们一线搞技术的来说，这事儿不能只看热闹。

第一，成本模型变复杂了。 以后选型大模型API，不能只看Token单价那张表。你得问：

你们支持DAA计费吗？和Token计费怎么换算？
长上下文（128K+）有额外计费规则吗？
流式响应（Streaming）的计费方式是什么？（是输出第一个Token就开始算，还是输出完毕才算？）
有没有针对高频、固定场景的“资源预留”套餐？

第二，架构设计可能要变。 如果未来DAA这类“计算时间”模式成为主流，我们优化AI应用的方向，可能要从“减少Token数”（比如拼命做提示词压缩）转向“提高计算效率”。比如：

更积极地使用缓存，避免对相同或相似的问题进行重复计算。
优化任务编排，让AI的“思考时间”（计算占用）尽可能集中和高效，减少空转。
考虑混合计费策略，在应用内对不同优先级的任务采用不同的计费后端。

# 假设未来API调用可能要带计费模式参数
curl -X POST https://api.big-model.com/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "ernie-4.0",
    "messages": [...],
    "billing_mode": "daa"  # 指定按DAA计费
  }'