在 2023 年,每一次关于 AI 领导力的对话都集中在模型训练成本上。而到了 2026 年,更大的挑战已不再仅仅是训练,而是推理(Inference)。训练是一次性或偶尔发生的。而推理则发生在用户的每一次提示词输入、智能体的每一次工具调用、RAG 检索或应用生成的每一次回复中。

算力需求从“模型训练”向“模型推理”的转移,使 AI 的经济模式从静态的模型构建成本,转变为随着产品需求同步扩展的、基于使用量的可变成本。

本文将详细阐述 AI 成本中心是如何从训练转移到推理的,以及为什么你的云策略需要随之演进。我们将首先回顾为什么在 2022 年至 2024 年之间,训练成本主导了 AI 基础设施的对话。然后,我们将深入分析为什么推理现在成了规模化运行 AI 的可变成本,以及 Token 吞吐量、延迟和 GPU 利用率是如何决定推理经济学的。我们还将探讨“推理优先”的基础设施与通用云基础设施有何不同,以及 DigitalOcean 的 AI 增长在市场上释放了什么信号。此外,我们还将审视智能体 AI(Agentic AI)的需求如何影响单客经济效益(Unit Economics)。

大规模 AI 训练时代:2022–2024 年

在 2022 年到 2024 年期间,模型训练主导了 AI 基础设施的讨论,因为 GPT-3 和 GPT-4 让“规模(Scale)”成了生成式 AI 的核心叙事。GPT-3 向行业证明,超大规模的语言模型只需少量示例就能泛化到许多任务中。它还表明,这些模型不需要针对每个具体的应用场景进行重新训练。该模型前所未有的 1750 亿参数规模引爆了 AI 军备竞赛:更大的模型、更大的数据集、更多的 GPU 以及更昂贵的训练运行。

GPT-4 进一步放大了这一叙事。虽然 OpenAI 只透露了有限的 GPT-4 技术细节,但该模型的能力释放了一个明确的信号:前沿模型(Frontier Models) 的研发已从小规模的科研尝试,转变为只有具备大规模构建、训练和部署模型能力的组织才能承载的工程。它需要庞大的算力基础设施、尖端的分布式训练系统、高质量的数据流水线、模型评估与测试基础设施,以及安全测试。同时,它还需要能够跨所有这些系统协同作战的团队。对于 CTO 和工程领导者来说,GPT-4 巩固了这样一种认知:推动下一个 AI 时代的,将是那些能够在这种技术和组织规模上运营的公司。

训练一个大型基座模型绝非易事。组织必须构建数据集(并且通常要自己清洗这些数据),跨研究团队或云地域协调数千张 GPU,还要从长时间运行的训练任务失败中调试和吸取教训。他们必须调优内存和网络 I/O,迭代超参数,并反复运行实验,直到模型充分收敛。单次失败的运行就会浪费大量的算力。对于大多数公司来说,获取在此规模下训练具有竞争力的基座模型所需的专业知识和资金,是高不可攀的。

实际上,大多数组织并不需要训练自己的下一代 GPT-3 或 GPT-4 模型。他们需要做的是在这些模型之上构建有用的 AI 产品和应用。对于这些组织而言,他们最大的长期支出并不来自构建基座模型,而是来自在生产环境中持续运行模型。

GPT-3 和 GPT-4 展示了大规模基座模型的能力,但开源/开放权重模型(Open-weights Models)改变了获取这些能力的经济门槛。像 LlamaMistralQwenDeepSeek 等开放模型,为组织提供了比以往任何时候都更多的选择。Hugging Face 和其他模型社区简化了开发者的体验。寻找、测试、微调(Fine-tuning)和部署模型不再意味着要从零开始。训练并没有消失,但获取高质量预训练模型变得触手可及。

拐点:作为可变成本的推理

训练成本通常是固定的或周期性的。你训练、微调或调整一个模型,然后随着时间的推移摊销这笔费用。模型训练完成后,训练账单不会因为每次用户发送请求而增加。推理则不同。它随使用量而扩展。你的产品用户越多,你为运行模型支付的费用就越多。

每一次交互都会直接产生推理需求。提示词是输入 Token,回复是输出 Token。智能体的每一步执行都可能催生额外的模型调用。检索增强生成(RAG)流水线可能会从文档、数据库或向量存储中拼接更多的上下文。重试、工具调用、API 请求、工作流分支和验证步骤,都会增加完成该任务所需的算力。

这就是为什么推理的行为模式比模型训练更像云存储、带宽、数据库查询或 API 调用。它随着用户采纳率的提升而同步扩展。在开发阶段,当流量较小且使用受限时,初创公司可能还可以消化 AI 实验成本。真正的挑战通常在产品迎来生产环境流量时显现。届时,推理将变成一项运营成本,其膨胀速度往往会超出工程团队的预期。

随着我们构建智能体 AI(Agentic AI),这一现象变得愈发重要。许多传统的 AI 使用场景对应的是单次提示词和单次回复。而智能体则需要系统去规划、调用工具、查找信息、分析中间步骤、重新规划、与其他智能体对话并综合最终回复。从本质上讲,一次用户请求可以转化为多次模型/推理调用和系统行为。

核心问题不再只是“哪个服务商的 GPU 每小时价格最低?”。更好的问题是,“在满足延迟和可靠性目标的前提下,哪种基础设施能够产生最高的每美元有效 Token 产出?”。

推理经济学:Token、吞吐量与延迟

推理经济学始于 Token。一个 Token 大致相当于模型处理(或生成)的文本单位。许多服务商对输入和输出 Token 分别计费。然而,实际的经济账远比一张价格表要微妙得多。让我们来看看最核心 plan 的四个变量:

  • Token 量(Token Volume) 对应的是模型处理的数据量。长提示词、大上下文窗口、RAG 流水线以及智能体记忆(Agent Memory)需求都会增加输入 Token 量。而冗长的回答、复杂的长多步规划和生成的报告则会提高输出 Token 量。
  • 吞吐量(Throughput) 描述了你的基础设施随着时间推移处理工作的速率。它以每秒 Token 数(Tokens per second)、每秒请求数(Requests per second)或每秒查询数(Queries per second)来衡量。提高吞吐量意味着同一批 GPU 能够服务更多的 Token。
  • 延迟(Latency) 影响着用户对速度的感知。首字延迟(Time-to-first-token)、Token 间的延迟、p95 延迟 以及 p99 延迟,永远比系统的平均延迟更重要。平均延迟低并不能保证真实用户不会遭受长尾延迟的困扰。
  • GPU 利用率(GPU Utilization) 告诉你组织是在为高效的计算买单,还是在为闲置的计算容量买单。当 GPU 未被充分利用时,它们依然会很昂贵。此外,如果所选的工作负载受内存带宽限制、卡在等待 KV 缓存迁移上、或因糟糕的批处理而停滞,即使基础设施看起来很忙,它服务的有效 Token 也可能比你预期的要少。

一个简单的公式概括了这一核心:

每百万 Token 成本 = GPU 每小时成本 ÷ 每小时 Token 产出 × 1,000,000

注意改变分母会如何影响结果。批处理、路由、缓存和模型选择都可以增加你每秒生成的 Token 数,从而降低你的每 Token 成本。而重试、闲置的 GPU、冗长的提示词以及碎片化的基础设施,则会降低有效吞吐量并增加每 Token 的成本。

为什么推理成本会反超训练成本

在许多 AI 生产环境的使用场景中,推理成本会在短短几个月内超过训练/微调的成本。这是因为你可能只需训练一次或几次,但只要有人使用你的产品,你就在进行推理。

假设你有一款产品,每天有 100,000 个日活跃用户(DAU)。如果每个人每天向你的 AI 发出 10 次请求,你就会产生:

100,000 用户 × 10 请求 = 每天 1,000,000 次推理请求

如果每次请求平均包含 1,500 个输入 Token 和 500 个输出 Token。也就是说每次请求总计 2,000 个 Token。

1,000,000 请求 × 2,000 Token = 每天 20 亿个 Token

在此规模下,即使是微小的 Token 成本差异也会变得至关重要。如果某个云平台在每百万 Token 的单价上稍微便宜一点,所带来的节省并不会只发生一次。它们会在每一天、每周和每个月重复发生。

这种成本在智能体 AI 时代会进一步加速。传统的聊天机器人可能只需要调用一次模型就能回复用户,而 AI 智能体往往需要执行多个步骤。它需要规划、搜索文档、调用工具、查询数据库、验证中间结果,并最终进行生成。其中的每一个步骤都会消耗更多的 Token 和更多的计算。

假设同一款产品的智能体版本消耗了 15 倍之多的 Token。它每天处理的可能就不再是 20 亿个 Token,而是:

20 亿 Token × 15 = 每天 300 亿个 Token

这驱动了巨大的经济模式转变。现在的核心成本不再是原始的模型训练或微调。核心成本变成了每天运行模型的消耗。从本质上讲,你不再是为构建模型付费。你是在为运行模型付费。

“推理优先”的云基础设施转型

通用云可以运行许多工作负载:Web 应用、数据库、存储、分析、网络、容器和虚拟机。你固然可以在这个基础之上运行 AI 推理,但“推理优先(Inference-first)”改变了底层平台针对模型服务进行专门优化的方式。

路由(Routing)是第一个不同点。在典型配置中,多模型请求会以简单、静态的顺序(例如轮询机制(Round-robin)或随机)被路由到可用的模型端点。而推理优先的路由则会综合考虑延迟要求、成本、模型能力、上下文长度、可用性以及缓存局部性(Cache Locality)。DigitalOcean 宣传其推理路由器(Inference Router)是一个控制面,它能够智能地从模型集群中挑选最合适的模型,并基于成本和延迟等策略优化每一次推理调用。

可观测性(Observability)是第二个不同点。传统云监控涵盖的是 CPU、内存、磁盘和网络,而推理监控则需要追踪 Token 使用量、首字延迟、延迟、错误率、开销、模型行为以及单次请求成本。DigitalOcean 的推理引擎(Inference Engine)重点突出了针对 Token、延迟、错误和开销的内置可观测性。

工作负载形态(Workload Shape)是第三个不同点。推理工作负载形态各异、规模不一。有些任务是短寿命的聊天对话生成。有些则需要花费数分钟来处理长上下文的文档检索。为了服务实时智能体,某些调用必须在几毫秒内完成。还有一些则可以是批量的数据富化(Batch Enrichment)任务。一些模型可以在共享资源上运行,而另一些则需要独占的专用 GPU。一些团队想要弹性伸缩的无服务器(Serverless)架构,另一些团队则需要通过专用资源来获得可预测的性能。

DigitalOcean 将无服务器推理、批量推理和专用推理层融合到了一个统一的生产系统中。他们的批量推理层听起来非常适合异步工作负载,而专用推理则专门为需要团队控制并预测性能的持续性工作负载而设计。

模型灵活性(Model Flexibility)是第四个不同点。随着更好、更便宜或更快的全新模型发布,AI 驱动的产品每隔几个月就会切换模型。以这种速度运营,需要一个能让模型切换在运维层面上变得极其简单的推理优先平台。DigitalOcean 提供了对 70 多种精选模型的支持。这允许客户自带模型(BYOM)进行部署。

DigitalOcean 的 AI 增长释放了什么信号

该公司的“AI 原生云”定位描述了五个整合层:托管智能体、数据与学习、推理引擎、核心云以及基础设施。它还强调了一个端到端的全栈平台,在这个平台中,推理、数据库、Kubernetes、网络、存储和 GPU 都是同一个生态的组成部分。

DigitalOcean 发布了一份关于 Workato 的详细案例研究,该案例显示,Workato 实现了每张 GPU 吞吐量提升 67%、高负载下延迟降低,并且在减少了 GPU 数量的前提下降低了 67% 的模型成本。这些提升不仅仅是更好硬件带来的结果。Workato 的性能增长得益于架构上的改进,包括 NVIDIA Dynamo、vLLM、Kubernetes、KV 感知路由、前缀重用(Prefix Reuse)以及调度优化。

这正是未来推理经济学的演进方向。虽然模型本身至关重要,但模型周围的系统正日益成为决定成本的关键因素。

智能体时代的单客经济效益

智能体 AI 从根本上改变了云经济学,因为单次请求就能触发一连串的操作工作流。

例如,用户可能会让智能体分析销售数据。该智能体可能会检索文档、查询数据库、调用预测模型、合成 Python 代码、验证结果、总结洞察并最终撰写一封邮件。其中的每一步都可能涉及 Token 消耗、CPU、内存、网络流量、存储访问和可观测性追踪。

这带来了三个核心风险:

  • 第一个风险是隐性的 Token 增长。 工程师在预估成本时,往往只计算最终答案中包含的 Token 数量。然而,智能体工作流在整个推理过程中都在消耗 Token:中间步骤、工具调用、检索上下文、记忆访问和重试。因此,总 Token 使用量可能会呈几个数量级增长。
  • 第二个风险是延迟放大。 单次模型调用的延迟或许在可接受范围内。但如果智能体连续执行一个包含 15 次以上线性调用的工作流,会发生什么?如果每一步都增加一点延迟,累积起来就会给用户带来糟糕且不可用的体验。
  • 第三个风险是运营黑盒(Opacity)。 如果你无法看到单次请求的成本、单个工作流的成本、不同模型的 Token 消耗量以及每一步的延迟,你就无法采取优化行动。

这就是为什么首席技术官(CTO)应该基于生产环境的指标来评估 AI 平台,而不是看宣发的新闻稿基准测试。不要问:“哪个服务商的模型调用最便宜?”。而要问自己:“针对我们的实际工作负载,哪个平台能提供最佳的成本、延迟和可靠性组合?”。

评估推理云平台的框架

工程领导者在评估推理平台时,应当引入以下五个标准。让我们来分析其中的几点:

  • 审视“构建与运行比(Build-to-run Ratio)”。 从原型开发到具备生产环境就绪度,需要耗费多少个工程人月?如果需要花费数月时间去学习 Kubernetes(或同等技术)、实现路由逻辑、规模化部署模型、并用可观测性工具武装一切,那么一个原生具备这些能力的平台就能为工程周期缩短数月的时间。
  • 评估延迟的可预测性。 不要满足于平均延迟。团队应该在贴近真实的并发量下,测量 p95、p99、首字延迟以及 Token 间的延迟。
  • 要求成本透明度。 工程团队需要清晰了解 Token 在哪里被消耗、为什么发生重试、选择了哪些模型以及每个工作流的实际开销。如果你的 AI 平台不暴露这些信息,AI 的毛利率就变成了纯粹的猜谜游戏。
  • 评估模型目录的广度与切换灵活性。 团队应该期望其平台能够支持前沿模型、开源模型、微调模型以及自带模型(BYOM)的工作流。更换模型不应该要求重写应用代码。
  • 测试运维契合度。 该平台是否支持实时推理、批量推理、专用推理、智能体工作流、知识库、评估与监控?在 DigitalOcean 的 AI 平台文档页面上,你可以注意到该平台是如何围绕托管智能体、用于 RAG 实现的知识库、多智能体路由以及护栏(Guardrails)来构建的。

未来两年AI行业会是什么样子

下表总结了未来几年将重塑 AI 推理经济学的主要趋势。它揭示了为什么仅仅依靠 Token 价格下降并不能保证总成本降低,以及为什么模型路由、可观测性和推理优先的云架构将成为规模化控制开销的关键。

趋势 这意味着什么 业务影响
Token 价格可能会下降,但使用量增长会更快 随着模型变得越来越便宜,开发者会在副驾驶(Copilots)、智能体、工作流自动化、多模态生成以及持久化记忆中更频繁地使用它们。 如果 Token 消耗在整个企业内大肆膨胀,单价下降并不会自动减少 AI 的总支出。
模型路由将成为行业标准 应用程序将停止向同一个模型发送所有任务。简单的任务将使用更便宜的模型,而复杂的推理则调用更强大的模型。 企业将通过把每个工作负载与最匹配的模型及服务策略进行对齐,来降低成本。
长上下文和批量工作流将需要专门的基础设施 长上下文工作流需要不同的服务策略,并且批量任务不应该总是挤占实时端点。 团队将需要更具弹性的推理架构来控制延迟、吞吐量和成本。
可观测性将成为董事会级别的关注点 AI 成本将走出实验性的 R&D 预算,并直接在毛利率、客户获取成本(CAC)、支持成本和产品盈利能力中变得清晰可见。 高管们将需要关于 AI 使用量、延迟、单次请求成本以及单客户成本的清晰指标。
云架构将成为一种竞争优势 在推理优先基础设施上构建的团队,其产品迭代速度更快,利润率控制得更好。 使用碎片化系统的公司可能会面临隐性的数据传输(Egress)费用、工具链重复、延迟可见性差以及高昂的运维复杂度。

常见问题解答(FAQs)

1. 为什么在 2022 到 2024 年期间,模型训练主导了 AI 基础设施的讨论?

训练主导讨论是因为 GPT-3 和 GPT-4 让大规模模型构建成了 AI 竞争的中心。因此,围绕分布式 GPU 训练、海量数据集、分布式 GPU 训练以及模型评估的投资,对于希望构建前沿模型的组织来说至关重要。

2. 为什么推理正变得比训练更为重要?

因为每当 AI 产品被使用时,推理都在发生。训练可能是一次性或偶尔发生的,但推理在提示词、回复、工具调用、RAG 流水线和智能体工作流中连续且不断地重复。

3. 是什么让推理成本难以控制?

Token 量、吞吐量、延迟要求、GPU 利用率、重试惩罚、路由决策、上下文长度和模型选择都会影响推理成本。当乘上数以百万计的请求放大时,微小的低效都会演变成高昂的开销。

4. 智能体 AI 是如何增加推理成本的?

单次用户请求会引出一连串的内部步骤。智能体需要搜索、推理、调用工具、从记忆中检索信息、验证结果,然后综合得出最终答案。这些单独的每一步都会消耗 Token 和计算资源。

5. CTO 在选择推理云平台时应该评估什么?

CTO 应当评估延迟的可预测性、成本透明度、模型路由、可观测性、模型切换灵活性、GPU 高效性、批量推理支持,以及该平台是否能支撑起真实的生产环境工作负载,而非仅仅看纸面的基准测试声明。

结论

AI 基础设施的对话已经超越了训练大模型的成本本身。训练大模型虽然昂贵且依然重要,但对绝大多数企业而言,无论是从成本还是从架构的角度来看,推理才是更大的挑战。用户发送的每个提示词、模型生成的每次响应、智能体循环的每次工作流、每次检索调用、每次重试以及每次工具调用都会产生费用。因此,推理预算正在将 AI 从一次性的研发投入,转变为随着产品使用量同步增加的经常性运营开销。

对于各地的 CTO、平台团队和技术创始人而言,现在不再仅关乎你是否能接触到强大的模型。它关乎你是否能在规模化扩展下,可靠、快速且经济地提供这些模型服务。Token 价格、吞吐量、延迟、路由、批处理、可观测性和 GPU 效率,决定了一个 AI 产品究竟是停留在原型阶段,还是演进为一个可持续的工程系统。

在生产环境中运行 AI 需要的不仅仅是通用云基础设施。推理优先的架构正迅速成为构建生产级 AI 的核心底座。工程团队需要能够赋予他们控制延迟能力、减少算力浪费、更智能地路由请求、实现 Token 级成本观测、并能随着模型和应用场景演进而灵活调整的平台。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐