免费 vs 付费:2026 年 LLM API 价格全解析

免费模型到底能干什么?付费模型比免费的强多少?算清楚这笔账,一年能省几十万。


AI 行业有一个反直觉的现象:最贵的模型(GPT-5.5-pro,¥1,305/1M 输出)和最便宜的(qwen-turbo,¥0.6/1M 输出),价格差距 2,175 倍。

所以「付费还是免费」不是一个非此即彼的选择,而是要搞清楚:免费的能干什么?什么情况下必须付费?付费付到哪个档位性价比最高?

本文所有价格数据来自各厂商官方页面,统一折算为人民币(¥),美元按 1 USD ≈ 7.25 CNY 换算。

当前各大厂的免费/低价策略

厂商 免费/低价方式 最低输出价格 限额/条件
通义千问 qwen-turbo 极低价 + 新用户送额度 ¥0.60 / 1M 送 100万 tokens,90天有效
智谱 AI GLM-4.7-Flash 完全免费 ¥0(免费) 速率限制
DeepSeek 2.5 折促销 + v4-flash 低价 ¥2.00 / 1M v4-pro 促销至 2026/05/31
通义千问 qwen-long 超低价长上下文 ¥2.00 / 1M 10M 上下文
Google Gemini Free 套餐 Free tier 速率限制
百度文心 免费额度(需登录) 登录查看 速率限制
Mistral AI Free 套餐 ¥0(Free) 速率限制
Anthropic 网页版 Free 使用 ¥36.25 / 1M API 无免费额度
OpenAI 网页版 Free 使用 ¥217.50 / 1M API 无免费额度

(价格取各厂商最低档上下文。OpenAI/Anthropic 取最低档短上下文价格)

免费/低价模型能干什么?

拿通义千问 qwen-turbo(¥0.6/1M 输出)和智谱 GLM-4.7-Flash(免费)实测:

完全可以干的

  • 文本摘要、改写、翻译
  • 简单问答、客服对话
  • 内容分类、情感分析
  • 代码补全(非复杂逻辑)
  • 文章大纲生成

⚠️ 勉强能干的

  • 中等复杂度代码生成(偶有语法错误)
  • 长文创作(500字以上连贯性下降)
  • 数据分析(需要清晰 prompt)

不要用免费/极低价的

  • 复杂推理(数学证明、多步逻辑链)
  • 高质量长文(2000字以上)
  • 多轮复杂对话(容易丢失上下文)
  • 生产环境关键链路(稳定性、SLA 无法保证)
  • 多模态任务(免费模型通常不支持图片/视频/语音输入)

什么时候该付费?付多少?

按场景的决策树:

你的场景是什么?
│
├─ 开发测试、原型验证
│  └─ 用免费的(智谱 GLM-4.7-Flash)或极低价(qwen-turbo ¥0.6/M)
│     月成本预估:日均 1000 次 × 500 tokens ≈ 15 万 tokens/月 ≈ ¥0.09
│
├─ 内部工具、非关键流程
│  └─ 用白菜价梯队(DeepSeek v4-flash ¥2/M,qwen3.6-flash ¥7.2/M)
│     月成本预估:日均 1000 次 × 500 tokens ≈ 15 万 tokens/月 ≈ ¥0.3~1.0
│
├─ 面向用户的产品(普通对话)
│  └─ 用性价比梯队(DeepSeek v4-pro 促销 ¥6/M,qwen3.6-plus ¥12/M)
│     月成本预估:日均 1 万次 × 1000 tokens ≈ 300 万 tokens/月 ≈ ¥18~36
│
├─ 面向用户的产品(复杂推理、代码)
│  └─ 用中高梯队(qwen3.6-max ¥20/M,DeepSeek v4-pro 常规 ¥24/M,Sonnet ¥109/M)
│     注意:同样任务 Sonnet 和 DeepSeek 价格差 18 倍,但 Sonnet 英文代码更强
│
└─ 质量要求极高、成本不敏感
   └─ 用旗舰(Claude Opus 4.7 ¥181/M,GPT-5.5 ¥218/M)
      月成本预估:日均 1000 次 × 2000 tokens ≈ 60 万 tokens/月 ≈ ¥109~131

省钱的最大杠杆:缓存

如果你有固定的 system prompt(绝大多数应用都有),缓存命中后输入成本可以降到原来的 1/10 甚至 1/50

模型 常规输入 缓存命中输入 节省
DeepSeek v4-flash ¥1.00 ¥0.02 98%
DeepSeek v4-pro(促销) ¥3.00 ¥0.025 99%
Claude Opus 4.7 ¥36.25 ¥3.63 90%
OpenAI GPT-5.5 ¥36.25 ¥3.63 90%

以实际场景为例:假设你的应用 system prompt 是 2000 tokens,用户每次对话平均 5 轮,每轮用户输入 200 tokens:

常规输入成本(按 Claude Opus 4.7):
2000(system) + 5 × 200(用户输入) = 3000 tokens/次
月均 1 万次对话 = 3000 万 tokens
常规价:30 × ¥36.25 = ¥1,087.5

启用缓存后:
system prompt 2000 tokens 仅首次收 ¥36.25 级价格
后续只需 ¥3.63/1M 的缓存命中价
实际输入成本 ≈ ¥0.007/次 + 后续 ¥3.63/1M
月均成本 ≈ ¥110

缓存直接省了 90%。

长上下文选错模型多花多少钱?

假设你的应用需要传入 100K tokens 作为上下文:

模型 100K 上下文的输入成本(单次) 备注
qwen-turbo ¥0.03 ≤128K 全窗口同价,极其便宜
DeepSeek v4-pro(促销) ¥0.30 全 1M 窗口同价
Claude Opus 4.7 ¥3.63 全 1M 窗口同价
OpenAI GPT-5.5 ¥7.25 >128K 用 long context 价(¥72.5/1M)
qwen3.6-plus ¥0.40 128K-1M 档 ¥4/1M

注意:OpenAI 在超过 128K 时单价翻倍,而 Claude 和 DeepSeek 全窗口同价。如果你的应用依赖长上下文,模型选择对成本的影响可以达到 200 倍以上

总结:按场景推荐

场景 推荐模型 输出单价 月均成本(估算)
开发测试 智谱 GLM-4.7-Flash ¥0 ¥0
高并发简单任务 qwen-turbo ¥0.60 / 1M ¥10~100
轻量对话产品 DeepSeek v4-flash ¥2.00 / 1M ¥50~500
通用对话产品 qwen3.6-flash ¥7.20 / 1M ¥200~2,000
多模态产品 qwen3.6-plus ¥12.00 / 1M ¥300~5,000
复杂推理/代码 DeepSeek v4-pro ¥6.00 / 1M ¥200~3,000
英文高质量 Claude Sonnet 4.6 ¥108.75 / 1M ¥3,000~30,000
最高质量 Claude Opus 4.7 ¥181.25 / 1M ¥5,000~50,000

(月均成本估算基于:日均 500~5000 次调用,每次 500~2000 output tokens)


💡 选模型是一个需要持续关注价格变化的事情。促销活动、新模型发布、定价调整都可能改变你的最优选择。LLMTokenPrice(llmtokenprice.com)跟踪 39+ 家大模型厂商的实时定价,涵盖 API 按量计费和订阅套餐,数据来自各厂商官方页面,每周更新。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐