免费 vs 付费:2026 年 LLM API 价格全解析
免费 vs 付费:2026 年 LLM API 价格全解析
免费模型到底能干什么?付费模型比免费的强多少?算清楚这笔账,一年能省几十万。
AI 行业有一个反直觉的现象:最贵的模型(GPT-5.5-pro,¥1,305/1M 输出)和最便宜的(qwen-turbo,¥0.6/1M 输出),价格差距 2,175 倍。
所以「付费还是免费」不是一个非此即彼的选择,而是要搞清楚:免费的能干什么?什么情况下必须付费?付费付到哪个档位性价比最高?
本文所有价格数据来自各厂商官方页面,统一折算为人民币(¥),美元按 1 USD ≈ 7.25 CNY 换算。
当前各大厂的免费/低价策略
| 厂商 | 免费/低价方式 | 最低输出价格 | 限额/条件 |
|---|---|---|---|
| 通义千问 | qwen-turbo 极低价 + 新用户送额度 | ¥0.60 / 1M | 送 100万 tokens,90天有效 |
| 智谱 AI | GLM-4.7-Flash 完全免费 | ¥0(免费) | 速率限制 |
| DeepSeek | 2.5 折促销 + v4-flash 低价 | ¥2.00 / 1M | v4-pro 促销至 2026/05/31 |
| 通义千问 | qwen-long 超低价长上下文 | ¥2.00 / 1M | 10M 上下文 |
| Google Gemini | Free 套餐 | Free tier | 速率限制 |
| 百度文心 | 免费额度(需登录) | 登录查看 | 速率限制 |
| Mistral AI | Free 套餐 | ¥0(Free) | 速率限制 |
| Anthropic | 网页版 Free 使用 | ¥36.25 / 1M | API 无免费额度 |
| OpenAI | 网页版 Free 使用 | ¥217.50 / 1M | API 无免费额度 |
(价格取各厂商最低档上下文。OpenAI/Anthropic 取最低档短上下文价格)
免费/低价模型能干什么?
拿通义千问 qwen-turbo(¥0.6/1M 输出)和智谱 GLM-4.7-Flash(免费)实测:
✅ 完全可以干的:
- 文本摘要、改写、翻译
- 简单问答、客服对话
- 内容分类、情感分析
- 代码补全(非复杂逻辑)
- 文章大纲生成
⚠️ 勉强能干的:
- 中等复杂度代码生成(偶有语法错误)
- 长文创作(500字以上连贯性下降)
- 数据分析(需要清晰 prompt)
❌ 不要用免费/极低价的:
- 复杂推理(数学证明、多步逻辑链)
- 高质量长文(2000字以上)
- 多轮复杂对话(容易丢失上下文)
- 生产环境关键链路(稳定性、SLA 无法保证)
- 多模态任务(免费模型通常不支持图片/视频/语音输入)
什么时候该付费?付多少?
按场景的决策树:
你的场景是什么?
│
├─ 开发测试、原型验证
│ └─ 用免费的(智谱 GLM-4.7-Flash)或极低价(qwen-turbo ¥0.6/M)
│ 月成本预估:日均 1000 次 × 500 tokens ≈ 15 万 tokens/月 ≈ ¥0.09
│
├─ 内部工具、非关键流程
│ └─ 用白菜价梯队(DeepSeek v4-flash ¥2/M,qwen3.6-flash ¥7.2/M)
│ 月成本预估:日均 1000 次 × 500 tokens ≈ 15 万 tokens/月 ≈ ¥0.3~1.0
│
├─ 面向用户的产品(普通对话)
│ └─ 用性价比梯队(DeepSeek v4-pro 促销 ¥6/M,qwen3.6-plus ¥12/M)
│ 月成本预估:日均 1 万次 × 1000 tokens ≈ 300 万 tokens/月 ≈ ¥18~36
│
├─ 面向用户的产品(复杂推理、代码)
│ └─ 用中高梯队(qwen3.6-max ¥20/M,DeepSeek v4-pro 常规 ¥24/M,Sonnet ¥109/M)
│ 注意:同样任务 Sonnet 和 DeepSeek 价格差 18 倍,但 Sonnet 英文代码更强
│
└─ 质量要求极高、成本不敏感
└─ 用旗舰(Claude Opus 4.7 ¥181/M,GPT-5.5 ¥218/M)
月成本预估:日均 1000 次 × 2000 tokens ≈ 60 万 tokens/月 ≈ ¥109~131
省钱的最大杠杆:缓存
如果你有固定的 system prompt(绝大多数应用都有),缓存命中后输入成本可以降到原来的 1/10 甚至 1/50:
| 模型 | 常规输入 | 缓存命中输入 | 节省 |
|---|---|---|---|
| DeepSeek v4-flash | ¥1.00 | ¥0.02 | 98% |
| DeepSeek v4-pro(促销) | ¥3.00 | ¥0.025 | 99% |
| Claude Opus 4.7 | ¥36.25 | ¥3.63 | 90% |
| OpenAI GPT-5.5 | ¥36.25 | ¥3.63 | 90% |
以实际场景为例:假设你的应用 system prompt 是 2000 tokens,用户每次对话平均 5 轮,每轮用户输入 200 tokens:
常规输入成本(按 Claude Opus 4.7):
2000(system) + 5 × 200(用户输入) = 3000 tokens/次
月均 1 万次对话 = 3000 万 tokens
常规价:30 × ¥36.25 = ¥1,087.5
启用缓存后:
system prompt 2000 tokens 仅首次收 ¥36.25 级价格
后续只需 ¥3.63/1M 的缓存命中价
实际输入成本 ≈ ¥0.007/次 + 后续 ¥3.63/1M
月均成本 ≈ ¥110
缓存直接省了 90%。
长上下文选错模型多花多少钱?
假设你的应用需要传入 100K tokens 作为上下文:
| 模型 | 100K 上下文的输入成本(单次) | 备注 |
|---|---|---|
| qwen-turbo | ¥0.03 | ≤128K 全窗口同价,极其便宜 |
| DeepSeek v4-pro(促销) | ¥0.30 | 全 1M 窗口同价 |
| Claude Opus 4.7 | ¥3.63 | 全 1M 窗口同价 |
| OpenAI GPT-5.5 | ¥7.25 | >128K 用 long context 价(¥72.5/1M) |
| qwen3.6-plus | ¥0.40 | 128K-1M 档 ¥4/1M |
注意:OpenAI 在超过 128K 时单价翻倍,而 Claude 和 DeepSeek 全窗口同价。如果你的应用依赖长上下文,模型选择对成本的影响可以达到 200 倍以上。
总结:按场景推荐
| 场景 | 推荐模型 | 输出单价 | 月均成本(估算) |
|---|---|---|---|
| 开发测试 | 智谱 GLM-4.7-Flash | ¥0 | ¥0 |
| 高并发简单任务 | qwen-turbo | ¥0.60 / 1M | ¥10~100 |
| 轻量对话产品 | DeepSeek v4-flash | ¥2.00 / 1M | ¥50~500 |
| 通用对话产品 | qwen3.6-flash | ¥7.20 / 1M | ¥200~2,000 |
| 多模态产品 | qwen3.6-plus | ¥12.00 / 1M | ¥300~5,000 |
| 复杂推理/代码 | DeepSeek v4-pro | ¥6.00 / 1M | ¥200~3,000 |
| 英文高质量 | Claude Sonnet 4.6 | ¥108.75 / 1M | ¥3,000~30,000 |
| 最高质量 | Claude Opus 4.7 | ¥181.25 / 1M | ¥5,000~50,000 |
(月均成本估算基于:日均 500~5000 次调用,每次 500~2000 output tokens)
💡 选模型是一个需要持续关注价格变化的事情。促销活动、新模型发布、定价调整都可能改变你的最优选择。LLMTokenPrice(llmtokenprice.com)跟踪 39+ 家大模型厂商的实时定价,涵盖 API 按量计费和订阅套餐,数据来自各厂商官方页面,每周更新。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)