开源大模型选型参考手册

目标读者:从"只刷过龙虾短视频"到"想自己搭一套"的所有人


〇、先聊龙虾——你刷到的"养龙虾"到底是啥?

你可能在短视频里刷到过这样的画面:有人在微信/QQ里跟一只"龙虾"聊天,让它帮忙整理文件、写报告、盯股票、甚至自动回消息。看着挺神奇,但你可能一脸懵——这到底是个啥?要花钱吗?我的电脑能跑吗?

别急,我们先用一个你绝对能懂的比喻,把这玩意儿背后的技术逻辑说透。

先搞清楚:龙虾本身不聪明

这是最关键的一句话:OpenClaw(龙虾)本身不是AI大脑,它只是一个"身体"。

你可以把它想象成一个没有大脑的机器人壳子——有手有脚,能帮你操作电脑、打开浏览器、读写文件、发消息。但是,它自己不会思考。它得接上一个"大脑"才能干活,这个大脑就是大语言模型(比如 DeepSeek、千问、ChatGPT 这些)。

所以整个"养龙虾"的结构是这样的:

龙虾(OpenClaw)= 手和脚 ← 免费开源,谁都能装

大模型 = 大脑 ← 这才是花钱/费算力的地方

你说话 → 龙虾把你的话转给大脑 → 大脑想好怎么做 → 龙虾动手去做

明白了这个,后面的概念就全通了。

用"造屎"来理解 AI

别笑,这可能是你这辈子见过最好懂的 AI 科普。

想象一个人吃饭的过程:吃进去 → 胃消化 → 拉出来。AI 干活的过程本质上也是这么回事:你说的话进去 → 模型处理 → 结果出来

我们一个一个对应着讲:

🍚 Token(令牌)= 你吃进去的每一口饭

AI 不是按"条"收费的,它是按"口"收费的。你跟 AI 说的每一个字、AI 回复你的每一个字,都要被切成一小块一小块的"Token"来处理。不同的 AI 切法不一样,国产模型(DeepSeek、千问)对中文很友好,大约 1~2 个中文字算 1 个 Token;国外模型(GPT)中文效率低一些,1 个字可能要 1.5~2 个 Token。

就像吃自助餐按斤称重一样——你说的话越多、让 AI 回的内容越长,消耗的 Token 就越多,花的钱就越多。

给你个概念:跟 AI 聊一轮普通对话(你说 100 字,它回 500 字),用国产模型大概消耗 400~600 个 Token。用 DeepSeek 的 API 算,这点 Token 大概花不到 1 分钱。但如果你让龙虾自动干一个大活(读 10 个文件、搜 20 个网页、写一份报告),那一次任务可能消耗几万甚至几十万 Token,费用就从几分钱变成几毛到几块钱。

🍲 模型大小 = 你的胃有多大

大模型有大有小,小的几十亿参数(4B),大的上万亿参数(1T)。

胃大的人,消化能力强,能处理更复杂的食物(难题);胃小的人,简单的饭能消化,但硬菜就搞不定了。

这就是为什么同样是"龙虾",接上 DeepSeek V3.2(685B 参数的大模型)就特别聪明,接上一个 4B 的小模型就只能干点简单活。大脑越大越聪明,但也越贵、越慢。

💪 算力 / 显卡 = 你的消化能力

吃进去的饭需要消化,Token 进去了也需要计算。算力就是消化能力——让 AI 大脑运转起来的"肌肉"。

这个"肌肉"就是显卡(GPU)。显卡越猛,消化越快——AI 回答你的速度越快。显卡太弱或者没有显卡,AI 就像得了胃病,半天憋不出一句话。

普通人玩龙虾不需要关心显卡,因为大脑跑在云端服务器上(后面解释)。但如果你想在自己电脑上跑大脑,那就得关心了。

💩 AI 的回答 = 最后拉出来的东西

所以你品品这个完整的流程:你喂进去一堆话(Token),经过一个大胃(模型)用力消化(算力),最终拉出一坨回答。胃越大、消化力越强,拉出来的东西质量越高。胃太小或者消化不良,那出来的就是……你懂的。

好了,恶心完了,但你应该彻底搞懂了。接下来说说为什么大部分人不需要自己"养胃"。

API 是啥?为什么不是直接用?

你可能想问:既然大模型那么聪明,为什么不直接装在我电脑上用?

因为大模型太大了。一个主流的大模型动辄几百 GB,需要几万块钱的显卡才能运行。就好比,一个能消化一切食物的超级胃需要占满整个厨房——你家放不下。

所以,绝大多数人的用法是:打电话点外卖。

你不需要自己有厨房(显卡),你只需要打个电话(发一条请求),告诉外卖店(云端服务器)你要吃什么,他们做好了送过来(返回结果)。

这个"打电话的过程"就叫 API 调用。API 就是 AI 公司留给你的一个"外卖电话号码"——你注册一个账号,拿到一个密钥(类似会员卡号),然后龙虾就能替你打电话叫外卖了。

本地 vs 云端:自己做饭 vs 叫外卖

到这里你应该明白了,龙虾的"大脑"有两种接法:

叫外卖(云端 API) 自己做饭(本地部署)
怎么回事 大模型跑在别人的服务器上,你通过网络调用 大模型下载到你自己电脑上跑
优点 不需要好电脑,注册就能用 完全免费(不用按 Token 付费)、数据不出你的电脑
缺点 要联网、按 Token 付费 需要像样的显卡(入门 RTX 3060 可跑小模型,高配 RTX 4090 约 1.3 万)、配置麻烦
类比 叫外卖:方便,但每顿都要花钱 自己开火:一次性买锅买灶,以后吃免费的
适合谁 绝大多数普通用户 有技术折腾能力的人、对数据隐私有极高要求的人

普通人建议:先叫外卖(用云端 API)。等你真的觉得每月 API 账单太多了,或者你不放心把数据传到云端,再考虑自己开火。

为什么有免费的也有收费的?

你可能看到有人说"龙虾是免费的",又看到有人说"一个月花了好几百"。这不矛盾:

  • 龙虾本身(OpenClaw):免费开源,谁都能下载安装,就像一个免费的 App
  • 大脑(大模型)的使用费:这是花钱的地方

免费也有门路:

  • 阿里云百炼:新用户送大量免费 Token,用千问(Qwen)模型当大脑,够普通人玩几个月
  • DeepSeek API:充 10 块钱大概能用很久,日常聊天几乎花不了多少
  • 本地跑模型:模型本身免费下载(开源的),但你需要一台有好显卡的电脑

收费的那些:

  • Kimi Claw(月之暗面):约 199 元/月包月制,不按 Token 单独收费,开箱即用不用折腾
  • 用 Claude/GPT-4 当大脑:按 Token 收费,效果最好但最贵,活跃使用一个月可能几十到几百元

⚠️ 重要提醒:龙虾好玩,但要注意安全

说完钱的事,必须提醒你一句:龙虾的权限很大,安全风险也不小。

龙虾能帮你操作电脑、读写文件、发消息——这意味着如果它被"坑了",你的电脑也跟着遭殃。2026年3月,国家互联网应急中心、公安部、多所高校都发布了 OpenClaw 安全提示,主要风险包括:

  • 恶意技能包(Skills):龙虾的能力靠安装"技能"来扩展,但有人往里面塞了木马,伪装成正常工具,实际偷你的数据
  • 权限太高:很多人图省事给龙虾开了管理员权限,一旦出问题,它可能误删你的文件甚至被攻击者远程控制
  • API 密钥泄露:你的"外卖会员卡号"如果被别人偷走,别人就能用你的钱调用 AI

普通人的安全底线:别给龙虾管理员权限、别让它碰你的网银和密码、只装官方推荐的技能包、最好在一台不存重要资料的电脑上玩。

龙虾的费用量级参考(普通人版)

玩法 你需要准备什么 大概花多少钱
白嫖体验 注册阿里云百炼,用免费额度 0 元(新用户免费 Token 够玩几个月)
便宜好用 注册 DeepSeek API,充值 10 元 10 元能聊几千轮对话
不想折腾 订阅 Kimi Claw 托管版 199 元/月,啥都不用装
自己跑大脑(入门) 一台有 RTX 4090 显卡的电脑 + 免费开源模型 整机约 1.5~2 万元(显卡占大头),之后使用 0 元
自己跑大脑(够用) RTX 3060 12G 显卡(你可能已经有了) 跑 8B 小模型,日常简单任务够用。已有显卡则额外 0 元

所以我该怎么办?

读到这里,你应该属于以下两种人之一:

👈 “我就想玩玩龙虾,不想碰技术”

→ 最简单的方式:用 Kimi Claw(注册即用)、腾讯 QQ 官方接入(扫码即用)、或阿里云百炼一键部署,不需要自己装 OpenClaw,几分钟就能上手。如果你想自己装原版 OpenClaw,需要跟着教程折腾一阵,但也不难——网上遍地都是保姆级教程。本篇到此为止,后面的内容你不需要看。

👇 “我想搞明白怎么选模型、怎么自己部署”

→ 继续往下看。接下来的正文是一份专业的开源大模型选型手册——从术语解释、模型对比、硬件需求到选型流程,帮你从"能玩"走向"会选、会配、会用"。



以下为正文——面向有一定技术基础的开发者和技术决策者


一、核心术语速查

术语 一句话定义 类比
参数量(B/亿) 模型内部可训练权重的数量,1B = 10亿个参数 相当于大脑的"神经突触数"——越多,能记住和关联的知识越多,但也越占资源
量化(Q4/Q8/FP16/BF16) 将模型权重从高精度压缩为低精度以节省显存。FP16/BF16=16位半精度浮点(模型发布的标准精度),Q8=8位整数,Q4=4位整数 像照片压缩:RAW原图 → FP16(高质量JPEG),Q8 → 中等压缩,Q4 → 高压缩,体积小了但细节有损失
上下文长度(Context Length) 模型一次对话中能"看到"和"记住"的最大文本长度,以 Token 为单位 类似工作台大小——4K 上下文 ≈ 3页A4纸,128K ≈ 一本中篇小说,1M ≈ 8本小说
Token 模型处理文本的最小单位。英文约 1 词 ≈ 1.3 Token;中文约 1 字 ≈ 1.5~2 Token 模型的"阅读字符",不等于字数,中文比英文更"费"Token
推理速度(tokens/s) 模型每秒生成的 Token 数 类似打字速度——≥20 tokens/s ≈ 流畅对话,≥50 ≈ 飞速输出
VRAM / 显存 显卡上的专用内存,模型必须加载到显存中才能运行 GPU 的"工作桌面"——模型太大就放不下
KV Cache 推理时缓存已生成内容的键值对,避免重复计算。上下文越长,KV Cache 占用越大 类似"草稿纸"——对话越长,草稿纸越多,显存越紧张
MoE(混合专家) Mixture of Experts,一个模型内含多个"专家子网络",每次只激活其中一部分。如"685B 总参数,37B 激活" 类似医院的专科体系——虽然医院有100个医生,但每个病人只需要看2~3个科室
Dense Model(密集模型) 每次推理都使用全部参数的模型,对比 MoE 全科医生——所有问题都用同一套知识回答,效率不如专科但架构更简单
微调(Fine-tune) 在预训练模型基础上,用特定领域数据继续训练以适应专业任务 招一个"通才"再做"岗前培训"——把通用模型变成领域专家
RAG Retrieval-Augmented Generation,检索增强生成:先从知识库检索相关文档,再让模型基于文档生成回答 开卷考试——不要求模型全记住,让它带着参考资料回答
多模态(Multimodal) 模型能同时理解和生成文本、图像、音频、视频等多种信息类型 从"只会读写"进化到"能看能听能说"
Embedding 模型 将文本转换为高维数学向量的模型,用于语义搜索和相似度计算 文本的"指纹提取器"——把文字变成可以数学比较的向量
Reranker(重排序器) 对检索结果进行二次精排的模型,提升 RAG 等场景的准确率 搜索结果的"质检员"——初筛后再精选最相关的

二、主流开源模型全景表(截至2026年3月)

说明

  • "参数量"列格式为 总参数 / 激活参数(MoE 模型)或 总参数(Dense 模型)
  • “上下文"列如为 A/B 格式,表示"原生上下文 / 扩展上下文(如YaRN)”
  • Qwen 系列已迭代至 Qwen 3.5(2026年2月),DeepSeek 当前最新为 V3.2(开源)及 R1-0528(推理)
  • DeepSeek R2:截至2026年3月22日仍未正式发布。据多方报道可能于2026年3月底发布,但具体参数规格尚未官方确认(各渠道传闻差异大)。请关注 DeepSeek 官方动态。
  • 版本迭代说明:Kimi K2.5 是 K1.5 的下一代(K2→K2.5);Step-3.5-Flash 是 Step-2 的迭代版本;Gemma 3 全面替代了 Gemma 2(2024年6月发布,已不推荐用于新项目);GLM-5 是 GLM-4 系列的升级版

2.1 旗舰级(200B+ 参数)

模型名称 参数量 类型 上下文 核心能力 适合场景 授权
Qwen3.5-397B-A17B 397B/17B MoE 262K 推理、代码、多语言、多模态(原生视觉) 企业级全能Agent、复杂推理 Apache 2.0
Qwen3.5-122B-A10B 122B/10B MoE 262K 旗舰与轻量之间的均衡选择 中高端服务器部署、Agent Apache 2.0
Qwen3-235B-A22B 235B/22B MoE 32K / 131K 代码、数学、Think/NoThink双模式 研究、复杂编程、Agent Apache 2.0
DeepSeek V3.2 685B/37B MoE 128K 通用对话、代码、推理 通用助手、代码生成 MIT
DeepSeek R1-0528 671B/~37B MoE 164K 深度推理(RL训练)、数学、竞赛编程 复杂逻辑推理、学术研究 MIT
Kimi K2.5 1T/32B MoE 262K 代码(HumanEval 99%)、数学(AIME 96%)、视觉Agent 编程助手、数学推理、多模态Agent MIT
GLM-5 744B/40B MoE 200K 对话(Arena Elo 1451)、SWE-bench、推理 对话系统、软件工程 MIT
GLM-4.7 (Thinking) 355B/32B MoE 200K 代码(LiveCodeBench 85%)、数学(AIME 95.7%) 编程、推理 MIT
Llama 4 Maverick 400B/17B MoE 1M 多模态(原生图文视频)、多语言 多模态应用、超长文档 Llama License
Llama 4 Scout 109B/17B MoE 10M 超长上下文、多模态 全仓库代码理解、海量文档处理 Llama License
Mistral Large 3 675B MoE 256K 通用、推理、多语言 欧洲合规部署、企业通用 Mistral商业许可(需确认)
Hunyuan 2.0 406B(MoE,激活参数未公开确认) MoE 256K 推理、Agent、双思维模式 腾讯生态集成、Agent任务 腾讯开源协议

2.2 中型(13B~70B 参数)

模型名称 参数量 类型 上下文 核心能力 适合场景 授权
Qwen3.5-27B 27B Dense 262K 推理、视觉、多语言 单卡高质量部署 Apache 2.0
Qwen3-32B 32B Dense 32K / 131K Think/NoThink双模式、媲美Qwen2.5-72B 主力开发助手 Apache 2.0
Qwen3-30B-A3B 30B/3B MoE 32K / 131K 超高效MoE,性能超QwQ-32B 消费级显卡部署、边缘设备 Apache 2.0
Llama 3.3 70B 70B Dense 128K 指令遵循(IFEval 92%)、成熟稳定 经典选择、微调基座 Llama License
Gemma 3 27B 27B Dense 128K 多模态(视觉)、多语言、轻量KV Cache 研究、端侧部署、视觉问答 Gemma License
Mistral Small 3.2 24B Dense 128K 视觉、函数调用、高效推理 单卡部署、工具调用Agent Apache 2.0
DS-R1-Distill-Qwen-32B 32B Dense 128K R1推理能力蒸馏版 中等算力深度推理 MIT
Phi-4 / Phi-4-Reasoning 14B Dense 16K / 128K 数学推理(GSM8K 94%)、代码 资源受限推理、数学教育 MIT
Command R+ 104B 104B Dense 128K RAG优化、多语言、工具调用 企业RAG、搜索增强生成 CC-BY-NC
Hunyuan-A13B 80B/13B MoE 256K 双思维模式、数学、Agent 轻量MoE部署(激活参数仅13B) 腾讯协议

2.3 小型(1B~12B 参数)

模型名称 参数量 类型 上下文 核心能力 适合场景 授权
Qwen3.5-9B 9B 混合(GDN+MoE) 262K 原生多模态、长上下文、Agent 移动端高质量助手 Apache 2.0
Qwen3-8B 8B Dense 32K / 131K Think/NoThink、100+语言 轻量对话、翻译 Apache 2.0
Qwen3-4B 4B Dense 32K / 131K 数学/代码基准媲美Qwen2.5-72B 端侧推理、嵌入式 Apache 2.0
Gemma 3 12B 12B Dense 128K 视觉理解、多语言 单卡研究、视觉任务 Gemma License
Gemma 3 4B / 1B 4B / 1B Dense 128K / 32K 轻量多模态 IoT/手机、边缘推理 Gemma License
Phi-4-mini 3.8B Dense 128K 推理、代码 超轻量部署 MIT
Llama 3.2 3B / 1B 3B / 1B Dense 128K 文本生成、边缘部署 移动端、嵌入式 Llama License
DS-R1-Distill-Qwen-7B 7B Dense 128K R1推理蒸馏版 低成本深度推理 MIT
Falcon 3 7B / 10B Dense 8K~32K 多语言(阿拉伯语强项) 中东/多语言场景 Apache 2.0 / TII License

注:Falcon 3 还有 180B 大版本(128K上下文),但在2026年3月的主流排行榜上已不在前列,此处仅列小规格版本。

2.4 专用模型(值得关注)

模型名称 定位 亮点
Qwen3-Coder-Next 编程Agent 80B MoE(3B激活),SWE-Bench媲美Sonnet 4,极低推理成本
Qwen3-Coder (480B) 旗舰编程 480B/35B MoE,7.5万亿Token训练(70%代码)。⚠️ 该参数来自第三方报道,官方未明确确认
Devstral-2-123B 编程Agent SWE-bench 72.2%,256K上下文,Mistral出品
Step-3.5-Flash 推理 196B MoE,AIME 97.3%,性价比极高
MiMo-V2-Flash 推理 309B MoE,LiveCodeBench 87%,小米出品
GPT-oss 120B/20B 通用Agent OpenAI首个开源模型,Agent能力突出,多级思维
MiniMax M2.5 通用 230B MoE,SWE-bench 80.2%(最高),OpenRouter最高用量

三、参数量能力分级

3.1 微型(1B~4B)—— “实习生级别”

通俗类比:刚入职的实习生,能完成简单的重复性任务,但复杂问题需要频繁指导。

擅长:文本分类、情感分析、简单问答、实体提取、短文摘要、表单填写、关键词匹配

不擅长:多步推理、长文档理解、复杂代码编写、专业领域深度分析、创意写作

行业 落地举例
客服 意图识别与工单分类,自动将用户消息归到退换货/投诉/咨询等类别
编程 代码补全提示、变量命名建议、简单函数生成
医疗 症状关键词提取、挂号科室推荐预筛选
法律 合同类型识别、条款关键信息提取
教育 选择题批改、单词释义查询、简单题目生成
创意 短标题/slogan生成、社媒标签推荐
制造 设备告警日志分类、简单质检报告模板填充

代表模型:Qwen3-4B、Qwen3.5-4B、Gemma 3 4B、Phi-4-mini(3.8B)、Llama 3.2 3B、Qwen3-0.6B/1.7B


3.2 小型(7B~9B)—— “初级工程师级别”

通俗类比:工作1~2年的初级工程师,能独立完成标准任务,遇到复杂问题偶尔犯错但大部分场景够用。

擅长:一般性对话、中等长度文档摘要、翻译、基础代码编写、结构化数据处理、RAG检索问答

不擅长:跨领域深度分析、复杂数学证明、大型项目架构设计、超长文档精准推理

行业 落地举例
客服 多轮对话客服机器人,处理80%常见问题
编程 单文件代码生成、Bug排查辅助、API文档编写
医疗 病历结构化、药物交互查询辅助(需结合RAG)
法律 合同要点摘要、法规检索问答
教育 作文批改初筛、知识点讲解、互动问答教学
创意 产品描述撰写、博客草稿、营销文案初版
制造 设备维护手册问答、工艺参数查询

代表模型:Qwen3-8B、Qwen3.5-9B、DS-R1-Distill-Qwen-7B、Llama 3.1-8B


3.3 中型(12B~14B)—— “高级工程师级别”

通俗类比:经验丰富的高级工程师,推理能力明显增强,可信赖地完成多数专业任务。

擅长:数学推理、复杂代码生成、中长文档分析、多语言翻译、专业领域问答(结合RAG)

不擅长:最前沿的复杂推理(仍逊于32B+)、极长上下文的精准记忆

行业 落地举例
客服 技术支持深度对话、处理专业产品投诉
编程 中等复杂度项目代码生成、代码审查
医疗 临床指南问答、医学文献摘要
法律 案例分析辅助、法律文书初稿
教育 个性化学习路径推荐、深度知识点讲解
创意 长篇博客、剧本大纲、广告策划方案
制造 质量问题根因分析辅助、SPC数据解读

代表模型:Phi-4(14B)、Qwen3-14B、Gemma 3 12B、DS-R1-Distill-Qwen-14B、Hunyuan-A13B(80B/13B MoE)


3.4 大型(24B~34B)—— “技术专家级别”

通俗类比:技术专家/架构师,能处理大部分复杂任务,性价比最佳甜点区间。

擅长:复杂推理、长文档精读、专业领域深度分析、复杂代码架构、Agent工作流

不擅长:极限推理任务(博士级科学QA)、全面超越闭源旗舰模型

行业 落地举例
客服 全场景智能客服(含售前咨询、技术支持、投诉处理)
编程 项目级代码重构、跨文件Bug修复、API设计
医疗 辅助诊断建议(需医生确认)、药物研究文献综述
法律 完整合同审查、判例对比分析、法律备忘录起草
教育 自适应教学系统、论文写作指导
创意 长篇小说写作、品牌策略报告、视频脚本
制造 供应链异常分析、生产排程优化建议、FMEA辅助

代表模型:Qwen3-32B、Qwen3-30B-A3B(MoE,仅3B激活!)、Qwen3.5-27B、DS-R1-Distill-Qwen-32B、Gemma 3 27B、Mistral Small 3.2(24B)

特别推荐Qwen3-30B-A3B 是当前性价比之王——30B总参数但每次只激活3B,在RTX 4090 单卡上流畅运行,性能却超越了32B密集模型 QwQ-32B。

更新提示:Qwen3.5-35B-A3B 已于2026年2月24日发布,是 Qwen3-30B-A3B 的直接升级版(增加原生多模态、扩展至262K上下文)。如推理框架已支持 Qwen3.5,建议优先选用新版。


3.5 超大型(70B+)—— “领域权威级别”

通俗类比:资深教授/行业权威,知识渊博、推理严密,几乎能处理任何复杂任务。

擅长:博士级科学推理、复杂多步逻辑链、专业创意写作、极高精度翻译

不擅长:对硬件要求极高(密集模型需 140GB+ 显存),部署成本不适合个人

行业 落地举例
客服 企业级智能助手(融合知识库、CRM、工单系统)
编程 全栈开发Agent、大型代码库重构、安全审计
医疗 多科室会诊辅助、药物发现文献挖掘
法律 复杂诉讼策略分析、跨法域法律研究
教育 高等教育课程设计、学术论文审阅
创意 电影剧本、品牌全案、高质量文学创作
制造 数字孪生系统知识引擎、全链路质量追溯

代表模型:Llama 3.3 70B、DS-R1-Distill-Llama-70B、Command R+ 104B、Qwen2.5-72B


3.6 旗舰 MoE(200B+)—— “超级团队级别”

通俗类比:一家拥有多个专科团队的顶级咨询公司——每个问题自动分配给最擅长的专家团队,综合能力比肩甚至超越闭源模型。

擅长:全场景覆盖、前沿推理、代码竞赛水平编程、Agent自主任务执行、多模态理解

不擅长:部署成本高(需多卡或集群),单卡不可用(除非极端量化)

行业 落地举例
客服 企业AI中台(统一对话、检索、Agent平台)
编程 自主编程Agent(SWE-bench > 75%)、全自动CI/CD辅助
医疗 科研级文献分析平台、临床决策支持系统
法律 AI律师助理平台(全流程案件管理)
教育 大规模个性化教育平台
创意 AI内容工厂(文本+图像+视频多模态创作)
制造 工业大脑(融合多模态传感数据的智能决策)

代表模型:Kimi K2.5(1T/32B)、GLM-5(744B/40B)、DeepSeek V3.2(685B/37B)、Qwen3.5-397B-A17B、Llama 4 Maverick(400B/17B)、MiniMax M2.5(230B)


四、硬件需求对照表

4.1 按部署场景分类

场景一:个人开发者 / 学习研究

以下成本为整机预估(含显卡、CPU、内存、存储、主板等),不含显示器。

配置方案 显卡 显存 内存 存储 CPU 能跑的最大模型 预估整机成本(RMB)
入门 RTX 3060 12G 12GB 32GB 512GB SSD R5 5600 7~8B Q4(Qwen3-8B Q4) 4,000~6,000
甜点 RTX 4090 24G 24GB 64GB 1TB SSD R7 5700X+ 30B MoE Q4(Qwen3-30B-A3B Q4)或 14B Q8 15,000~20,000
高配 RTX 3090 24G ×2 48GB 64GB 1TB SSD R7 5700X+ 32B Q870B Q4(张量并行) 12,000~18,000(二手3090)
场景二:小团队 / 创业公司(5~20人使用)
配置方案 显卡 显存 内存 能跑的模型 预估成本(RMB)
基础 RTX 4090 ×2 48GB 128GB 70B Q432B Q8(张量并行) 35,000~50,000
推荐 A100 80G ×1 80GB 128GB 70B Q4(舒适)/ 70B Q8(紧张)/ 32B FP16 80,000~120,000(二手/租赁更低)
高配 A100 80G ×2 160GB 256GB 70B FP16(紧张)或 235B MoE Q4(舒适) 160,000~250,000
场景三:企业级部署

关键公式回顾:总显存需求 = 总参数量 × 每参数字节数 + KV Cache + 框架开销。685B FP16 ≈ 1,370GB,685B Q4 ≈ 343GB。

配置方案 显卡 显存 能跑的模型 预估成本(RMB)
入门级 H100 80G ×4 320GB 235B MoE Q8400B MoE Q4 100万~150万
生产级 H100 80G ×8 640GB 685B MoE Q4(DeepSeek V3.2满血)+ 充裕KV Cache 200万~300万
旗舰级 H100 ×16+ 或 H800 集群 1.3TB+ 685B MoE FP161T级模型(Kimi K2.5)Q4 + 高并发 500万+
性价比方案 L40S 48G ×4 192GB 70B FP16235B MoE Q4 60万~80万
4090集群 RTX 4090 ×8 192GB 同 L40S ×4,但互联带宽更低 12万~16万
纯 CPU 推理:能跑吗?

可以跑,但速度很慢。使用 llama.cpp 在纯 CPU(如 32核 64GB内存)上运行 7B Q4 模型,速度约 2~5 tokens/s——足够批处理但不够实时对话。更大的模型(14B+)在纯 CPU 上速度降至 <2 tokens/s,仅适合离线分析、文档批量处理。适合场景:无GPU环境的文本分类、离线翻译、定时批处理。

Apple Silicon 实际可用性
芯片 统一内存 能跑的模型 实际速度
M2 Max 32GB 32GB 14B Q8 或 32B Q4(推荐Q4,FP16偏紧) 15~25 tokens/s
M3 Max 48GB 48GB 32B Q8 或 70B Q4(均紧张,长对话受限) 15~30 tokens/s
M4 Max 48GB 48GB 同 M3 Max,推理速度提升约10~15% 18~35 tokens/s
M3 Ultra 128GB 128GB 70B Q8(舒适)、235B MoE Q4(紧张) 10~20 tokens/s
M4 Ultra 192GB 192GB 70B FP16、235B MoE Q4(舒适运行) 12~25 tokens/s

Apple Silicon 的优势是统一内存大、功耗低、免驱动,非常适合个人开发者做原型和研究。但 GPU 吞吐量不如 NVIDIA,不适合高并发推理。


4.2 量化对显存的影响表

经验公式:FP16 显存 ≈ 参数量(B) × 2 GB;Q8 ≈ × 1 GB;Q4 ≈ × 0.5 GB。另需加 10%~20% 的 KV Cache 开销。

模型参数 FP16 Q8 Q4 质量说明
7B ~14 GB ~7 GB ~4 GB Q4损失约3~5%,日常对话几乎无感
13B ~26 GB ~13 GB ~7 GB Q4损失约4~6%,专业任务可感知
14B(Phi-4) ~28 GB ~14 GB ~8 GB Q8即为甜点,Q4牺牲少量数学精度
27B(Gemma 3) ~54 GB ~27 GB ~14 GB Q4可单卡4090,Q8需双卡
32B ~64 GB ~32 GB ~17 GB Q4需24GB卡可勉强跑(加KV Cache紧张)
70B ~140 GB ~70 GB ~35 GB Q4需双4090或单A100,FP16需2×A100
MoE 30B-A3B ~60 GB ~30 GB ~17 GB MoE必须加载全部权重;Q4可跑在24G卡上,12G卡装不下

MoE显存特别说明:MoE模型虽然每次只激活少量参数(如3B),但所有专家权重(30B)都必须常驻显存。因此显存占用取决于总参数量而非激活参数量。30B-A3B的Q4量化实际占用约15~17GB + KV Cache,单张RTX 4090(24G)可运行,RTX 3060(12G)不可。


五、推理速度参考表(tokens/s)

以下为单用户、batch size=1、输出生成阶段的典型速度区间。实际速度受 prompt 长度、量化方式、推理框架(vLLM/llama.cpp/SGLang)等多因素影响。

符号说明:❌ = 显存不足无法运行;⚠️ = 显存极度紧张,仅短上下文可用,不推荐;— = 该硬件跑此模型无意义(用单卡即可)。

硬件 7B Q4 7B FP16 14B Q4 32B Q4 70B Q4 MoE 30B-A3B Q4
RTX 3060 12G 30~50 ⚠️ 紧张 15~25 ❌(显存不足)
RTX 4090 24G 80~120 40~60 40~60 20~35 50~80
RTX 3090 24G 50~80 25~40 25~40 12~20 30~50
RTX 4090 ×2 80~100 70~90 35~50 15~25
A100 80G 100~150 80~120 60~80 40~60 20~35 80~120
H100 80G 150~200 120~160 80~120 50~80 30~50 100~150
M3 Max 48G 40~60 20~35 20~30 15~25 ⚠️ 8~15 25~40
纯CPU(32核) 3~5 1~2 1~3 <1 <0.5 2~4

速度分级参考

速度区间 体验等级 适合场景
≥40 tokens/s 极速流畅 实时对话、语音助手、Agent循环
20~40 tokens/s 流畅对话 交互式编程助手、在线客服
10~20 tokens/s 可接受 文档生成、非实时问答
3~10 tokens/s 等待感明显 批量文档处理、后台分析
❤️ tokens/s 仅适合批处理 离线翻译、定时报告生成

影响推理速度的关键因素

  1. 量化精度:Q4 比 FP16 快约 2~3 倍(计算量减半+显存带宽需求降低)
  2. Batch Size:并发用户增多时,吞吐量上升但单用户延迟增加
  3. KV Cache:上下文越长,KV Cache越大,速度越慢。128K上下文的KV Cache可能占用数GB显存
  4. 显存带宽:推理主要瓶颈是访存(memory-bound),HBM3(H100)比 GDDR6X(4090)快约 3 倍
  5. 推理框架:vLLM/SGLang 比原生 HuggingFace 快 2~5 倍(PagedAttention、连续批处理等优化)
  6. MoE 路由开销:MoE模型有额外的专家选择开销,但因激活参数少,总体仍快于同性能的密集模型

六、选型决策流程图

日常对话/客服

代码/编程

深度推理/数学/科研

多模态/图文理解

RAG/知识库问答

个人/本地

团队服务器

云端API

≤6000元 / 12G显存

≤20000元 / 24G显存

Mac ≥32G内存

简单补全/脚本

项目级开发

Agent自主编程

标准推理

竞赛/博士级

基础图文

深度多模态

开始选型

1. 主要用途?
2. 部署环境?

代码任务复杂度?

推理深度?

多模态需求级别?

Qwen3-32B + Embedding + Reranker
或 Command R+(非商用场景)

3. 预算?

Qwen3-32B 或 Qwen3-30B-A3B

GLM-5 / Kimi K2.5 / DeepSeek V3.2 API

Qwen3-8B Q4 首选,或 Qwen3-4B Q8

Qwen3-30B-A3B Q4 — 性价比之王

Qwen3-32B Q4 或 Gemma 3 27B

Qwen3-8B 或 Phi-4

Qwen3-Coder-Next / DS-R1-Distill-32B

硬件充足?

Kimi K2.5 / GLM-4.7 / DeepSeek V3.2

Qwen3-Coder-Next 80B-A3B

Qwen3-32B Thinking模式

DeepSeek R1-0528 / Kimi K2.5 / GLM-5

Gemma 3 27B / Qwen3.5-9B

Llama 4 Maverick / Qwen3.5-397B

第4步:延迟校准(选定模型后的最终调整)

  • 如果需要实时交互(≥20 tokens/s):优先选 Q4 量化 + 强显卡,或退一级选更小的模型
  • 如果是批量处理(可容忍慢速):可以选更大模型的低量化版,甚至纯 CPU 部署
  • 参照第五节速度表,确认你的硬件 + 模型组合能否达到目标速度

快速选型对照表

你的情况 推荐模型 推荐硬件
个人学习,RTX 3060 12G Qwen3-8B Q4(首选)或 Qwen3-4B Q8 现有配置即可
个人开发,RTX 4090 24G Qwen3-30B-A3B Q4(通用)/ DS-R1-Distill-32B Q4(推理) 现有配置即可
小团队内部助手,5~10人 Qwen3-32B Q8(双卡)或 FP16(A100) RTX 4090 ×2 或 A100 80G ×1
企业级对话平台 GLM-5 / Kimi K2.5 H100 ×2+ 或 API
编程Agent平台 Qwen3-Coder-Next / Kimi K2.5 视并发需求选配
超长文档分析(100万Token) Llama 4 Scout(10M上下文) H100 ×2+(KV Cache大)
预算极低、无GPU Qwen3-4B Q4 纯CPU 32GB内存即可,约5~8 tokens/s
需要中文+日文多语言 Qwen3.5系列(201语言)或 Gemma 3(140+语言) 按参数量选配
严格数据合规、不出境 任何 MIT/Apache 2.0 开源模型本地部署 按需选配

最后提醒:开源模型迭代极快。本手册基于2026年3月数据,建议每季度复查一次。关注 Ollama、LM Studio、vLLM 等工具的兼容更新,以及 Hugging Face Open LLM Leaderboard 和 LMSYS Chatbot Arena 排名变化。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐