龙虾介绍大模型说明-想入门的先看看少走弯路

laoliu1996

1029人浏览 · 2026-03-22 16:55:39

laoliu1996 · 2026-03-22 16:55:39 发布

开源大模型选型参考手册

目标读者：从"只刷过龙虾短视频"到"想自己搭一套"的所有人

〇、先聊龙虾——你刷到的"养龙虾"到底是啥？

你可能在短视频里刷到过这样的画面：有人在微信/QQ里跟一只"龙虾"聊天，让它帮忙整理文件、写报告、盯股票、甚至自动回消息。看着挺神奇，但你可能一脸懵——这到底是个啥？要花钱吗？我的电脑能跑吗？

别急，我们先用一个你绝对能懂的比喻，把这玩意儿背后的技术逻辑说透。

先搞清楚：龙虾本身不聪明

这是最关键的一句话：OpenClaw（龙虾）本身不是AI大脑，它只是一个"身体"。

你可以把它想象成一个没有大脑的机器人壳子——有手有脚，能帮你操作电脑、打开浏览器、读写文件、发消息。但是，它自己不会思考。它得接上一个"大脑"才能干活，这个大脑就是大语言模型（比如 DeepSeek、千问、ChatGPT 这些）。

所以整个"养龙虾"的结构是这样的：

龙虾（OpenClaw）= 手和脚 ← 免费开源，谁都能装

大模型 = 大脑 ← 这才是花钱/费算力的地方

你说话 → 龙虾把你的话转给大脑 → 大脑想好怎么做 → 龙虾动手去做

明白了这个，后面的概念就全通了。

用"造屎"来理解 AI

别笑，这可能是你这辈子见过最好懂的 AI 科普。

想象一个人吃饭的过程：吃进去 → 胃消化 → 拉出来。AI 干活的过程本质上也是这么回事：你说的话进去 → 模型处理 → 结果出来。

我们一个一个对应着讲：

🍚 Token（令牌）= 你吃进去的每一口饭

AI 不是按"条"收费的，它是按"口"收费的。你跟 AI 说的每一个字、AI 回复你的每一个字，都要被切成一小块一小块的"Token"来处理。不同的 AI 切法不一样，国产模型（DeepSeek、千问）对中文很友好，大约 1~2 个中文字算 1 个 Token；国外模型（GPT）中文效率低一些，1 个字可能要 1.5~2 个 Token。

就像吃自助餐按斤称重一样——你说的话越多、让 AI 回的内容越长，消耗的 Token 就越多，花的钱就越多。

给你个概念：跟 AI 聊一轮普通对话（你说 100 字，它回 500 字），用国产模型大概消耗 400~600 个 Token。用 DeepSeek 的 API 算，这点 Token 大概花不到 1 分钱。但如果你让龙虾自动干一个大活（读 10 个文件、搜 20 个网页、写一份报告），那一次任务可能消耗几万甚至几十万 Token，费用就从几分钱变成几毛到几块钱。

🍲 模型大小 = 你的胃有多大

大模型有大有小，小的几十亿参数（4B），大的上万亿参数（1T）。

胃大的人，消化能力强，能处理更复杂的食物（难题）；胃小的人，简单的饭能消化，但硬菜就搞不定了。

这就是为什么同样是"龙虾"，接上 DeepSeek V3.2（685B 参数的大模型）就特别聪明，接上一个 4B 的小模型就只能干点简单活。大脑越大越聪明，但也越贵、越慢。

💪 算力 / 显卡 = 你的消化能力

吃进去的饭需要消化，Token 进去了也需要计算。算力就是消化能力——让 AI 大脑运转起来的"肌肉"。

这个"肌肉"就是显卡（GPU）。显卡越猛，消化越快——AI 回答你的速度越快。显卡太弱或者没有显卡，AI 就像得了胃病，半天憋不出一句话。

普通人玩龙虾不需要关心显卡，因为大脑跑在云端服务器上（后面解释）。但如果你想在自己电脑上跑大脑，那就得关心了。

💩 AI 的回答 = 最后拉出来的东西

所以你品品这个完整的流程：你喂进去一堆话（Token），经过一个大胃（模型）用力消化（算力），最终拉出一坨回答。胃越大、消化力越强，拉出来的东西质量越高。胃太小或者消化不良，那出来的就是……你懂的。

好了，恶心完了，但你应该彻底搞懂了。接下来说说为什么大部分人不需要自己"养胃"。

API 是啥？为什么不是直接用？

你可能想问：既然大模型那么聪明，为什么不直接装在我电脑上用？

因为大模型太大了。一个主流的大模型动辄几百 GB，需要几万块钱的显卡才能运行。就好比，一个能消化一切食物的超级胃需要占满整个厨房——你家放不下。

所以，绝大多数人的用法是：打电话点外卖。

你不需要自己有厨房（显卡），你只需要打个电话（发一条请求），告诉外卖店（云端服务器）你要吃什么，他们做好了送过来（返回结果）。

这个"打电话的过程"就叫 API 调用。API 就是 AI 公司留给你的一个"外卖电话号码"——你注册一个账号，拿到一个密钥（类似会员卡号），然后龙虾就能替你打电话叫外卖了。

本地 vs 云端：自己做饭 vs 叫外卖

到这里你应该明白了，龙虾的"大脑"有两种接法：

	叫外卖（云端 API）	自己做饭（本地部署）
怎么回事	大模型跑在别人的服务器上，你通过网络调用	大模型下载到你自己电脑上跑
优点	不需要好电脑，注册就能用	完全免费（不用按 Token 付费）、数据不出你的电脑
缺点	要联网、按 Token 付费	需要像样的显卡（入门 RTX 3060 可跑小模型，高配 RTX 4090 约 1.3 万）、配置麻烦
类比	叫外卖：方便，但每顿都要花钱	自己开火：一次性买锅买灶，以后吃免费的
适合谁	绝大多数普通用户	有技术折腾能力的人、对数据隐私有极高要求的人

普通人建议：先叫外卖（用云端 API）。等你真的觉得每月 API 账单太多了，或者你不放心把数据传到云端，再考虑自己开火。

为什么有免费的也有收费的？

你可能看到有人说"龙虾是免费的"，又看到有人说"一个月花了好几百"。这不矛盾：

龙虾本身（OpenClaw）：免费开源，谁都能下载安装，就像一个免费的 App
大脑（大模型）的使用费：这是花钱的地方

免费也有门路：

阿里云百炼：新用户送大量免费 Token，用千问（Qwen）模型当大脑，够普通人玩几个月
DeepSeek API：充 10 块钱大概能用很久，日常聊天几乎花不了多少
本地跑模型：模型本身免费下载（开源的），但你需要一台有好显卡的电脑

收费的那些：

Kimi Claw（月之暗面）：约 199 元/月包月制，不按 Token 单独收费，开箱即用不用折腾
用 Claude/GPT-4 当大脑：按 Token 收费，效果最好但最贵，活跃使用一个月可能几十到几百元

⚠️ 重要提醒：龙虾好玩，但要注意安全

说完钱的事，必须提醒你一句：龙虾的权限很大，安全风险也不小。

龙虾能帮你操作电脑、读写文件、发消息——这意味着如果它被"坑了"，你的电脑也跟着遭殃。2026年3月，国家互联网应急中心、公安部、多所高校都发布了 OpenClaw 安全提示，主要风险包括：

恶意技能包（Skills）：龙虾的能力靠安装"技能"来扩展，但有人往里面塞了木马，伪装成正常工具，实际偷你的数据
权限太高：很多人图省事给龙虾开了管理员权限，一旦出问题，它可能误删你的文件甚至被攻击者远程控制
API 密钥泄露：你的"外卖会员卡号"如果被别人偷走，别人就能用你的钱调用 AI

普通人的安全底线：别给龙虾管理员权限、别让它碰你的网银和密码、只装官方推荐的技能包、最好在一台不存重要资料的电脑上玩。

龙虾的费用量级参考（普通人版）

玩法	你需要准备什么	大概花多少钱
白嫖体验	注册阿里云百炼，用免费额度	0 元（新用户免费 Token 够玩几个月）
便宜好用	注册 DeepSeek API，充值 10 元	10 元能聊几千轮对话
不想折腾	订阅 Kimi Claw 托管版	199 元/月，啥都不用装
自己跑大脑（入门）	一台有 RTX 4090 显卡的电脑 + 免费开源模型	整机约 1.5~2 万元（显卡占大头），之后使用 0 元
自己跑大脑（够用）	RTX 3060 12G 显卡（你可能已经有了）	跑 8B 小模型，日常简单任务够用。已有显卡则额外 0 元

所以我该怎么办？

读到这里，你应该属于以下两种人之一：

👈 “我就想玩玩龙虾，不想碰技术”

→ 最简单的方式：用 Kimi Claw（注册即用）、腾讯 QQ 官方接入（扫码即用）、或阿里云百炼一键部署，不需要自己装 OpenClaw，几分钟就能上手。如果你想自己装原版 OpenClaw，需要跟着教程折腾一阵，但也不难——网上遍地都是保姆级教程。本篇到此为止，后面的内容你不需要看。

👇 “我想搞明白怎么选模型、怎么自己部署”

→ 继续往下看。接下来的正文是一份专业的开源大模型选型手册——从术语解释、模型对比、硬件需求到选型流程，帮你从"能玩"走向"会选、会配、会用"。

以下为正文——面向有一定技术基础的开发者和技术决策者

一、核心术语速查

术语	一句话定义	类比
参数量（B/亿）	模型内部可训练权重的数量，1B = 10亿个参数	相当于大脑的"神经突触数"——越多，能记住和关联的知识越多，但也越占资源
量化（Q4/Q8/FP16/BF16）	将模型权重从高精度压缩为低精度以节省显存。FP16/BF16=16位半精度浮点（模型发布的标准精度），Q8=8位整数，Q4=4位整数	像照片压缩：RAW原图 → FP16（高质量JPEG），Q8 → 中等压缩，Q4 → 高压缩，体积小了但细节有损失
上下文长度（Context Length）	模型一次对话中能"看到"和"记住"的最大文本长度，以 Token 为单位	类似工作台大小——4K 上下文 ≈ 3页A4纸，128K ≈ 一本中篇小说，1M ≈ 8本小说
Token	模型处理文本的最小单位。英文约 1 词 ≈ 1.3 Token；中文约 1 字 ≈ 1.5~2 Token	模型的"阅读字符"，不等于字数，中文比英文更"费"Token
推理速度（tokens/s）	模型每秒生成的 Token 数	类似打字速度——≥20 tokens/s ≈ 流畅对话，≥50 ≈ 飞速输出
VRAM / 显存	显卡上的专用内存，模型必须加载到显存中才能运行	GPU 的"工作桌面"——模型太大就放不下
KV Cache	推理时缓存已生成内容的键值对，避免重复计算。上下文越长，KV Cache 占用越大	类似"草稿纸"——对话越长，草稿纸越多，显存越紧张
MoE（混合专家）	Mixture of Experts，一个模型内含多个"专家子网络"，每次只激活其中一部分。如"685B 总参数，37B 激活"	类似医院的专科体系——虽然医院有100个医生，但每个病人只需要看2~3个科室
Dense Model（密集模型）	每次推理都使用全部参数的模型，对比 MoE	全科医生——所有问题都用同一套知识回答，效率不如专科但架构更简单
微调（Fine-tune）	在预训练模型基础上，用特定领域数据继续训练以适应专业任务	招一个"通才"再做"岗前培训"——把通用模型变成领域专家
RAG	Retrieval-Augmented Generation，检索增强生成：先从知识库检索相关文档，再让模型基于文档生成回答	开卷考试——不要求模型全记住，让它带着参考资料回答
多模态（Multimodal）	模型能同时理解和生成文本、图像、音频、视频等多种信息类型	从"只会读写"进化到"能看能听能说"
Embedding 模型	将文本转换为高维数学向量的模型，用于语义搜索和相似度计算	文本的"指纹提取器"——把文字变成可以数学比较的向量
Reranker（重排序器）	对检索结果进行二次精排的模型，提升 RAG 等场景的准确率	搜索结果的"质检员"——初筛后再精选最相关的

二、主流开源模型全景表（截至2026年3月）

说明：

"参数量"列格式为 总参数 / 激活参数（MoE 模型）或 总参数（Dense 模型）

“上下文"列如为 A/B 格式，表示"原生上下文 / 扩展上下文（如YaRN）”

Qwen 系列已迭代至 Qwen 3.5（2026年2月），DeepSeek 当前最新为 V3.2（开源）及 R1-0528（推理）

DeepSeek R2：截至2026年3月22日仍未正式发布。据多方报道可能于2026年3月底发布，但具体参数规格尚未官方确认（各渠道传闻差异大）。请关注 DeepSeek 官方动态。

版本迭代说明：Kimi K2.5 是 K1.5 的下一代（K2→K2.5）；Step-3.5-Flash 是 Step-2 的迭代版本；Gemma 3 全面替代了 Gemma 2（2024年6月发布，已不推荐用于新项目）；GLM-5 是 GLM-4 系列的升级版

2.1 旗舰级（200B+ 参数）

模型名称	参数量	类型	上下文	核心能力	适合场景	授权
Qwen3.5-397B-A17B	397B/17B	MoE	262K	推理、代码、多语言、多模态（原生视觉）	企业级全能Agent、复杂推理	Apache 2.0
Qwen3.5-122B-A10B	122B/10B	MoE	262K	旗舰与轻量之间的均衡选择	中高端服务器部署、Agent	Apache 2.0
Qwen3-235B-A22B	235B/22B	MoE	32K / 131K	代码、数学、Think/NoThink双模式	研究、复杂编程、Agent	Apache 2.0
DeepSeek V3.2	685B/37B	MoE	128K	通用对话、代码、推理	通用助手、代码生成	MIT
DeepSeek R1-0528	671B/~37B	MoE	164K	深度推理（RL训练）、数学、竞赛编程	复杂逻辑推理、学术研究	MIT
Kimi K2.5	1T/32B	MoE	262K	代码（HumanEval 99%）、数学（AIME 96%）、视觉Agent	编程助手、数学推理、多模态Agent	MIT
GLM-5	744B/40B	MoE	200K	对话（Arena Elo 1451）、SWE-bench、推理	对话系统、软件工程	MIT
GLM-4.7 (Thinking)	355B/32B	MoE	200K	代码（LiveCodeBench 85%）、数学（AIME 95.7%）	编程、推理	MIT
Llama 4 Maverick	400B/17B	MoE	1M	多模态（原生图文视频）、多语言	多模态应用、超长文档	Llama License
Llama 4 Scout	109B/17B	MoE	10M	超长上下文、多模态	全仓库代码理解、海量文档处理	Llama License
Mistral Large 3	675B	MoE	256K	通用、推理、多语言	欧洲合规部署、企业通用	Mistral商业许可（需确认）
Hunyuan 2.0	406B（MoE，激活参数未公开确认）	MoE	256K	推理、Agent、双思维模式	腾讯生态集成、Agent任务	腾讯开源协议

2.2 中型（13B~70B 参数）

模型名称	参数量	类型	上下文	核心能力	适合场景	授权
Qwen3.5-27B	27B	Dense	262K	推理、视觉、多语言	单卡高质量部署	Apache 2.0
Qwen3-32B	32B	Dense	32K / 131K	Think/NoThink双模式、媲美Qwen2.5-72B	主力开发助手	Apache 2.0
Qwen3-30B-A3B	30B/3B	MoE	32K / 131K	超高效MoE，性能超QwQ-32B	消费级显卡部署、边缘设备	Apache 2.0
Llama 3.3 70B	70B	Dense	128K	指令遵循（IFEval 92%）、成熟稳定	经典选择、微调基座	Llama License
Gemma 3 27B	27B	Dense	128K	多模态（视觉）、多语言、轻量KV Cache	研究、端侧部署、视觉问答	Gemma License
Mistral Small 3.2	24B	Dense	128K	视觉、函数调用、高效推理	单卡部署、工具调用Agent	Apache 2.0
DS-R1-Distill-Qwen-32B	32B	Dense	128K	R1推理能力蒸馏版	中等算力深度推理	MIT
Phi-4 / Phi-4-Reasoning	14B	Dense	16K / 128K	数学推理（GSM8K 94%）、代码	资源受限推理、数学教育	MIT
Command R+ 104B	104B	Dense	128K	RAG优化、多语言、工具调用	企业RAG、搜索增强生成	CC-BY-NC
Hunyuan-A13B	80B/13B	MoE	256K	双思维模式、数学、Agent	轻量MoE部署（激活参数仅13B）	腾讯协议

2.3 小型（1B~12B 参数）

模型名称	参数量	类型	上下文	核心能力	适合场景	授权
Qwen3.5-9B	9B	混合（GDN+MoE）	262K	原生多模态、长上下文、Agent	移动端高质量助手	Apache 2.0
Qwen3-8B	8B	Dense	32K / 131K	Think/NoThink、100+语言	轻量对话、翻译	Apache 2.0
Qwen3-4B	4B	Dense	32K / 131K	数学/代码基准媲美Qwen2.5-72B	端侧推理、嵌入式	Apache 2.0
Gemma 3 12B	12B	Dense	128K	视觉理解、多语言	单卡研究、视觉任务	Gemma License
Gemma 3 4B / 1B	4B / 1B	Dense	128K / 32K	轻量多模态	IoT/手机、边缘推理	Gemma License
Phi-4-mini	3.8B	Dense	128K	推理、代码	超轻量部署	MIT
Llama 3.2 3B / 1B	3B / 1B	Dense	128K	文本生成、边缘部署	移动端、嵌入式	Llama License
DS-R1-Distill-Qwen-7B	7B	Dense	128K	R1推理蒸馏版	低成本深度推理	MIT
Falcon 3	7B / 10B	Dense	8K~32K	多语言（阿拉伯语强项）	中东/多语言场景	Apache 2.0 / TII License

注：Falcon 3 还有 180B 大版本（128K上下文），但在2026年3月的主流排行榜上已不在前列，此处仅列小规格版本。

2.4 专用模型（值得关注）

模型名称	定位	亮点
Qwen3-Coder-Next	编程Agent	80B MoE（3B激活），SWE-Bench媲美Sonnet 4，极低推理成本
Qwen3-Coder (480B)	旗舰编程	480B/35B MoE，7.5万亿Token训练（70%代码）。⚠️ 该参数来自第三方报道，官方未明确确认
Devstral-2-123B	编程Agent	SWE-bench 72.2%，256K上下文，Mistral出品
Step-3.5-Flash	推理	196B MoE，AIME 97.3%，性价比极高
MiMo-V2-Flash	推理	309B MoE，LiveCodeBench 87%，小米出品
GPT-oss 120B/20B	通用Agent	OpenAI首个开源模型，Agent能力突出，多级思维
MiniMax M2.5	通用	230B MoE，SWE-bench 80.2%（最高），OpenRouter最高用量

三、参数量能力分级

3.1 微型（1B~4B）—— “实习生级别”

通俗类比：刚入职的实习生，能完成简单的重复性任务，但复杂问题需要频繁指导。

擅长：文本分类、情感分析、简单问答、实体提取、短文摘要、表单填写、关键词匹配

不擅长：多步推理、长文档理解、复杂代码编写、专业领域深度分析、创意写作

行业	落地举例
客服	意图识别与工单分类，自动将用户消息归到退换货/投诉/咨询等类别
编程	代码补全提示、变量命名建议、简单函数生成
医疗	症状关键词提取、挂号科室推荐预筛选
法律	合同类型识别、条款关键信息提取
教育	选择题批改、单词释义查询、简单题目生成
创意	短标题/slogan生成、社媒标签推荐
制造	设备告警日志分类、简单质检报告模板填充

代表模型：Qwen3-4B、Qwen3.5-4B、Gemma 3 4B、Phi-4-mini（3.8B）、Llama 3.2 3B、Qwen3-0.6B/1.7B

3.2 小型（7B~9B）—— “初级工程师级别”

通俗类比：工作1~2年的初级工程师，能独立完成标准任务，遇到复杂问题偶尔犯错但大部分场景够用。

擅长：一般性对话、中等长度文档摘要、翻译、基础代码编写、结构化数据处理、RAG检索问答

不擅长：跨领域深度分析、复杂数学证明、大型项目架构设计、超长文档精准推理

行业	落地举例
客服	多轮对话客服机器人，处理80%常见问题
编程	单文件代码生成、Bug排查辅助、API文档编写
医疗	病历结构化、药物交互查询辅助（需结合RAG）
法律	合同要点摘要、法规检索问答
教育	作文批改初筛、知识点讲解、互动问答教学
创意	产品描述撰写、博客草稿、营销文案初版
制造	设备维护手册问答、工艺参数查询

代表模型：Qwen3-8B、Qwen3.5-9B、DS-R1-Distill-Qwen-7B、Llama 3.1-8B

3.3 中型（12B~14B）—— “高级工程师级别”

通俗类比：经验丰富的高级工程师，推理能力明显增强，可信赖地完成多数专业任务。

擅长：数学推理、复杂代码生成、中长文档分析、多语言翻译、专业领域问答（结合RAG）

不擅长：最前沿的复杂推理（仍逊于32B+）、极长上下文的精准记忆

行业	落地举例
客服	技术支持深度对话、处理专业产品投诉
编程	中等复杂度项目代码生成、代码审查
医疗	临床指南问答、医学文献摘要
法律	案例分析辅助、法律文书初稿
教育	个性化学习路径推荐、深度知识点讲解
创意	长篇博客、剧本大纲、广告策划方案
制造	质量问题根因分析辅助、SPC数据解读

代表模型：Phi-4（14B）、Qwen3-14B、Gemma 3 12B、DS-R1-Distill-Qwen-14B、Hunyuan-A13B（80B/13B MoE）

3.4 大型（24B~34B）—— “技术专家级别”

通俗类比：技术专家/架构师，能处理大部分复杂任务，性价比最佳甜点区间。

擅长：复杂推理、长文档精读、专业领域深度分析、复杂代码架构、Agent工作流

不擅长：极限推理任务（博士级科学QA）、全面超越闭源旗舰模型

行业	落地举例
客服	全场景智能客服（含售前咨询、技术支持、投诉处理）
编程	项目级代码重构、跨文件Bug修复、API设计
医疗	辅助诊断建议（需医生确认）、药物研究文献综述
法律	完整合同审查、判例对比分析、法律备忘录起草
教育	自适应教学系统、论文写作指导
创意	长篇小说写作、品牌策略报告、视频脚本
制造	供应链异常分析、生产排程优化建议、FMEA辅助

代表模型：Qwen3-32B、Qwen3-30B-A3B（MoE，仅3B激活！）、Qwen3.5-27B、DS-R1-Distill-Qwen-32B、Gemma 3 27B、Mistral Small 3.2（24B）

特别推荐：Qwen3-30B-A3B 是当前性价比之王——30B总参数但每次只激活3B，在RTX 4090 单卡上流畅运行，性能却超越了32B密集模型 QwQ-32B。

更新提示：Qwen3.5-35B-A3B 已于2026年2月24日发布，是 Qwen3-30B-A3B 的直接升级版（增加原生多模态、扩展至262K上下文）。如推理框架已支持 Qwen3.5，建议优先选用新版。

3.5 超大型（70B+）—— “领域权威级别”

通俗类比：资深教授/行业权威，知识渊博、推理严密，几乎能处理任何复杂任务。

擅长：博士级科学推理、复杂多步逻辑链、专业创意写作、极高精度翻译

不擅长：对硬件要求极高（密集模型需 140GB+ 显存），部署成本不适合个人

行业	落地举例
客服	企业级智能助手（融合知识库、CRM、工单系统）
编程	全栈开发Agent、大型代码库重构、安全审计
医疗	多科室会诊辅助、药物发现文献挖掘
法律	复杂诉讼策略分析、跨法域法律研究
教育	高等教育课程设计、学术论文审阅
创意	电影剧本、品牌全案、高质量文学创作
制造	数字孪生系统知识引擎、全链路质量追溯

代表模型：Llama 3.3 70B、DS-R1-Distill-Llama-70B、Command R+ 104B、Qwen2.5-72B

3.6 旗舰 MoE（200B+）—— “超级团队级别”

通俗类比：一家拥有多个专科团队的顶级咨询公司——每个问题自动分配给最擅长的专家团队，综合能力比肩甚至超越闭源模型。

擅长：全场景覆盖、前沿推理、代码竞赛水平编程、Agent自主任务执行、多模态理解

不擅长：部署成本高（需多卡或集群），单卡不可用（除非极端量化）

行业	落地举例
客服	企业AI中台（统一对话、检索、Agent平台）
编程	自主编程Agent（SWE-bench > 75%）、全自动CI/CD辅助
医疗	科研级文献分析平台、临床决策支持系统
法律	AI律师助理平台（全流程案件管理）
教育	大规模个性化教育平台
创意	AI内容工厂（文本+图像+视频多模态创作）
制造	工业大脑（融合多模态传感数据的智能决策）

代表模型：Kimi K2.5（1T/32B）、GLM-5（744B/40B）、DeepSeek V3.2（685B/37B）、Qwen3.5-397B-A17B、Llama 4 Maverick（400B/17B）、MiniMax M2.5（230B）

四、硬件需求对照表

4.1 按部署场景分类

场景一：个人开发者 / 学习研究

以下成本为整机预估（含显卡、CPU、内存、存储、主板等），不含显示器。

配置方案	显卡	显存	内存	存储	CPU	能跑的最大模型	预估整机成本（RMB）
入门	RTX 3060 12G	12GB	32GB	512GB SSD	R5 5600	7~8B Q4（Qwen3-8B Q4）	4,000~6,000
甜点	RTX 4090 24G	24GB	64GB	1TB SSD	R7 5700X+	30B MoE Q4（Qwen3-30B-A3B Q4）或 14B Q8	15,000~20,000
高配	RTX 3090 24G ×2	48GB	64GB	1TB SSD	R7 5700X+	32B Q8 或 70B Q4（张量并行）	12,000~18,000（二手3090）

场景二：小团队 / 创业公司（5~20人使用）

配置方案	显卡	显存	内存	能跑的模型	预估成本（RMB）
基础	RTX 4090 ×2	48GB	128GB	70B Q4 或 32B Q8（张量并行）	35,000~50,000
推荐	A100 80G ×1	80GB	128GB	70B Q4（舒适）/ 70B Q8（紧张）/ 32B FP16	80,000~120,000（二手/租赁更低）
高配	A100 80G ×2	160GB	256GB	70B FP16（紧张）或 235B MoE Q4（舒适）	160,000~250,000

场景三：企业级部署

关键公式回顾：总显存需求 = 总参数量 × 每参数字节数 + KV Cache + 框架开销。685B FP16 ≈ 1,370GB，685B Q4 ≈ 343GB。

配置方案	显卡	显存	能跑的模型	预估成本（RMB）
入门级	H100 80G ×4	320GB	235B MoE Q8 或 400B MoE Q4	100万~150万
生产级	H100 80G ×8	640GB	685B MoE Q4（DeepSeek V3.2满血）+ 充裕KV Cache	200万~300万
旗舰级	H100 ×16+ 或 H800 集群	1.3TB+	685B MoE FP16 或 1T级模型（Kimi K2.5）Q4 + 高并发	500万+
性价比方案	L40S 48G ×4	192GB	70B FP16 或 235B MoE Q4	60万~80万
4090集群	RTX 4090 ×8	192GB	同 L40S ×4，但互联带宽更低	12万~16万

纯 CPU 推理：能跑吗？

可以跑，但速度很慢。使用 llama.cpp 在纯 CPU（如 32核 64GB内存）上运行 7B Q4 模型，速度约 2~5 tokens/s——足够批处理但不够实时对话。更大的模型（14B+）在纯 CPU 上速度降至 <2 tokens/s，仅适合离线分析、文档批量处理。适合场景：无GPU环境的文本分类、离线翻译、定时批处理。

Apple Silicon 实际可用性

芯片	统一内存	能跑的模型	实际速度
M2 Max 32GB	32GB	14B Q8 或 32B Q4（推荐Q4，FP16偏紧）	15~25 tokens/s
M3 Max 48GB	48GB	32B Q8 或 70B Q4（均紧张，长对话受限）	15~30 tokens/s
M4 Max 48GB	48GB	同 M3 Max，推理速度提升约10~15%	18~35 tokens/s
M3 Ultra 128GB	128GB	70B Q8（舒适）、235B MoE Q4（紧张）	10~20 tokens/s
M4 Ultra 192GB	192GB	70B FP16、235B MoE Q4（舒适运行）	12~25 tokens/s

Apple Silicon 的优势是统一内存大、功耗低、免驱动，非常适合个人开发者做原型和研究。但 GPU 吞吐量不如 NVIDIA，不适合高并发推理。

4.2 量化对显存的影响表

经验公式：FP16 显存 ≈ 参数量(B) × 2 GB；Q8 ≈ × 1 GB；Q4 ≈ × 0.5 GB。另需加 10%~20% 的 KV Cache 开销。

模型参数	FP16	Q8	Q4	质量说明
7B	~14 GB	~7 GB	~4 GB	Q4损失约3~5%，日常对话几乎无感
13B	~26 GB	~13 GB	~7 GB	Q4损失约4~6%，专业任务可感知
14B（Phi-4）	~28 GB	~14 GB	~8 GB	Q8即为甜点，Q4牺牲少量数学精度
27B（Gemma 3）	~54 GB	~27 GB	~14 GB	Q4可单卡4090，Q8需双卡
32B	~64 GB	~32 GB	~17 GB	Q4需24GB卡可勉强跑（加KV Cache紧张）
70B	~140 GB	~70 GB	~35 GB	Q4需双4090或单A100，FP16需2×A100
MoE 30B-A3B	~60 GB	~30 GB	~17 GB	MoE必须加载全部权重；Q4可跑在24G卡上，12G卡装不下

MoE显存特别说明：MoE模型虽然每次只激活少量参数（如3B），但所有专家权重（30B）都必须常驻显存。因此显存占用取决于总参数量而非激活参数量。30B-A3B的Q4量化实际占用约15~17GB + KV Cache，单张RTX 4090（24G）可运行，RTX 3060（12G）不可。

五、推理速度参考表（tokens/s）

以下为单用户、batch size=1、输出生成阶段的典型速度区间。实际速度受 prompt 长度、量化方式、推理框架（vLLM/llama.cpp/SGLang）等多因素影响。

符号说明：❌ = 显存不足无法运行；⚠️ = 显存极度紧张，仅短上下文可用，不推荐；— = 该硬件跑此模型无意义（用单卡即可）。

硬件	7B Q4	7B FP16	14B Q4	32B Q4	70B Q4	MoE 30B-A3B Q4
RTX 3060 12G	30~50	⚠️ 紧张	15~25	❌	❌	❌（显存不足）
RTX 4090 24G	80~120	40~60	40~60	20~35	❌	50~80
RTX 3090 24G	50~80	25~40	25~40	12~20	❌	30~50
RTX 4090 ×2	—	80~100	70~90	35~50	15~25	—
A100 80G	100~150	80~120	60~80	40~60	20~35	80~120
H100 80G	150~200	120~160	80~120	50~80	30~50	100~150
M3 Max 48G	40~60	20~35	20~30	15~25	⚠️ 8~15	25~40
纯CPU（32核）	3~5	1~2	1~3	<1	<0.5	2~4

速度分级参考

速度区间	体验等级	适合场景
≥40 tokens/s	极速流畅	实时对话、语音助手、Agent循环
20~40 tokens/s	流畅对话	交互式编程助手、在线客服
10~20 tokens/s	可接受	文档生成、非实时问答
3~10 tokens/s	等待感明显	批量文档处理、后台分析
❤️ tokens/s	仅适合批处理	离线翻译、定时报告生成

影响推理速度的关键因素

量化精度：Q4 比 FP16 快约 2~3 倍（计算量减半+显存带宽需求降低）
Batch Size：并发用户增多时，吞吐量上升但单用户延迟增加
KV Cache：上下文越长，KV Cache越大，速度越慢。128K上下文的KV Cache可能占用数GB显存
显存带宽：推理主要瓶颈是访存（memory-bound），HBM3（H100）比 GDDR6X（4090）快约 3 倍
推理框架：vLLM/SGLang 比原生 HuggingFace 快 2~5 倍（PagedAttention、连续批处理等优化）
MoE 路由开销：MoE模型有额外的专家选择开销，但因激活参数少，总体仍快于同性能的密集模型

六、选型决策流程图

第4步：延迟校准（选定模型后的最终调整）

如果需要实时交互（≥20 tokens/s）：优先选 Q4 量化 + 强显卡，或退一级选更小的模型

如果是批量处理（可容忍慢速）：可以选更大模型的低量化版，甚至纯 CPU 部署

参照第五节速度表，确认你的硬件 + 模型组合能否达到目标速度

快速选型对照表

你的情况	推荐模型	推荐硬件
个人学习，RTX 3060 12G	Qwen3-8B Q4（首选）或 Qwen3-4B Q8	现有配置即可
个人开发，RTX 4090 24G	Qwen3-30B-A3B Q4（通用）/ DS-R1-Distill-32B Q4（推理）	现有配置即可
小团队内部助手，5~10人	Qwen3-32B Q8（双卡）或 FP16（A100）	RTX 4090 ×2 或 A100 80G ×1
企业级对话平台	GLM-5 / Kimi K2.5	H100 ×2+ 或 API
编程Agent平台	Qwen3-Coder-Next / Kimi K2.5	视并发需求选配
超长文档分析（100万Token）	Llama 4 Scout（10M上下文）	H100 ×2+（KV Cache大）
预算极低、无GPU	Qwen3-4B Q4 纯CPU	32GB内存即可，约5~8 tokens/s
需要中文+日文多语言	Qwen3.5系列（201语言）或 Gemma 3（140+语言）	按参数量选配
严格数据合规、不出境	任何 MIT/Apache 2.0 开源模型本地部署	按需选配