nvidia 免费ai 算力测试100多种模型测试薅羊毛按照你的优先级（BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先）选出每个类别5个模型

zhangfeng1133

216人浏览 · 2026-05-06 17:58:08

zhangfeng1133 · 2026-05-06 17:58:08 发布

nvidia 免费ai 算力测试 https://build.nvidia.com/models 按照你的优先级（BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先）选出每个类别5个模型

26-5-6 下午5点左右测试

✅ 可用模型（按速度排序）

#	模型	耗时(s)
1	`openai/gpt-oss-20b`	1.34
2	`openai/gpt-oss-20b`	1.38
3	`nvidia/nemotron-mini-4b-instruct`	1.38
4	`qwen/qwen3-next-80b-a3b-thinking`	1.42
5	`openai/gpt-oss-120b`	1.43
6	`openai/gpt-oss-120b`	1.46
7	`nvidia/nemotron-3-nano-30b-a3b`	1.46
8	`nvidia/nemotron-nano-12b-v2-vl`	1.47
9	`qwen/qwen2.5-coder-32b-instruct`	1.47
10	`google/gemma-2-2b-it`	1.48
11	`nvidia/nvidia-nemotron-nano-9b-v2`	1.49
12	`meta/llama-4-maverick-17b-128e-instruct`	1.52
13	`meta/llama-3.2-11b-vision-instruct`	1.53
14	`mistralai/ministral-14b-instruct-2512`	1.53
15	`nvidia/nemotron-3-nano-omni-30b-a3b-reasoning`	1.53
16	`mistralai/mistral-nemotron`	1.54
17	`mistralai/mixtral-8x22b-instruct-v0.1`	1.57
18	`stepfun-ai/step-3.5-flash`	1.60
19	`nvidia/llama-3.3-nemotron-super-49b-v1`	1.62
20	`mistralai/devstral-2-123b-instruct-2512`	1.63
21	`sarvamai/sarvam-m`	1.66
22	`moonshotai/kimi-k2.6`	1.72
23	`qwen/qwen3-next-80b-a3b-instruct`	1.73
24	`google/gemma-3n-e2b-it`	1.79
25	`mistralai/mistral-small-4-119b-2603`	1.80
26	`upstage/solar-10.7b-instruct`	1.81
27	`nvidia/llama-3.3-nemotron-super-49b-v1.5`	1.94
28	`abacusai/dracarys-llama-3.1-70b-instruct`	2.00
29	`meta/llama-3.2-90b-vision-instruct`	2.11
30	`meta/llama-3.3-70b-instruct`	2.29
31	`nvidia/llama-3.1-nemotron-nano-vl-8b-v1`	2.31
32	`google/gemma-3n-e4b-it`	2.34
33	`nvidia/nemotron-3-super-120b-a12b`	2.55
34	`nvidia/nemotron-3-super-120b-a12b`	2.90
35	`google/gemma-3-4b-it`	3.01
36	`bytedance/seed-oss-36b-instruct`	3.10
37	`meta/llama-3.1-70b-instruct`	3.14
38	`deepseek-ai/deepseek-v4-pro`	3.52
39	`deepseek-ai/deepseek-v4-pro`	3.52
40	`meta/llama-3.1-8b-instruct`	3.60
41	`nvidia/nemotron-3-nano-omni-30b-a3b-reasoning`	3.68
42	`moonshotai/kimi-k2-instruct`	3.78
43	`meta/llama-3.2-1b-instruct`	4.00
44	`meta/llama-3.2-3b-instruct`	4.18
45	`meta/llama-3.1-405b-instruct`	8.13
46	`nvidia/llama-3.1-nemotron-nano-8b-v1`	14.11
47	`microsoft/phi-4-mini-instruct`	16.71

❌ 错误模型（59 个）

模型	错误
`01-ai/yi-large`	404
`adept/fuyu-8b`	404
`ai21labs/jamba-1.5-large-instruct`	404
`bigcode/starcoder2-15b`	404
`databricks/dbrx-instruct`	404
`deepseek-ai/deepseek-coder-6.7b-instruct`	404
`deepseek-ai/deepseek-v4-flash` ×2	超时
`google/codegemma-1.1-7b`	404
`google/codegemma-7b`	404
`google/gemma-2b`	404
`google/gemma-3-12b-it`	400
`google/gemma-3-27b-it`	400
`google/gemma-4-31b-it`	超时
`ibm/granite-3.0-3b-a800m-instruct`	404
`ibm/granite-3.0-8b-instruct`	404
`ibm/granite-34b-code-instruct`	404
`ibm/granite-8b-code-instruct`	404
`meta/codellama-70b`	404
`meta/llama2-70b`	404
`microsoft/phi-3-vision-128k-instruct`	404
`microsoft/phi-3.5-moe-instruct`	404
`microsoft/phi-4-multimodal-instruct`	400
`minimaxai/minimax-m2.5`	超时
`minimaxai/minimax-m2.7`	502
`mistralai/codestral-22b-instruct-v0.1`	404
`mistralai/magistral-small-2506`	超时
`mistralai/mistral-7b-instruct-v0.3`	404
`mistralai/mistral-large`	404
`mistralai/mistral-large-2-instruct`	404
`mistralai/mistral-large-3-675b-instruct-2512`	超时
`mistralai/mistral-medium-3-instruct`	404
`mistralai/mistral-medium-3.5-128b`	超时
`mistralai/mixtral-8x22b-v0.1`	404
`mistralai/mixtral-8x7b-instruct-v0.1`	400
`moonshotai/kimi-k2-instruct-0905`	404
`moonshotai/kimi-k2-thinking`	超时
`nv-mistralai/mistral-nemo-12b-instruct`	404
`nvidia/cosmos-reason2-8b`	404
`nvidia/llama-3.1-nemotron-51b-instruct`	404
`nvidia/llama-3.1-nemotron-70b-instruct`	404
`nvidia/llama-3.1-nemotron-ultra-253b-v1`	404
`nvidia/llama3-chatqa-1.5-70b`	404
`nvidia/mistral-nemo-minitron-8b-8k-instruct`	404
`nvidia/nemotron-3-nano-omni-30b-a3b-reasoning`	404
`nvidia/nemotron-4-340b-instruct`	404
`nvidia/nemotron-4-340b-reward`	404
`nvidia/nemotron-nano-3-30b-a3b`	404
`qwen/qwen3-coder-480b-a35b-instruct`	超时
`qwen/qwen3.5-122b-a10b`	超时
`qwen/qwen3.5-397b-a17b`	超时
`stockmark/stockmark-2-100b-instruct`	脚本错误
`writer/palmyra-creative-122b`	404
`writer/palmyra-fin-70b-32k`	404
`writer/palmyra-med-70b`	404
`writer/palmyra-med-70b-32k`	404
`z-ai/glm-5.1`	超时
`z-ai/glm4.7`	超时
`z-ai/glm5`	超时
`zyphra/zamba2-7b-instruct`	404

结论：

最快：openai/gpt-oss-20b（1.34s）和 nvidia/nemotron-mini-4b-instruct（1.38s）
meta/llama-3.1-405b-instruct（当前 BIG）最慢之一（8.13s）
建议把 BIG 换成 openai/gpt-oss-20b 或 nvidia/llama-3.3-nemotron-super-49b-v1

按照你的优先级（BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先）选出每个类别5个模型。

首先整理去重后的可用模型（保留最快速度）：

🏆 推荐配置方案

📊 BIG 模型（能力优先，速度次之）

排名	模型	参数量	速度	特点
1	`meta/llama-3.1-405b-instruct`	405B	8.13s	最大模型，能力最强
2	`mistralai/devstral-2-123b-instruct-2512`	123B	1.63s	能力接近顶级，速度快
3	`openai/gpt-oss-120b`	120B	1.43s	开源旗舰，能力强
4	`nvidia/nemotron-3-super-120b-a12b`	120B	2.55s	NVIDIA优化，企业级
5	`mistralai/mistral-small-4-119b-2603`	119B	1.80s	Mistral大版本

⚖️ MIDDLE 模型（能力与速度兼顾）

排名	模型	参数量	速度	特点
1	`mistralai/mixtral-8x22b-instruct-v0.1`	141B*	1.57s	MoE架构，能力强速度快
2	`nvidia/llama-3.3-nemotron-super-49b-v1`	49B	1.62s	性价比高
3	`nvidia/nemotron-3-nano-30b-a3b`	30B	1.46s	速度快，能力不错
4	`meta/llama-3.3-70b-instruct`	70B	2.29s	Meta成熟模型
5	`qwen/qwen2.5-coder-32b-instruct`	32B	1.47s	代码能力强

*Mixtral 8x22B 是MoE模型，实际激活参数约39B

⚡ SMALL 模型（速度优先）

排名	模型	参数量	速度	特点
1	`openai/gpt-oss-20b`	20B	1.34s	速度最快，能力优秀
2	`nvidia/nemotron-mini-4b-instruct`	4B	1.38s	超轻量，极快
3	`qwen/qwen3-next-80b-a3b-thinking`	80B*	1.42s	MoE架构，速度快
4	`mistralai/ministral-14b-instruct-2512`	14B	1.53s	Mistral轻量版
5	`meta/llama-4-maverick-17b-128e-instruct`	17B	1.52s	Meta新架构

*Qwen3 Next是MoE模型，实际激活参数约3B

💡 推荐最终配置

编程推荐用 Mistral Devstral‑2‑123B‑Instruct‑2512

其他应用推荐支持上下文1m 是 nvidia/nemotron-3-super-120b-a12b

# 方案A：追求极致能力（BIG慢但强）
BIG=meta/llama-3.1-405b-instruct
MIDDLE=mistralai/mixtral-8x22b-instruct-v0.1
SMALL=openai/gpt-oss-20b

# 方案B：平衡选择（推荐）
BIG=mistralai/devstral-2-123b-instruct-2512
MIDDLE=nvidia/llama-3.3-nemotron-super-49b-v1
SMALL=openai/gpt-oss-20b

你想用哪个方案？或者想从每个类别的5个候选中自己挑选？

先给总览：这5个模型分两类——一个超大全能旗舰（Llama‑3.1‑405B） + 四个高效MoE旗舰（120B级）。

追求绝对能力上限选 Llama‑3.1‑405B；
追求速度/成本/能力平衡，优先 GPT‑OSS‑120B ≈ Devstral‑2‑123B > Mistral Small 4 > Nemotron‑3 Super（通用场景）；
代码智能体选 Devstral‑2‑123B；企业级长上下文+高吞吐选 Nemotron‑3 Super；多模态+推理+编程三合一选 Mistral Small 4。

一、核心参数速览（按你给的排序）

模型	总参数	激活参数	速度(秒/轮)	上下文	开源协议	核心定位
Llama‑3.1‑405B‑Instruct	405B	405B	8.13	128K	商用需申请	最大模型，全能最强
Devstral‑2‑123B‑Instruct	123B	约12B	1.63	256K	Apache 2.0	代码/Agent顶级，快
GPT‑OSS‑120B	120B	5.1B	1.43	128K	Apache 2.0	OpenAI开源旗舰，均衡
Nemotron‑3 Super‑120B	120B	12B	2.55	1M	Apache 2.0	NVIDIA企业级，长上下文+高吞吐
Mistral Small 4‑119B	119B	6.5B	1.80	256K	Apache 2.0	Mistral大版本，多模态+推理+编程

二、逐个模型精要

1. Meta Llama‑3.1‑405B‑Instruct（2024.7）

唯一非MoE、全参数激活的超大模型，开源界能力天花板。
优势：全能最强——推理、数学、多语言、工具调用、长文本理解均顶尖；128K上下文；多语言支持好。
劣势：极慢+极耗资源（8.13秒/轮）；部署成本极高（需多卡集群）；商用需Meta审批。
适用：科研、极致性能场景、无成本压力的旗舰服务。

2. Mistral Devstral‑2‑123B‑Instruct‑2512（2025.12）

Mistral专为软件工程/Agent编码打造的123B MoE模型。
优势：代码/Agent最强（SWE‑bench 72.2%，开源第一）；256K上下文；速度快（1.63秒）；FP8精度，部署友好。
劣势：通用能力略逊GPT‑OSS；偏代码场景，非代码推理稍弱。
适用：AI代码助手、自动编程、复杂代码库理解、软件智能体。

3. OpenAI GPT‑OSS‑120B（2025.8）

OpenAI首款开源大模型，MoE架构（117B总/5.1B激活）。
优势：通用能力最强（120B级），接近o4‑mini；速度最快（1.43秒）；单卡80GB可部署；工具调用/数学/科学优异。
劣势：上下文128K（短于Devstral/Nemotron）；开源晚，生态稍弱。
适用：通用对话、推理、数学、工具调用、生产级高吞吐服务。

4. NVIDIA Nemotron‑3 Super‑120B‑A12B（2026.3）

NVIDIA混合Mamba‑Transformer+LatentMoE，120B总/12B激活。
优势：上下文100万token（碾压级）；推理吞吐比GPT‑OSS高2.2倍；企业级优化，多语言强；NVFP4量化，部署高效。
劣势：速度偏慢（2.55秒）；通用基准略低于GPT‑OSS/Devstral；生态新。
适用：超长文档分析、企业级智能体、IT自动化、高并发长上下文场景。

5. Mistral Small 4‑119B‑2603（2026.3）

Mistral三合一模型：推理（Magistral）+多模态（Pixtral）+编码（Devstral）。
优势：多模态（图像输入）；可切换快速/深度推理；256K上下文；Apache 2.0开源；吞吐比Small 3高3倍。
劣势：通用能力略低于GPT‑OSS/Devstral；多模态能力中等；激活参数6.5B，推理效率一般。
适用：通用对话+图像理解+轻量编码、多模态助手、中小规模全能服务。

三、关键维度对比（结论化）

能力上限：Llama‑3.1‑405B ≫ GPT‑OSS‑120B ≈ Devstral‑2‑123B > Mistral Small 4 > Nemotron‑3 Super
推理速度（越快越好）：GPT‑OSS‑120B（1.43s） > Devstral‑2‑123B（1.63s） > Mistral Small 4（1.80s） > Nemotron‑3 Super（2.55s） ≫ Llama‑3.1‑405B（8.13s）
上下文长度（越长越好）：Nemotron‑3 Super（1M） ≫ Devstral‑2‑123B = Mistral Small 4（256K） > Llama‑3.1‑405B = GPT‑OSS‑120B（128K）
代码/Agent能力：Devstral‑2‑123B ≫ GPT‑OSS‑120B > Mistral Small 4 > Nemotron‑3 Super > Llama‑3.1‑405B
多模态能力：Mistral Small 4（图像输入） > 其他4个（纯文本）
部署成本：GPT‑OSS‑120B（单卡80GB） < Mistral Small 4 < Devstral‑2‑123B < Nemotron‑3 Super ≪ Llama‑3.1‑405B（多卡集群）

四、选型建议（直接对号入座）

要绝对最强能力、不计成本 → Llama‑3.1‑405B‑Instruct
通用场景、平衡速度/能力/成本 → GPT‑OSS‑120B
代码生成/自动编程/软件智能体 → Devstral‑2‑123B‑Instruct
超长文档、企业级高吞吐、长上下文智能体 → Nemotron‑3 Super‑120B
需要图像理解+通用对话+轻量编码 → Mistral Small 4‑119B

要不要我把这5个模型的**部署环境需求（显存/算力）和常见性能基准（MMLU、GSM8K、SWE-bench）**整理成一页对比表，方便你快速决策？

Devstral‑2‑123B‑Instruct（Mistral，2025年12月发布）是123B总参、MoE架构、代码/Agent专项旗舰，国内最直接对标是月之暗面Kimi K2‑Instruct（MoE，≈120B总参），其次是阿里Qwen3.5‑122B‑A10B（通用MoE）与DeepSeek‑V3.2（685B MoE，代码更强）。

一、核心定位与参数对标

Devstral‑2‑123B：代码+Agent双优，256K上下文，SWE‑bench Verified 72.2%（开源第二，仅次于DeepSeek V3.2），主打仓库级代码探索、多文件编辑、软件工程智能体。

对比维度	Devstral‑2‑123B	Mistral	Kimi K2‑Instruct（月之暗面）
总参数量	123B	≈120B	122B
激活参数	≈12B（MoE）	≈10B（MoE）	10B（MoE）
上下文	256K（原生）	256K（原生）	262K（原生，可扩1M）
发布时间	2025.12	2026.01	2026.02
核心优势	代码SOTA、Agent强、推理快	中文强、代码顶尖、256K	通用强、长文本、多模态
SWE‑bench	72.2%	≈70%	≈65%

二、国内同级模型详细对标

1. 月之暗面 Kimi K2‑Instruct（最直接对标）

架构：MoE，≈120B总参，激活≈10B，256K上下文。
性能：SWE‑bench Verified ≈70%，仅次于Devstral‑2与DeepSeek V3.2；中文理解+代码生成双强，Agent工具链成熟。
差异：Devstral‑2代码/Agent略强；Kimi K2中文更优、生态更全、国内访问快。

2. 阿里通义千问 Qwen3.5‑122B‑A10B（通用旗舰对标）

架构：MoE，122B总参，激活10B，262K上下文（可扩1M）。
性能：通用能力（CMMLU/C‑Eval）强；代码SWE‑bench ≈65%，弱于Devstral‑2/Kimi K2；**原生多模态（图文）**领先。
差异：Devstral‑2代码/Agent碾压；Qwen3.5通用/多模态更强。

3. DeepSeek‑V3.2（代码更强，但参数更大）

架构：MoE，685B总参，激活≈37B，128K上下文。
性能：SWE‑bench Verified 73.1%（开源第一），代码能力略超Devstral‑2；但参数量是其5.6倍，部署成本高。
差异：DeepSeek‑V3.2代码最强但笨重；Devstral‑2性能接近、参数更高效。

三、结论与选型建议

最佳对标：Kimi K2‑Instruct（≈120B MoE、256K上下文、代码/Agent双强、国内生态友好）。
通用替代：Qwen3.5‑122B‑A10B（通用/多模态强，代码略弱）。
代码最强：DeepSeek‑V3.2（性能略超但参数巨大，成本高）。

一句话总结：Devstral‑2‑123B ≈ Kimi K2‑Instruct（120B级MoE、代码/Agent旗舰）；Devstral胜在代码推理速度与SWE基准，Kimi强在中文理解与国内生态。

Nemotron‑3 Super‑120B（总参120B、激活12B）对标的国内模型是阿里通义千问Qwen3.5‑122B‑A10B（总参122B、激活10B），二者同为2026年Q1发布的120B级MoE混合架构旗舰，定位与综合性能接近。

一、核心参数对比

对比维度	Nemotron‑3 Super‑120B（NVIDIA）	Qwen3.5‑122B‑A10B（阿里）
总参数量	120B（1200亿）	122B（1220亿）
激活参数量	12B（120亿）	10B（100亿）
架构	混合Mamba‑2 + Transformer + LatentMoE	Gated DeltaNet + 注意力混合MoE
上下文窗口	原生1M token	原生262K token（可扩至1M）
推理效率	NVFP4量化，单H100可跑，吞吐比Qwen高约7.5倍	BF16约250GB，社区量化后可单卡部署
发布时间	2026年3月	2026年2月

二、能力定位与差异

对标结论：二者同属全球第一梯队开源MoE大模型，在推理、长文本、多模态（Qwen原生支持）、Agent智能体场景直接竞争。
Nemotron优势：推理速度极快（Agent场景比Qwen快7.5倍）、1M超长上下文原生支持、NVFP4量化部署门槛更低。
Qwen优势：中文与多模态更强（原生图文视频理解）、生态成熟（下载量与衍生模型丰富）、开源协议友好（Apache 2.0）。

三、国内同级备选

无完全一致的120B级MoE：除Qwen3.5‑122B外，国内暂无同规模开源MoE模型（如InternLM‑2‑MoE为12B激活，规模小一档）。
闭源对标：可参考文心一言4.0、讯飞星火V4、智谱GLM‑4等闭源旗舰，但参数与架构未公开，无法直接对齐。

四、一句话总结

Nemotron‑3 Super‑120B ≈ 通义千问Qwen3.5‑122B‑A10B：同为120B级MoE旗舰，NVIDIA胜在速度与长上下文，阿里强在中文、多模态与生态。

需要我把这两个模型的**中文评测基准（如CMMLU、C‑Eval）**得分整理成对比表吗？

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

YOLOv8【第十五章：遥感与无人机航拍篇·第15节】遥感领域的域泛化——如何让模型适应不同季节与光照的卫星图！

AtomGit开源社区

风光储与电解制氢系统仿真模型（光伏耦合PEM制氢）（Simulink仿真实现）

电解水制氢作为一种新型储能手段，可作为调整风光能源输出电力的绿色手段。该文以风力发电、光伏发电、电解制氢与燃料电池为研究对象，通过对风光互补发电系统与电解水制氢系统的输出输入功率进行建模仿真，协调优化控制风光电、电解槽、燃料电池以及系统负载的负荷变化要求，改善了风光发电电解水制氢系统与系统负荷之间的负荷不平衡问题，为风光豆补可再生能源系统的稳定运行提供了理论依据。关键词: 风力发电;光伏发电;风光