nvidia 免费ai 算力 测试 https://build.nvidia.com/models 按照你的优先级(BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先)选出每个类别5个模型

26-5-6 下午5点左右测试

✅ 可用模型(按速度排序)

# 模型 耗时(s)
1 openai/gpt-oss-20b 1.34
2 openai/gpt-oss-20b 1.38
3 nvidia/nemotron-mini-4b-instruct 1.38
4 qwen/qwen3-next-80b-a3b-thinking 1.42
5 openai/gpt-oss-120b 1.43
6 openai/gpt-oss-120b 1.46
7 nvidia/nemotron-3-nano-30b-a3b 1.46
8 nvidia/nemotron-nano-12b-v2-vl 1.47
9 qwen/qwen2.5-coder-32b-instruct 1.47
10 google/gemma-2-2b-it 1.48
11 nvidia/nvidia-nemotron-nano-9b-v2 1.49
12 meta/llama-4-maverick-17b-128e-instruct 1.52
13 meta/llama-3.2-11b-vision-instruct 1.53
14 mistralai/ministral-14b-instruct-2512 1.53
15 nvidia/nemotron-3-nano-omni-30b-a3b-reasoning 1.53
16 mistralai/mistral-nemotron 1.54
17 mistralai/mixtral-8x22b-instruct-v0.1 1.57
18 stepfun-ai/step-3.5-flash 1.60
19 nvidia/llama-3.3-nemotron-super-49b-v1 1.62
20 mistralai/devstral-2-123b-instruct-2512 1.63
21 sarvamai/sarvam-m 1.66
22 moonshotai/kimi-k2.6 1.72
23 qwen/qwen3-next-80b-a3b-instruct 1.73
24 google/gemma-3n-e2b-it 1.79
25 mistralai/mistral-small-4-119b-2603 1.80
26 upstage/solar-10.7b-instruct 1.81
27 nvidia/llama-3.3-nemotron-super-49b-v1.5 1.94
28 abacusai/dracarys-llama-3.1-70b-instruct 2.00
29 meta/llama-3.2-90b-vision-instruct 2.11
30 meta/llama-3.3-70b-instruct 2.29
31 nvidia/llama-3.1-nemotron-nano-vl-8b-v1 2.31
32 google/gemma-3n-e4b-it 2.34
33 nvidia/nemotron-3-super-120b-a12b 2.55
34 nvidia/nemotron-3-super-120b-a12b 2.90
35 google/gemma-3-4b-it 3.01
36 bytedance/seed-oss-36b-instruct 3.10
37 meta/llama-3.1-70b-instruct 3.14
38 deepseek-ai/deepseek-v4-pro 3.52
39 deepseek-ai/deepseek-v4-pro 3.52
40 meta/llama-3.1-8b-instruct 3.60
41 nvidia/nemotron-3-nano-omni-30b-a3b-reasoning 3.68
42 moonshotai/kimi-k2-instruct 3.78
43 meta/llama-3.2-1b-instruct 4.00
44 meta/llama-3.2-3b-instruct 4.18
45 meta/llama-3.1-405b-instruct 8.13
46 nvidia/llama-3.1-nemotron-nano-8b-v1 14.11
47 microsoft/phi-4-mini-instruct 16.71

❌ 错误模型(59 个)

模型 错误
01-ai/yi-large 404
adept/fuyu-8b 404
ai21labs/jamba-1.5-large-instruct 404
bigcode/starcoder2-15b 404
databricks/dbrx-instruct 404
deepseek-ai/deepseek-coder-6.7b-instruct 404
deepseek-ai/deepseek-v4-flash ×2 超时
google/codegemma-1.1-7b 404
google/codegemma-7b 404
google/gemma-2b 404
google/gemma-3-12b-it 400
google/gemma-3-27b-it 400
google/gemma-4-31b-it 超时
ibm/granite-3.0-3b-a800m-instruct 404
ibm/granite-3.0-8b-instruct 404
ibm/granite-34b-code-instruct 404
ibm/granite-8b-code-instruct 404
meta/codellama-70b 404
meta/llama2-70b 404
microsoft/phi-3-vision-128k-instruct 404
microsoft/phi-3.5-moe-instruct 404
microsoft/phi-4-multimodal-instruct 400
minimaxai/minimax-m2.5 超时
minimaxai/minimax-m2.7 502
mistralai/codestral-22b-instruct-v0.1 404
mistralai/magistral-small-2506 超时
mistralai/mistral-7b-instruct-v0.3 404
mistralai/mistral-large 404
mistralai/mistral-large-2-instruct 404
mistralai/mistral-large-3-675b-instruct-2512 超时
mistralai/mistral-medium-3-instruct 404
mistralai/mistral-medium-3.5-128b 超时
mistralai/mixtral-8x22b-v0.1 404
mistralai/mixtral-8x7b-instruct-v0.1 400
moonshotai/kimi-k2-instruct-0905 404
moonshotai/kimi-k2-thinking 超时
nv-mistralai/mistral-nemo-12b-instruct 404
nvidia/cosmos-reason2-8b 404
nvidia/llama-3.1-nemotron-51b-instruct 404
nvidia/llama-3.1-nemotron-70b-instruct 404
nvidia/llama-3.1-nemotron-ultra-253b-v1 404
nvidia/llama3-chatqa-1.5-70b 404
nvidia/mistral-nemo-minitron-8b-8k-instruct 404
nvidia/nemotron-3-nano-omni-30b-a3b-reasoning 404
nvidia/nemotron-4-340b-instruct 404
nvidia/nemotron-4-340b-reward 404
nvidia/nemotron-nano-3-30b-a3b 404
qwen/qwen3-coder-480b-a35b-instruct 超时
qwen/qwen3.5-122b-a10b 超时
qwen/qwen3.5-397b-a17b 超时
stockmark/stockmark-2-100b-instruct 脚本错误
writer/palmyra-creative-122b 404
writer/palmyra-fin-70b-32k 404
writer/palmyra-med-70b 404
writer/palmyra-med-70b-32k 404
z-ai/glm-5.1 超时
z-ai/glm4.7 超时
z-ai/glm5 超时
zyphra/zamba2-7b-instruct 404

结论:

  • 最快:openai/gpt-oss-20b(1.34s)和 nvidia/nemotron-mini-4b-instruct(1.38s)
  • meta/llama-3.1-405b-instruct(当前 BIG)最慢之一(8.13s)
  • 建议把 BIG 换成 openai/gpt-oss-20bnvidia/llama-3.3-nemotron-super-49b-v1

按照你的优先级(BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先)选出每个类别5个模型。

首先整理去重后的可用模型(保留最快速度):

🏆 推荐配置方案


📊 BIG 模型(能力优先,速度次之)

排名 模型 参数量 速度 特点
1 meta/llama-3.1-405b-instruct 405B 8.13s 最大模型,能力最强
2 mistralai/devstral-2-123b-instruct-2512 123B 1.63s 能力接近顶级,速度快
3 openai/gpt-oss-120b 120B 1.43s 开源旗舰,能力强
4 nvidia/nemotron-3-super-120b-a12b 120B 2.55s NVIDIA优化,企业级
5 mistralai/mistral-small-4-119b-2603 119B 1.80s Mistral大版本

⚖️ MIDDLE 模型(能力与速度兼顾)

排名 模型 参数量 速度 特点
1 mistralai/mixtral-8x22b-instruct-v0.1 141B* 1.57s MoE架构,能力强速度快
2 nvidia/llama-3.3-nemotron-super-49b-v1 49B 1.62s 性价比高
3 nvidia/nemotron-3-nano-30b-a3b 30B 1.46s 速度快,能力不错
4 meta/llama-3.3-70b-instruct 70B 2.29s Meta成熟模型
5 qwen/qwen2.5-coder-32b-instruct 32B 1.47s 代码能力强

*Mixtral 8x22B 是MoE模型,实际激活参数约39B


⚡ SMALL 模型(速度优先)

排名 模型 参数量 速度 特点
1 openai/gpt-oss-20b 20B 1.34s 速度最快,能力优秀
2 nvidia/nemotron-mini-4b-instruct 4B 1.38s 超轻量,极快
3 qwen/qwen3-next-80b-a3b-thinking 80B* 1.42s MoE架构,速度快
4 mistralai/ministral-14b-instruct-2512 14B 1.53s Mistral轻量版
5 meta/llama-4-maverick-17b-128e-instruct 17B 1.52s Meta新架构

*Qwen3 Next是MoE模型,实际激活参数约3B


💡 推荐最终配置

编程推荐用 Mistral Devstral‑2‑123B‑Instruct‑2512

其他应用推荐 支持上下文1m 是 nvidia/nemotron-3-super-120b-a12b

# 方案A:追求极致能力(BIG慢但强)
BIG=meta/llama-3.1-405b-instruct
MIDDLE=mistralai/mixtral-8x22b-instruct-v0.1
SMALL=openai/gpt-oss-20b

# 方案B:平衡选择(推荐)
BIG=mistralai/devstral-2-123b-instruct-2512
MIDDLE=nvidia/llama-3.3-nemotron-super-49b-v1
SMALL=openai/gpt-oss-20b

你想用哪个方案?或者想从每个类别的5个候选中自己挑选?

先给总览:这5个模型分两类——一个超大全能旗舰(Llama‑3.1‑405B) + 四个高效MoE旗舰(120B级)

  • 追求绝对能力上限Llama‑3.1‑405B
  • 追求速度/成本/能力平衡,优先 GPT‑OSS‑120B ≈ Devstral‑2‑123B > Mistral Small 4 > Nemotron‑3 Super(通用场景);
  • 代码智能体Devstral‑2‑123B企业级长上下文+高吞吐Nemotron‑3 Super多模态+推理+编程三合一Mistral Small 4

一、核心参数速览(按你给的排序)

模型 总参数 激活参数 速度(秒/轮) 上下文 开源协议 核心定位
Llama‑3.1‑405B‑Instruct 405B 405B 8.13 128K 商用需申请 最大模型,全能最强
Devstral‑2‑123B‑Instruct 123B 约12B 1.63 256K Apache 2.0 代码/Agent顶级,快
GPT‑OSS‑120B 120B 5.1B 1.43 128K Apache 2.0 OpenAI开源旗舰,均衡
Nemotron‑3 Super‑120B 120B 12B 2.55 1M Apache 2.0 NVIDIA企业级,长上下文+高吞吐
Mistral Small 4‑119B 119B 6.5B 1.80 256K Apache 2.0 Mistral大版本,多模态+推理+编程

二、逐个模型精要

1. Meta Llama‑3.1‑405B‑Instruct(2024.7)
  • 唯一非MoE、全参数激活的超大模型,开源界能力天花板
  • 优势:全能最强——推理、数学、多语言、工具调用、长文本理解均顶尖;128K上下文;多语言支持好。
  • 劣势:极慢+极耗资源(8.13秒/轮);部署成本极高(需多卡集群);商用需Meta审批。
  • 适用:科研、极致性能场景、无成本压力的旗舰服务
2. Mistral Devstral‑2‑123B‑Instruct‑2512(2025.12)
  • Mistral专为软件工程/Agent编码打造的123B MoE模型。
  • 优势:代码/Agent最强(SWE‑bench 72.2%,开源第一);256K上下文;速度快(1.63秒);FP8精度,部署友好。
  • 劣势:通用能力略逊GPT‑OSS;偏代码场景,非代码推理稍弱。
  • 适用:AI代码助手、自动编程、复杂代码库理解、软件智能体
3. OpenAI GPT‑OSS‑120B(2025.8)
  • OpenAI首款开源大模型,MoE架构(117B总/5.1B激活)。
  • 优势:通用能力最强(120B级),接近o4‑mini;速度最快(1.43秒);单卡80GB可部署;工具调用/数学/科学优异。
  • 劣势:上下文128K(短于Devstral/Nemotron);开源晚,生态稍弱。
  • 适用:通用对话、推理、数学、工具调用、生产级高吞吐服务
4. NVIDIA Nemotron‑3 Super‑120B‑A12B(2026.3)
  • NVIDIA混合Mamba‑Transformer+LatentMoE,120B总/12B激活。
  • 优势:上下文100万token(碾压级);推理吞吐比GPT‑OSS高2.2倍;企业级优化,多语言强;NVFP4量化,部署高效。
  • 劣势:速度偏慢(2.55秒);通用基准略低于GPT‑OSS/Devstral;生态新。
  • 适用:超长文档分析、企业级智能体、IT自动化、高并发长上下文场景
5. Mistral Small 4‑119B‑2603(2026.3)
  • Mistral三合一模型:推理(Magistral)+多模态(Pixtral)+编码(Devstral)。
  • 优势:多模态(图像输入);可切换快速/深度推理;256K上下文;Apache 2.0开源;吞吐比Small 3高3倍。
  • 劣势:通用能力略低于GPT‑OSS/Devstral;多模态能力中等;激活参数6.5B,推理效率一般。
  • 适用:通用对话+图像理解+轻量编码、多模态助手、中小规模全能服务

三、关键维度对比(结论化)

  • 能力上限:Llama‑3.1‑405B ≫ GPT‑OSS‑120B ≈ Devstral‑2‑123B > Mistral Small 4 > Nemotron‑3 Super
  • 推理速度(越快越好):GPT‑OSS‑120B(1.43s) > Devstral‑2‑123B(1.63s) > Mistral Small 4(1.80s) > Nemotron‑3 Super(2.55s) ≫ Llama‑3.1‑405B(8.13s)
  • 上下文长度(越长越好):Nemotron‑3 Super(1M) ≫ Devstral‑2‑123B = Mistral Small 4(256K) > Llama‑3.1‑405B = GPT‑OSS‑120B(128K)
  • 代码/Agent能力:Devstral‑2‑123B ≫ GPT‑OSS‑120B > Mistral Small 4 > Nemotron‑3 Super > Llama‑3.1‑405B
  • 多模态能力:Mistral Small 4(图像输入) > 其他4个(纯文本)
  • 部署成本:GPT‑OSS‑120B(单卡80GB) < Mistral Small 4 < Devstral‑2‑123B < Nemotron‑3 Super ≪ Llama‑3.1‑405B(多卡集群)

四、选型建议(直接对号入座)

  1. 要绝对最强能力、不计成本Llama‑3.1‑405B‑Instruct
  2. 通用场景、平衡速度/能力/成本GPT‑OSS‑120B
  3. 代码生成/自动编程/软件智能体Devstral‑2‑123B‑Instruct
  4. 超长文档、企业级高吞吐、长上下文智能体Nemotron‑3 Super‑120B
  5. 需要图像理解+通用对话+轻量编码Mistral Small 4‑119B

要不要我把这5个模型的**部署环境需求(显存/算力)常见性能基准(MMLU、GSM8K、SWE-bench)**整理成一页对比表,方便你快速决策?

Devstral‑2‑123B‑Instruct(Mistral,2025年12月发布)是123B总参、MoE架构、代码/Agent专项旗舰,国内最直接对标是月之暗面Kimi K2‑Instruct(MoE,≈120B总参),其次是阿里Qwen3.5‑122B‑A10B(通用MoE)DeepSeek‑V3.2(685B MoE,代码更强)

一、核心定位与参数对标

Devstral‑2‑123B:代码+Agent双优,256K上下文,SWE‑bench Verified 72.2%(开源第二,仅次于DeepSeek V3.2),主打仓库级代码探索、多文件编辑、软件工程智能体。

对比维度 Devstral‑2‑123B Mistral Kimi K2‑Instruct(月之暗面) Qwen3.5‑122B‑A10B(阿里)
总参数量 123B ≈120B 122B
激活参数 ≈12B(MoE) ≈10B(MoE) 10B(MoE)
上下文 256K(原生) 256K(原生) 262K(原生,可扩1M)
发布时间 2025.12 2026.01 2026.02
核心优势 代码SOTA、Agent强、推理快 中文强、代码顶尖、256K 通用强、长文本、多模态
SWE‑bench 72.2% ≈70% ≈65%

二、国内同级模型详细对标

1. 月之暗面 Kimi K2‑Instruct(最直接对标)
  • 架构:MoE,≈120B总参,激活≈10B,256K上下文。
  • 性能:SWE‑bench Verified ≈70%,仅次于Devstral‑2与DeepSeek V3.2;中文理解+代码生成双强,Agent工具链成熟。
  • 差异:Devstral‑2代码/Agent略强;Kimi K2中文更优、生态更全、国内访问快
2. 阿里通义千问 Qwen3.5‑122B‑A10B(通用旗舰对标)
  • 架构:MoE,122B总参,激活10B,262K上下文(可扩1M)。
  • 性能:通用能力(CMMLU/C‑Eval)强;代码SWE‑bench ≈65%,弱于Devstral‑2/Kimi K2;**原生多模态(图文)**领先。
  • 差异:Devstral‑2代码/Agent碾压;Qwen3.5通用/多模态更强
3. DeepSeek‑V3.2(代码更强,但参数更大)
  • 架构:MoE,685B总参,激活≈37B,128K上下文。
  • 性能:SWE‑bench Verified 73.1%(开源第一),代码能力略超Devstral‑2;但参数量是其5.6倍,部署成本高。
  • 差异:DeepSeek‑V3.2代码最强但笨重;Devstral‑2性能接近、参数更高效

三、结论与选型建议

  • 最佳对标:Kimi K2‑Instruct(≈120B MoE、256K上下文、代码/Agent双强、国内生态友好)。
  • 通用替代:Qwen3.5‑122B‑A10B(通用/多模态强,代码略弱)。
  • 代码最强:DeepSeek‑V3.2(性能略超但参数巨大,成本高)。

一句话总结:Devstral‑2‑123B ≈ Kimi K2‑Instruct(120B级MoE、代码/Agent旗舰);Devstral胜在代码推理速度与SWE基准,Kimi强在中文理解与国内生态

Nemotron‑3 Super‑120B(总参120B、激活12B)对标的国内模型是阿里通义千问Qwen3.5‑122B‑A10B(总参122B、激活10B),二者同为2026年Q1发布的120B级MoE混合架构旗舰,定位与综合性能接近。

一、核心参数对比

对比维度 Nemotron‑3 Super‑120B(NVIDIA) Qwen3.5‑122B‑A10B(阿里)
总参数量 120B(1200亿) 122B(1220亿)
激活参数量 12B(120亿) 10B(100亿)
架构 混合Mamba‑2 + Transformer + LatentMoE Gated DeltaNet + 注意力混合MoE
上下文窗口 原生1M token 原生262K token(可扩至1M)
推理效率 NVFP4量化,单H100可跑,吞吐比Qwen高约7.5倍 BF16约250GB,社区量化后可单卡部署
发布时间 2026年3月 2026年2月

二、能力定位与差异

  • 对标结论:二者同属全球第一梯队开源MoE大模型,在推理、长文本、多模态(Qwen原生支持)、Agent智能体场景直接竞争。
  • Nemotron优势推理速度极快(Agent场景比Qwen快7.5倍)、1M超长上下文原生支持、NVFP4量化部署门槛更低。
  • Qwen优势中文与多模态更强(原生图文视频理解)、生态成熟(下载量与衍生模型丰富)、开源协议友好(Apache 2.0)

三、国内同级备选

  • 无完全一致的120B级MoE:除Qwen3.5‑122B外,国内暂无同规模开源MoE模型(如InternLM‑2‑MoE为12B激活,规模小一档)。
  • 闭源对标:可参考文心一言4.0、讯飞星火V4、智谱GLM‑4等闭源旗舰,但参数与架构未公开,无法直接对齐。

四、一句话总结

Nemotron‑3 Super‑120B ≈ 通义千问Qwen3.5‑122B‑A10B:同为120B级MoE旗舰,NVIDIA胜在速度与长上下文,阿里强在中文、多模态与生态

需要我把这两个模型的**中文评测基准(如CMMLU、C‑Eval)**得分整理成对比表吗?

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐