nvidia 免费ai 算力 测试100多种模型测试 薅羊毛 按照你的优先级(BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先)选出每个类别5个模型
nvidia 免费ai 算力 测试 https://build.nvidia.com/models 按照你的优先级(BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先)选出每个类别5个模型
26-5-6 下午5点左右测试
✅ 可用模型(按速度排序)
| # | 模型 | 耗时(s) |
|---|---|---|
| 1 | openai/gpt-oss-20b |
1.34 |
| 2 | openai/gpt-oss-20b |
1.38 |
| 3 | nvidia/nemotron-mini-4b-instruct |
1.38 |
| 4 | qwen/qwen3-next-80b-a3b-thinking |
1.42 |
| 5 | openai/gpt-oss-120b |
1.43 |
| 6 | openai/gpt-oss-120b |
1.46 |
| 7 | nvidia/nemotron-3-nano-30b-a3b |
1.46 |
| 8 | nvidia/nemotron-nano-12b-v2-vl |
1.47 |
| 9 | qwen/qwen2.5-coder-32b-instruct |
1.47 |
| 10 | google/gemma-2-2b-it |
1.48 |
| 11 | nvidia/nvidia-nemotron-nano-9b-v2 |
1.49 |
| 12 | meta/llama-4-maverick-17b-128e-instruct |
1.52 |
| 13 | meta/llama-3.2-11b-vision-instruct |
1.53 |
| 14 | mistralai/ministral-14b-instruct-2512 |
1.53 |
| 15 | nvidia/nemotron-3-nano-omni-30b-a3b-reasoning |
1.53 |
| 16 | mistralai/mistral-nemotron |
1.54 |
| 17 | mistralai/mixtral-8x22b-instruct-v0.1 |
1.57 |
| 18 | stepfun-ai/step-3.5-flash |
1.60 |
| 19 | nvidia/llama-3.3-nemotron-super-49b-v1 |
1.62 |
| 20 | mistralai/devstral-2-123b-instruct-2512 |
1.63 |
| 21 | sarvamai/sarvam-m |
1.66 |
| 22 | moonshotai/kimi-k2.6 |
1.72 |
| 23 | qwen/qwen3-next-80b-a3b-instruct |
1.73 |
| 24 | google/gemma-3n-e2b-it |
1.79 |
| 25 | mistralai/mistral-small-4-119b-2603 |
1.80 |
| 26 | upstage/solar-10.7b-instruct |
1.81 |
| 27 | nvidia/llama-3.3-nemotron-super-49b-v1.5 |
1.94 |
| 28 | abacusai/dracarys-llama-3.1-70b-instruct |
2.00 |
| 29 | meta/llama-3.2-90b-vision-instruct |
2.11 |
| 30 | meta/llama-3.3-70b-instruct |
2.29 |
| 31 | nvidia/llama-3.1-nemotron-nano-vl-8b-v1 |
2.31 |
| 32 | google/gemma-3n-e4b-it |
2.34 |
| 33 | nvidia/nemotron-3-super-120b-a12b |
2.55 |
| 34 | nvidia/nemotron-3-super-120b-a12b |
2.90 |
| 35 | google/gemma-3-4b-it |
3.01 |
| 36 | bytedance/seed-oss-36b-instruct |
3.10 |
| 37 | meta/llama-3.1-70b-instruct |
3.14 |
| 38 | deepseek-ai/deepseek-v4-pro |
3.52 |
| 39 | deepseek-ai/deepseek-v4-pro |
3.52 |
| 40 | meta/llama-3.1-8b-instruct |
3.60 |
| 41 | nvidia/nemotron-3-nano-omni-30b-a3b-reasoning |
3.68 |
| 42 | moonshotai/kimi-k2-instruct |
3.78 |
| 43 | meta/llama-3.2-1b-instruct |
4.00 |
| 44 | meta/llama-3.2-3b-instruct |
4.18 |
| 45 | meta/llama-3.1-405b-instruct |
8.13 |
| 46 | nvidia/llama-3.1-nemotron-nano-8b-v1 |
14.11 |
| 47 | microsoft/phi-4-mini-instruct |
16.71 |
❌ 错误模型(59 个)
| 模型 | 错误 |
|---|---|
01-ai/yi-large |
404 |
adept/fuyu-8b |
404 |
ai21labs/jamba-1.5-large-instruct |
404 |
bigcode/starcoder2-15b |
404 |
databricks/dbrx-instruct |
404 |
deepseek-ai/deepseek-coder-6.7b-instruct |
404 |
deepseek-ai/deepseek-v4-flash ×2 |
超时 |
google/codegemma-1.1-7b |
404 |
google/codegemma-7b |
404 |
google/gemma-2b |
404 |
google/gemma-3-12b-it |
400 |
google/gemma-3-27b-it |
400 |
google/gemma-4-31b-it |
超时 |
ibm/granite-3.0-3b-a800m-instruct |
404 |
ibm/granite-3.0-8b-instruct |
404 |
ibm/granite-34b-code-instruct |
404 |
ibm/granite-8b-code-instruct |
404 |
meta/codellama-70b |
404 |
meta/llama2-70b |
404 |
microsoft/phi-3-vision-128k-instruct |
404 |
microsoft/phi-3.5-moe-instruct |
404 |
microsoft/phi-4-multimodal-instruct |
400 |
minimaxai/minimax-m2.5 |
超时 |
minimaxai/minimax-m2.7 |
502 |
mistralai/codestral-22b-instruct-v0.1 |
404 |
mistralai/magistral-small-2506 |
超时 |
mistralai/mistral-7b-instruct-v0.3 |
404 |
mistralai/mistral-large |
404 |
mistralai/mistral-large-2-instruct |
404 |
mistralai/mistral-large-3-675b-instruct-2512 |
超时 |
mistralai/mistral-medium-3-instruct |
404 |
mistralai/mistral-medium-3.5-128b |
超时 |
mistralai/mixtral-8x22b-v0.1 |
404 |
mistralai/mixtral-8x7b-instruct-v0.1 |
400 |
moonshotai/kimi-k2-instruct-0905 |
404 |
moonshotai/kimi-k2-thinking |
超时 |
nv-mistralai/mistral-nemo-12b-instruct |
404 |
nvidia/cosmos-reason2-8b |
404 |
nvidia/llama-3.1-nemotron-51b-instruct |
404 |
nvidia/llama-3.1-nemotron-70b-instruct |
404 |
nvidia/llama-3.1-nemotron-ultra-253b-v1 |
404 |
nvidia/llama3-chatqa-1.5-70b |
404 |
nvidia/mistral-nemo-minitron-8b-8k-instruct |
404 |
nvidia/nemotron-3-nano-omni-30b-a3b-reasoning |
404 |
nvidia/nemotron-4-340b-instruct |
404 |
nvidia/nemotron-4-340b-reward |
404 |
nvidia/nemotron-nano-3-30b-a3b |
404 |
qwen/qwen3-coder-480b-a35b-instruct |
超时 |
qwen/qwen3.5-122b-a10b |
超时 |
qwen/qwen3.5-397b-a17b |
超时 |
stockmark/stockmark-2-100b-instruct |
脚本错误 |
writer/palmyra-creative-122b |
404 |
writer/palmyra-fin-70b-32k |
404 |
writer/palmyra-med-70b |
404 |
writer/palmyra-med-70b-32k |
404 |
z-ai/glm-5.1 |
超时 |
z-ai/glm4.7 |
超时 |
z-ai/glm5 |
超时 |
zyphra/zamba2-7b-instruct |
404 |
结论:
- 最快:
openai/gpt-oss-20b(1.34s)和nvidia/nemotron-mini-4b-instruct(1.38s) meta/llama-3.1-405b-instruct(当前 BIG)最慢之一(8.13s)- 建议把 BIG 换成
openai/gpt-oss-20b或nvidia/llama-3.3-nemotron-super-49b-v1
按照你的优先级(BIG=能力第一、MIDDLE=兼顾、SMALL=速度优先)选出每个类别5个模型。
首先整理去重后的可用模型(保留最快速度):
🏆 推荐配置方案
📊 BIG 模型(能力优先,速度次之)
| 排名 | 模型 | 参数量 | 速度 | 特点 |
|---|---|---|---|---|
| 1 | meta/llama-3.1-405b-instruct |
405B | 8.13s | 最大模型,能力最强 |
| 2 | mistralai/devstral-2-123b-instruct-2512 |
123B | 1.63s | 能力接近顶级,速度快 |
| 3 | openai/gpt-oss-120b |
120B | 1.43s | 开源旗舰,能力强 |
| 4 | nvidia/nemotron-3-super-120b-a12b |
120B | 2.55s | NVIDIA优化,企业级 |
| 5 | mistralai/mistral-small-4-119b-2603 |
119B | 1.80s | Mistral大版本 |
⚖️ MIDDLE 模型(能力与速度兼顾)
| 排名 | 模型 | 参数量 | 速度 | 特点 |
|---|---|---|---|---|
| 1 | mistralai/mixtral-8x22b-instruct-v0.1 |
141B* | 1.57s | MoE架构,能力强速度快 |
| 2 | nvidia/llama-3.3-nemotron-super-49b-v1 |
49B | 1.62s | 性价比高 |
| 3 | nvidia/nemotron-3-nano-30b-a3b |
30B | 1.46s | 速度快,能力不错 |
| 4 | meta/llama-3.3-70b-instruct |
70B | 2.29s | Meta成熟模型 |
| 5 | qwen/qwen2.5-coder-32b-instruct |
32B | 1.47s | 代码能力强 |
*Mixtral 8x22B 是MoE模型,实际激活参数约39B
⚡ SMALL 模型(速度优先)
| 排名 | 模型 | 参数量 | 速度 | 特点 |
|---|---|---|---|---|
| 1 | openai/gpt-oss-20b |
20B | 1.34s | 速度最快,能力优秀 |
| 2 | nvidia/nemotron-mini-4b-instruct |
4B | 1.38s | 超轻量,极快 |
| 3 | qwen/qwen3-next-80b-a3b-thinking |
80B* | 1.42s | MoE架构,速度快 |
| 4 | mistralai/ministral-14b-instruct-2512 |
14B | 1.53s | Mistral轻量版 |
| 5 | meta/llama-4-maverick-17b-128e-instruct |
17B | 1.52s | Meta新架构 |
*Qwen3 Next是MoE模型,实际激活参数约3B
💡 推荐最终配置
编程推荐用 Mistral Devstral‑2‑123B‑Instruct‑2512
其他应用推荐 支持上下文1m 是 nvidia/nemotron-3-super-120b-a12b
# 方案A:追求极致能力(BIG慢但强)
BIG=meta/llama-3.1-405b-instruct
MIDDLE=mistralai/mixtral-8x22b-instruct-v0.1
SMALL=openai/gpt-oss-20b
# 方案B:平衡选择(推荐)
BIG=mistralai/devstral-2-123b-instruct-2512
MIDDLE=nvidia/llama-3.3-nemotron-super-49b-v1
SMALL=openai/gpt-oss-20b
你想用哪个方案?或者想从每个类别的5个候选中自己挑选?
先给总览:这5个模型分两类——一个超大全能旗舰(Llama‑3.1‑405B) + 四个高效MoE旗舰(120B级)。
- 追求绝对能力上限选 Llama‑3.1‑405B;
- 追求速度/成本/能力平衡,优先 GPT‑OSS‑120B ≈ Devstral‑2‑123B > Mistral Small 4 > Nemotron‑3 Super(通用场景);
- 代码智能体选 Devstral‑2‑123B;企业级长上下文+高吞吐选 Nemotron‑3 Super;多模态+推理+编程三合一选 Mistral Small 4。
一、核心参数速览(按你给的排序)
| 模型 | 总参数 | 激活参数 | 速度(秒/轮) | 上下文 | 开源协议 | 核心定位 |
|---|---|---|---|---|---|---|
| Llama‑3.1‑405B‑Instruct | 405B | 405B | 8.13 | 128K | 商用需申请 | 最大模型,全能最强 |
| Devstral‑2‑123B‑Instruct | 123B | 约12B | 1.63 | 256K | Apache 2.0 | 代码/Agent顶级,快 |
| GPT‑OSS‑120B | 120B | 5.1B | 1.43 | 128K | Apache 2.0 | OpenAI开源旗舰,均衡 |
| Nemotron‑3 Super‑120B | 120B | 12B | 2.55 | 1M | Apache 2.0 | NVIDIA企业级,长上下文+高吞吐 |
| Mistral Small 4‑119B | 119B | 6.5B | 1.80 | 256K | Apache 2.0 | Mistral大版本,多模态+推理+编程 |
二、逐个模型精要
1. Meta Llama‑3.1‑405B‑Instruct(2024.7)
- 唯一非MoE、全参数激活的超大模型,开源界能力天花板。
- 优势:全能最强——推理、数学、多语言、工具调用、长文本理解均顶尖;128K上下文;多语言支持好。
- 劣势:极慢+极耗资源(8.13秒/轮);部署成本极高(需多卡集群);商用需Meta审批。
- 适用:科研、极致性能场景、无成本压力的旗舰服务。
2. Mistral Devstral‑2‑123B‑Instruct‑2512(2025.12)
- Mistral专为软件工程/Agent编码打造的123B MoE模型。
- 优势:代码/Agent最强(SWE‑bench 72.2%,开源第一);256K上下文;速度快(1.63秒);FP8精度,部署友好。
- 劣势:通用能力略逊GPT‑OSS;偏代码场景,非代码推理稍弱。
- 适用:AI代码助手、自动编程、复杂代码库理解、软件智能体。
3. OpenAI GPT‑OSS‑120B(2025.8)
- OpenAI首款开源大模型,MoE架构(117B总/5.1B激活)。
- 优势:通用能力最强(120B级),接近o4‑mini;速度最快(1.43秒);单卡80GB可部署;工具调用/数学/科学优异。
- 劣势:上下文128K(短于Devstral/Nemotron);开源晚,生态稍弱。
- 适用:通用对话、推理、数学、工具调用、生产级高吞吐服务。
4. NVIDIA Nemotron‑3 Super‑120B‑A12B(2026.3)
- NVIDIA混合Mamba‑Transformer+LatentMoE,120B总/12B激活。
- 优势:上下文100万token(碾压级);推理吞吐比GPT‑OSS高2.2倍;企业级优化,多语言强;NVFP4量化,部署高效。
- 劣势:速度偏慢(2.55秒);通用基准略低于GPT‑OSS/Devstral;生态新。
- 适用:超长文档分析、企业级智能体、IT自动化、高并发长上下文场景。
5. Mistral Small 4‑119B‑2603(2026.3)
- Mistral三合一模型:推理(Magistral)+多模态(Pixtral)+编码(Devstral)。
- 优势:多模态(图像输入);可切换快速/深度推理;256K上下文;Apache 2.0开源;吞吐比Small 3高3倍。
- 劣势:通用能力略低于GPT‑OSS/Devstral;多模态能力中等;激活参数6.5B,推理效率一般。
- 适用:通用对话+图像理解+轻量编码、多模态助手、中小规模全能服务。
三、关键维度对比(结论化)
- 能力上限:Llama‑3.1‑405B ≫ GPT‑OSS‑120B ≈ Devstral‑2‑123B > Mistral Small 4 > Nemotron‑3 Super
- 推理速度(越快越好):GPT‑OSS‑120B(1.43s) > Devstral‑2‑123B(1.63s) > Mistral Small 4(1.80s) > Nemotron‑3 Super(2.55s) ≫ Llama‑3.1‑405B(8.13s)
- 上下文长度(越长越好):Nemotron‑3 Super(1M) ≫ Devstral‑2‑123B = Mistral Small 4(256K) > Llama‑3.1‑405B = GPT‑OSS‑120B(128K)
- 代码/Agent能力:Devstral‑2‑123B ≫ GPT‑OSS‑120B > Mistral Small 4 > Nemotron‑3 Super > Llama‑3.1‑405B
- 多模态能力:Mistral Small 4(图像输入) > 其他4个(纯文本)
- 部署成本:GPT‑OSS‑120B(单卡80GB) < Mistral Small 4 < Devstral‑2‑123B < Nemotron‑3 Super ≪ Llama‑3.1‑405B(多卡集群)
四、选型建议(直接对号入座)
- 要绝对最强能力、不计成本 → Llama‑3.1‑405B‑Instruct
- 通用场景、平衡速度/能力/成本 → GPT‑OSS‑120B
- 代码生成/自动编程/软件智能体 → Devstral‑2‑123B‑Instruct
- 超长文档、企业级高吞吐、长上下文智能体 → Nemotron‑3 Super‑120B
- 需要图像理解+通用对话+轻量编码 → Mistral Small 4‑119B
要不要我把这5个模型的**部署环境需求(显存/算力)和常见性能基准(MMLU、GSM8K、SWE-bench)**整理成一页对比表,方便你快速决策?
Devstral‑2‑123B‑Instruct(Mistral,2025年12月发布)是123B总参、MoE架构、代码/Agent专项旗舰,国内最直接对标是月之暗面Kimi K2‑Instruct(MoE,≈120B总参),其次是阿里Qwen3.5‑122B‑A10B(通用MoE)与DeepSeek‑V3.2(685B MoE,代码更强)。
一、核心定位与参数对标
Devstral‑2‑123B:代码+Agent双优,256K上下文,SWE‑bench Verified 72.2%(开源第二,仅次于DeepSeek V3.2),主打仓库级代码探索、多文件编辑、软件工程智能体。
| 对比维度 | Devstral‑2‑123B | Mistral | Kimi K2‑Instruct(月之暗面) | Qwen3.5‑122B‑A10B(阿里) |
|---|---|---|---|---|
| 总参数量 | 123B | ≈120B | 122B | |
| 激活参数 | ≈12B(MoE) | ≈10B(MoE) | 10B(MoE) | |
| 上下文 | 256K(原生) | 256K(原生) | 262K(原生,可扩1M) | |
| 发布时间 | 2025.12 | 2026.01 | 2026.02 | |
| 核心优势 | 代码SOTA、Agent强、推理快 | 中文强、代码顶尖、256K | 通用强、长文本、多模态 | |
| SWE‑bench | 72.2% | ≈70% | ≈65% |
二、国内同级模型详细对标
1. 月之暗面 Kimi K2‑Instruct(最直接对标)
- 架构:MoE,≈120B总参,激活≈10B,256K上下文。
- 性能:SWE‑bench Verified ≈70%,仅次于Devstral‑2与DeepSeek V3.2;中文理解+代码生成双强,Agent工具链成熟。
- 差异:Devstral‑2代码/Agent略强;Kimi K2中文更优、生态更全、国内访问快。
2. 阿里通义千问 Qwen3.5‑122B‑A10B(通用旗舰对标)
- 架构:MoE,122B总参,激活10B,262K上下文(可扩1M)。
- 性能:通用能力(CMMLU/C‑Eval)强;代码SWE‑bench ≈65%,弱于Devstral‑2/Kimi K2;**原生多模态(图文)**领先。
- 差异:Devstral‑2代码/Agent碾压;Qwen3.5通用/多模态更强。
3. DeepSeek‑V3.2(代码更强,但参数更大)
- 架构:MoE,685B总参,激活≈37B,128K上下文。
- 性能:SWE‑bench Verified 73.1%(开源第一),代码能力略超Devstral‑2;但参数量是其5.6倍,部署成本高。
- 差异:DeepSeek‑V3.2代码最强但笨重;Devstral‑2性能接近、参数更高效。
三、结论与选型建议
- 最佳对标:Kimi K2‑Instruct(≈120B MoE、256K上下文、代码/Agent双强、国内生态友好)。
- 通用替代:Qwen3.5‑122B‑A10B(通用/多模态强,代码略弱)。
- 代码最强:DeepSeek‑V3.2(性能略超但参数巨大,成本高)。
一句话总结:Devstral‑2‑123B ≈ Kimi K2‑Instruct(120B级MoE、代码/Agent旗舰);Devstral胜在代码推理速度与SWE基准,Kimi强在中文理解与国内生态。
Nemotron‑3 Super‑120B(总参120B、激活12B)对标的国内模型是阿里通义千问Qwen3.5‑122B‑A10B(总参122B、激活10B),二者同为2026年Q1发布的120B级MoE混合架构旗舰,定位与综合性能接近。
一、核心参数对比
| 对比维度 | Nemotron‑3 Super‑120B(NVIDIA) | Qwen3.5‑122B‑A10B(阿里) |
|---|---|---|
| 总参数量 | 120B(1200亿) | 122B(1220亿) |
| 激活参数量 | 12B(120亿) | 10B(100亿) |
| 架构 | 混合Mamba‑2 + Transformer + LatentMoE | Gated DeltaNet + 注意力混合MoE |
| 上下文窗口 | 原生1M token | 原生262K token(可扩至1M) |
| 推理效率 | NVFP4量化,单H100可跑,吞吐比Qwen高约7.5倍 | BF16约250GB,社区量化后可单卡部署 |
| 发布时间 | 2026年3月 | 2026年2月 |
二、能力定位与差异
- 对标结论:二者同属全球第一梯队开源MoE大模型,在推理、长文本、多模态(Qwen原生支持)、Agent智能体场景直接竞争。
- Nemotron优势:推理速度极快(Agent场景比Qwen快7.5倍)、1M超长上下文原生支持、NVFP4量化部署门槛更低。
- Qwen优势:中文与多模态更强(原生图文视频理解)、生态成熟(下载量与衍生模型丰富)、开源协议友好(Apache 2.0)。
三、国内同级备选
- 无完全一致的120B级MoE:除Qwen3.5‑122B外,国内暂无同规模开源MoE模型(如InternLM‑2‑MoE为12B激活,规模小一档)。
- 闭源对标:可参考文心一言4.0、讯飞星火V4、智谱GLM‑4等闭源旗舰,但参数与架构未公开,无法直接对齐。
四、一句话总结
Nemotron‑3 Super‑120B ≈ 通义千问Qwen3.5‑122B‑A10B:同为120B级MoE旗舰,NVIDIA胜在速度与长上下文,阿里强在中文、多模态与生态。
需要我把这两个模型的**中文评测基准(如CMMLU、C‑Eval)**得分整理成对比表吗?
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)