别再说“天又塌了”！面对每周一个新模型，我劝你掌握这项核心竞争力

大地之灯

497人浏览 · 2026-04-24 16:28:15

大地之灯 · 2026-04-24 16:28:15 发布

天不用再塌了，一文教你如何评测模型能力

项目已开源： https://github.com/SWUSTcyt/llm-eval-playground.git
欢迎 Star、Fork、提 Issue，一起打造更好用的评测工具。

关注同名公众号获取更多技术资讯！

一、前言：模型大爆发，焦虑从何来

1.1 大模型"井喷"时代

从 2025 年末到 2026 年初，大模型赛道进入了前所未有的高密度发布期。几乎每隔一两周，就会有一款"重磅新模型"刷屏社交媒体：

🌍 国外阵营：性能与效率的双重巅峰

OpenAI GPT-5 系列： 继 GPT-4o 之后，OpenAI 接连推出 GPT-5.2 和 GPT-5.3-Codex。其中 Codex 版本专门针对代码场景优化，支持全新的 Responses API，在编程辅助领域表现亮眼。
Google Gemini 3 系列： 除了主打高性价比的 Gemini 3 Flash，Gemini 3.1 Pro 的发布补齐了全能型选手的拼图。它在保持超长上下文窗口的同时，大幅提升了逻辑推理和多模态理解能力，被视为目前最强的“六边形战士”之一。

🇨🇳 国内阵营：百花齐放，各显神通

阿里 Qwen3.5 系列： Qwen3.5-Plus 和 Qwen3.5-397B-A17B（MoE 架构）先后发布。397B 参数量惊人，但实际激活参数仅 17B，兼顾了性能和成本。
Minimax M2.5 系列： 作为国内第一梯队的“黑马”，Minimax最新发布的M2.5模型，在感性理解、长文本处理和拟人化交互上表现极其亮眼。其独特的“原生 Agent”能力，使其成为中文语境下最有温度、也最具行动力的模型之一。
DeepSeek 深度求索： 尽管对DeepSeek-V4（即将发布）的实测还未完成，但根据已引爆社区的V4 Lite版本表现，其在逻辑推理和代码能力上依然保持了恐怖的“性价比”。从“价格屠夫”到“性能悍将”，DeepSeek 始终是市场无法忽视的变量。

每次新模型发布，社交媒体上总会出现类似的声音：

“天又塌了！XXX 模型碾压一切！”

久而久之，大家都患上了"模型焦虑症"——到底该信谁？换了新模型，之前的选型还靠谱吗？

1.2 与其焦虑,不如自己动手测

面对层出不穷的模型，与其被各种营销话术牵着走，不如掌握自己的判断力。

本文会从两个角度帮你建立这种判断力：

角度一：如何看懂权威评测榜单——了解"别人是怎么测的"，学会从公开数据中获取信息。
角度二：如何搭建自己的评测系统——动手写代码，亲自跑一遍，用真实数据说话。

文章末尾会附上完整的开源项目地址，你可以直接拉取代码，配置好 API Key，一键跑出自己的评测报告。

二、权威榜单与评测基准

在动手之前，先了解一下业界已有的评测体系。这些公开榜单能帮你快速建立一个"基准感"，知道各家模型大致处在什么水位。

2.1 主流评测基准介绍

以下是几个最常被引用的评测基准，每个都有不同的侧重点：

MMLU / MMLU-Pro（综合知识）
全称 Massive Multitask Language Understanding，覆盖 57 个学科（从历史到物理再到法律），是目前衡量模型"知识广度"最常用的基准。看的核心指标是整体 accuracy。MMLU-Pro 是其升级版，难度更高、更不容易"刷分"。
GSM8K（数学推理）
包含约 8000 道小学数学应用题，重点测试模型的逐步推理（Chain-of-Thought）能力。指标是 exact_match（精确匹配率）。别看只是小学数学，很多模型在这上面的表现差距明显。
HumanEval / HumanEval+（代码生成）
由 OpenAI 提出，164 道 Python 编程题，测试模型写代码的能力。HumanEval+ 是 EvalPlus 项目的增强版，增加了更多测试用例来减少"碰巧通过"的情况。核心指标是 pass@1（一次生成就能通过的概率）。
IFEval（指令遵循）
测试模型能否严格遵守指令——比如"用 JSON 格式输出"、“回答不超过 100 字”、“只用英文回复”。这个基准能很好地反映模型在实际应用场景中的"听话程度"。
LMSYS Chatbot Arena（竞技场）
这是最贴近真实用户体感的评测方式：真人用户在盲评模式下和两个匿名模型对话，然后投票选出更好的那个。最终按 ELO 评分排名。不依赖任何固定数据集，能反映模型在开放场景下的综合表现。
C-Eval（中文能力）
专门面向中文场景的综合评测，覆盖中国高考、公务员考试、专业资格考试等题型。对于需要在中文业务场景中使用大模型的开发者来说，这是非常有参考价值的基准。

2.2 去哪里看这些榜单

以下几个网站是查看模型排名的常用入口：

LMSYS Chatbot Arena（https://arena.ai/leaderboard）：真人对战 ELO 排名，被认为是最贴近实际的评测。
OpenCompass 司南（https://opencompass.org.cn）：国内最全面的开源评测平台，支持上百种基准。
Hugging Face Open LLM Leaderboard（https://huggingface.co/spaces/open-llm-leaderboard）：开源模型排行榜，社区驱动。
Artificial Analysis（https://artificialanalysis.ai）：侧重性能、价格、延迟的横向对比，选型时非常实用。

💡 提示： 建议在阅读本文的同时，打开这几个网站对照查看，体会每个榜单的侧重点。

2.3 怎么理解榜单数字

看榜单时，有几个常见的"坑"需要注意：

同一基准的不同版本分数不可直接比较。比如 MMLU 和 MMLU-Pro 的分数体系差异很大，A 模型在 MMLU 上 90 分不代表比 B 模型在 MMLU-Pro 上 85 分更强。
厂商自报 vs 第三方复现。厂商发布时公布的数字往往是最优配置下的结果，实际使用时可能有差距。优先参考第三方独立复现的数据。
数据污染问题。部分模型可能在训练时"见过"测试集的题目，导致分数虚高。这也是为什么社区在不断推出新版本的基准（如 MMLU-Pro、HumanEval+）。
分数高不代表实际好用。Arena 这种真人盲评的排名，往往比固定数据集的分数更能反映用户体感。

总结一句话：榜单是参考，实测才是王道。

接下来，我们就来搭建自己的评测系统。

三、动手实战：搭建属于自己的评测系统

3.1 整体设计思路

我们的开源项目 llm-eval-playground 采用了一个简单但实用的设计：

核心理念：统一接口，逐模型评测，自动生成报告。

整体流程如下：

config.json 定义模型列表
        ↓
  各评测脚本逐模型运行
   （推理 / RAG / Function Calling / 多轮对话 / 延迟）
        ↓
  结果写入 results/*.json
        ↓
  run_all.py 汇总生成 Markdown 报告

所有模型统一走 OpenAI 兼容接口（/v1/chat/completions），不管你用的是 OpenAI 官方、阿里 DashScope、还是第三方代理，只需要在配置文件中指定 base_url 和 api_key_env 即可。

本次评测选取了 5 个模型，涵盖国内外三大厂商：

模型	厂商	定位
qwen-turbo-latest	阿里	极致性价比，低延迟
qwen3.5-plus	阿里	中高端，综合能力强
qwen3.5-397b-a17b	阿里	MoE 大模型，397B 参数
gemini-3-flash-preview	Google	低延迟，高性价比
gpt-5.3-codex	OpenAI	代码专精，最新一代

3.2 评测维度详解

我们从五个维度对模型进行评测，每个维度都对应实际业务中的常见需求。

3.2.1 推理能力

这是什么？ 推理能力是大模型最核心的能力之一。简单来说，就是模型能否"一步一步想清楚"，而不是直接蒙一个答案。
我们怎么测？ 使用业界标准的 lm-evaluation-harness 框架，选取 GSM8K（小学数学应用题）作为推理基准。每个模型跑 50 道题（2-shot，即给两个示例），通过 OpenAI 兼容接口调用。

举个例子，一道典型的 GSM8K 题目是这样的：
小明有 5 个苹果，给了小红 2 个，又买了 3 个。请问小明现在有几个苹果？
模型需要列出计算步骤，最终给出正确答案"6"。

看什么指标？ exact_match（精确匹配率）——模型给出的最终数字是否和标准答案完全一致。这个指标非常严格，不接受"差不多对"。

3.2.2 RAG 能力（检索增强生成）

这是什么？ RAG（Retrieval-Augmented Generation）是目前企业落地大模型最常见的架构：先从知识库中检索相关文档，再把文档内容拼接到 prompt 里，让模型基于这些"证据"来回答问题。这个场景中我们关心的是：模型能否基于给定的文档准确回答，而不是"瞎编"。
我们怎么测？ 整个流程分四步：

准备一组测试文档和对应的问答对；
使用 Embedding 模型将文档向量化，存入 FAISS 索引；
对每个问题检索 Top-K 最相关的文档片段，拼接到 prompt 中让模型回答；
使用 ragas 框架（一个专业的 RAG 评测工具）自动计算指标。

看什么指标？ ragas 框架提供三个核心指标：
answer_relevancy（答案相关性）：回答是否切题，不答非所问。
faithfulness（忠实度）：回答是否基于检索到的文档内容，而非模型自己"编造"的知识。这个指标在企业场景中尤其重要——你不希望客服机器人"自由发挥"。
context_precision（上下文精度）：检索到的文档片段里，有多少是真正有用的。

3.2.3 Function Calling（工具调用）

这是什么？ 现在的大模型不仅能聊天，还能"调用工具"——比如查天气、发邮件、执行计算。Function Calling 能力决定了模型能否在 Agent 场景中正确工作。
我们怎么测？ 设计了 10 个测试场景：
6 个需要调用工具的场景（如"今天北京天气怎么样？"应该调用 get_weather）
4 个不需要调用工具的场景（如"请做一下自我介绍"不应该调用任何工具）
模型需要做到三件事：选对工具、提取对参数、在不需要工具时正确拒绝。
看什么指标？
工具选择准确率：是否选对了该调用的工具
参数准确率：传给工具的参数是否正确
无需调用准确率：在不需要工具时，是否正确地没有调用

3.2.4 多轮对话

这是什么？ 实际使用中，我们很少只和模型说一句话。多轮对话能力决定了模型在持续交互中能否"记住"之前说了什么、保持一致的行为、正确理解指代关系。
我们怎么测？ 设计了 8 个多轮对话场景，覆盖三个维度：
上下文记忆：在第一轮告诉模型"我叫张伟，是一名软件工程师"，几轮对话后问"我叫什么名字？"——看模型是否还记得。
指令一致性：告诉模型"从现在开始只用英文回答"，然后故意用中文提问——看模型是否坚持用英文回复，不会被"带偏"。
指代消解：先聊"Python 是一种编程语言"，然后问"它是谁发明的？"——看模型是否理解"它"指的是 Python。
看什么指标？ 通过关键词命中和禁词检查自动判定每个场景是否通过，最终计算各维度的通过率。

3.2.5 延迟与吞吐量

这是什么？ 能力再强，如果回复要等半分钟，用户体验也会很差。延迟和吞吐量直接决定了模型在生产环境中的可用性。
我们怎么测？ 分三组测试：
短 prompt（约 50 字）、中 prompt（约 200 字）、长 prompt（约 500 字），每组各测 3 次取平均。
额外做一组 3 并发压测，模拟真实使用场景。
看什么指标？
平均延迟（秒）：从发出请求到收到完整回复的时间
平均吞吐（tok/s）：每秒生成的 token 数，越高越好
并发延迟：同时发多个请求时的平均响应时间

3.3 评测结果与分析

以下是我们使用上述五个模型、五个维度实测的结果。

推理能力（GSM8K exact_match）

模型	得分
qwen-turbo-latest	0.960
qwen3.5-plus	0.980
qwen3.5-397b-a17b	0.980
gpt-5.3-codex	0.920
gemini-3-flash-preview	0.020

💡 分析： Qwen 全系列表现非常稳定，qwen3.5 系列达到了 0.98 的高水平。GPT-5.3-Codex 虽然主打代码，但在数学推理上也有 0.92 的不错成绩。Gemini Flash 在该基准上得分偏低，可能与代理接口的兼容性有关，不一定反映模型真实能力。

RAG 能力（ragas 指标）

模型	答案相关性	忠实度	上下文精度
qwen-turbo-latest	0.844	1.000	1.000
qwen3.5-plus	0.967	1.000	1.000
qwen3.5-397b-a17b	0.967	0.917	1.000
gpt-5.3-codex	0.939	1.000	1.000
gemini-3-flash-preview	0.617	0.649	0.917

💡 分析： RAG 场景下，Qwen3.5 系列和 GPT-5.3-Codex 的忠实度几乎满分，说明它们很"老实"，严格基于给定文档回答，不会胡编乱造。Gemini Flash 的忠实度偏低（0.649），在对准确性要求高的场景中需要特别注意。

Function Calling（工具调用）

模型	工具选择	参数准确率	无需调用
qwen-turbo-latest	100.0%	83.3%	100.0%
qwen3.5-plus	100.0%	66.7%	100.0%
qwen3.5-397b-a17b	100.0%	66.7%	100.0%
gpt-5.3-codex	83.3%	80.0%	100.0%
gemini-3-flash-preview	0.0%	0.0%	100.0%

💡 分析： Qwen 全系列在工具选择上达到了 100% 的准确率，表现最为稳定。有趣的是，qwen-turbo 这个最"便宜"的模型，参数准确率反而是 Qwen 系列中最高的（83.3%）。所有模型在"不需要调用工具"的场景中都做出了正确判断。

多轮对话

模型	总体	上下文记忆	指代消解	指令一致性
qwen-turbo-latest	100.0%	100.0%	100.0%	100.0%
qwen3.5-plus	100.0%	100.0%	100.0%	100.0%
qwen3.5-397b-a17b	87.5%	66.7%	100.0%	100.0%
gpt-5.3-codex	100.0%	100.0%	100.0%	100.0%
gemini-3-flash-preview	100.0%	100.0%	100.0%	100.0%

💡 分析： 大部分模型全部通过。值得注意的是，参数量最大的 qwen3.5-397b-a17b 在上下文记忆方面反而有所遗漏（66.7%），说明"参数大不一定什么都强"，MoE 架构在多轮记忆上可能有其特殊性。

延迟与吞吐量

模型	平均延迟	吞吐(tok/s)	短prompt	长prompt	并发延迟
qwen-turbo-latest	1.55s	73.8	0.50s	2.43s	1.42s
gemini-3-flash-preview	2.79s	79.4	2.43s	2.95s	2.33s
gpt-5.3-codex	18.62s	35.2	1.93s	48.37s	7.44s
qwen3.5-397b-a17b	27.83s	79.4	6.55s	24.01s	121.27s

💡 分析： 速度方面差异巨大。qwen-turbo 以 1.55 秒的平均延迟遥遥领先，短 prompt 甚至只需 0.5 秒，非常适合对响应速度要求高的场景。Gemini Flash 虽然名字里有"Flash"，延迟也确实控制在 3 秒以内。大参数模型（397B、Codex）延迟明显更高，尤其在长 prompt 和并发场景下。