天不用再塌了,一文教你如何评测模型能力

项目已开源: https://github.com/SWUSTcyt/llm-eval-playground.git
欢迎 Star、Fork、提 Issue,一起打造更好用的评测工具。

关注同名公众号获取更多技术资讯!


一、前言:模型大爆发,焦虑从何来

1.1 大模型"井喷"时代

从 2025 年末到 2026 年初,大模型赛道进入了前所未有的高密度发布期。几乎每隔一两周,就会有一款"重磅新模型"刷屏社交媒体:

🌍 国外阵营:性能与效率的双重巅峰

  • OpenAI GPT-5 系列: 继 GPT-4o 之后,OpenAI 接连推出 GPT-5.2 和 GPT-5.3-Codex。其中 Codex 版本专门针对代码场景优化,支持全新的 Responses API,在编程辅助领域表现亮眼。
  • Google Gemini 3 系列: 除了主打高性价比的 Gemini 3 Flash,Gemini 3.1 Pro 的发布补齐了全能型选手的拼图。它在保持超长上下文窗口的同时,大幅提升了逻辑推理和多模态理解能力,被视为目前最强的“六边形战士”之一。

🇨🇳 国内阵营:百花齐放,各显神通

  • 阿里 Qwen3.5 系列: Qwen3.5-Plus 和 Qwen3.5-397B-A17B(MoE 架构)先后发布。397B 参数量惊人,但实际激活参数仅 17B,兼顾了性能和成本。
  • Minimax M2.5 系列: 作为国内第一梯队的“黑马”,Minimax最新发布的M2.5模型,在感性理解、长文本处理和拟人化交互上表现极其亮眼。其独特的“原生 Agent”能力,使其成为中文语境下最有温度、也最具行动力的模型之一。
  • DeepSeek 深度求索: 尽管对DeepSeek-V4(即将发布)的实测还未完成,但根据已引爆社区的V4 Lite版本表现,其在逻辑推理和代码能力上依然保持了恐怖的“性价比”。从“价格屠夫”到“性能悍将”,DeepSeek 始终是市场无法忽视的变量。

每次新模型发布,社交媒体上总会出现类似的声音:

“天又塌了!XXX 模型碾压一切!”

久而久之,大家都患上了"模型焦虑症"——到底该信谁?换了新模型,之前的选型还靠谱吗?

1.2 与其焦虑,不如自己动手测

面对层出不穷的模型,与其被各种营销话术牵着走,不如掌握自己的判断力。

本文会从两个角度帮你建立这种判断力:

  • 角度一:如何看懂权威评测榜单——了解"别人是怎么测的",学会从公开数据中获取信息。
  • 角度二:如何搭建自己的评测系统——动手写代码,亲自跑一遍,用真实数据说话。

文章末尾会附上完整的开源项目地址,你可以直接拉取代码,配置好 API Key,一键跑出自己的评测报告。


二、权威榜单与评测基准

在动手之前,先了解一下业界已有的评测体系。这些公开榜单能帮你快速建立一个"基准感",知道各家模型大致处在什么水位。

2.1 主流评测基准介绍

以下是几个最常被引用的评测基准,每个都有不同的侧重点:

  • MMLU / MMLU-Pro(综合知识)
    全称 Massive Multitask Language Understanding,覆盖 57 个学科(从历史到物理再到法律),是目前衡量模型"知识广度"最常用的基准。看的核心指标是整体 accuracy。MMLU-Pro 是其升级版,难度更高、更不容易"刷分"。
  • GSM8K(数学推理)
    包含约 8000 道小学数学应用题,重点测试模型的逐步推理(Chain-of-Thought)能力。指标是 exact_match(精确匹配率)。别看只是小学数学,很多模型在这上面的表现差距明显。
  • HumanEval / HumanEval+(代码生成)
    由 OpenAI 提出,164 道 Python 编程题,测试模型写代码的能力。HumanEval+ 是 EvalPlus 项目的增强版,增加了更多测试用例来减少"碰巧通过"的情况。核心指标是 pass@1(一次生成就能通过的概率)。
  • IFEval(指令遵循)
    测试模型能否严格遵守指令——比如"用 JSON 格式输出"、“回答不超过 100 字”、“只用英文回复”。这个基准能很好地反映模型在实际应用场景中的"听话程度"。
  • LMSYS Chatbot Arena(竞技场)
    这是最贴近真实用户体感的评测方式:真人用户在盲评模式下和两个匿名模型对话,然后投票选出更好的那个。最终按 ELO 评分排名。不依赖任何固定数据集,能反映模型在开放场景下的综合表现。
  • C-Eval(中文能力)
    专门面向中文场景的综合评测,覆盖中国高考、公务员考试、专业资格考试等题型。对于需要在中文业务场景中使用大模型的开发者来说,这是非常有参考价值的基准。

2.2 去哪里看这些榜单

以下几个网站是查看模型排名的常用入口:

💡 提示: 建议在阅读本文的同时,打开这几个网站对照查看,体会每个榜单的侧重点。

2.3 怎么理解榜单数字

看榜单时,有几个常见的"坑"需要注意:

  1. 同一基准的不同版本分数不可直接比较。比如 MMLU 和 MMLU-Pro 的分数体系差异很大,A 模型在 MMLU 上 90 分不代表比 B 模型在 MMLU-Pro 上 85 分更强。
  2. 厂商自报 vs 第三方复现。厂商发布时公布的数字往往是最优配置下的结果,实际使用时可能有差距。优先参考第三方独立复现的数据。
  3. 数据污染问题。部分模型可能在训练时"见过"测试集的题目,导致分数虚高。这也是为什么社区在不断推出新版本的基准(如 MMLU-Pro、HumanEval+)。
  4. 分数高不代表实际好用。Arena 这种真人盲评的排名,往往比固定数据集的分数更能反映用户体感。

总结一句话:榜单是参考,实测才是王道。

接下来,我们就来搭建自己的评测系统。


三、动手实战:搭建属于自己的评测系统

3.1 整体设计思路

我们的开源项目 llm-eval-playground 采用了一个简单但实用的设计:

核心理念:统一接口,逐模型评测,自动生成报告。

整体流程如下:

config.json 定义模型列表
        ↓
  各评测脚本逐模型运行
   (推理 / RAG / Function Calling / 多轮对话 / 延迟)
        ↓
  结果写入 results/*.json
        ↓
  run_all.py 汇总生成 Markdown 报告

所有模型统一走 OpenAI 兼容接口(/v1/chat/completions),不管你用的是 OpenAI 官方、阿里 DashScope、还是第三方代理,只需要在配置文件中指定 base_urlapi_key_env 即可。

本次评测选取了 5 个模型,涵盖国内外三大厂商:

模型 厂商 定位
qwen-turbo-latest 阿里 极致性价比,低延迟
qwen3.5-plus 阿里 中高端,综合能力强
qwen3.5-397b-a17b 阿里 MoE 大模型,397B 参数
gemini-3-flash-preview Google 低延迟,高性价比
gpt-5.3-codex OpenAI 代码专精,最新一代

3.2 评测维度详解

我们从五个维度对模型进行评测,每个维度都对应实际业务中的常见需求。

3.2.1 推理能力
  • 这是什么? 推理能力是大模型最核心的能力之一。简单来说,就是模型能否"一步一步想清楚",而不是直接蒙一个答案。
  • 我们怎么测? 使用业界标准的 lm-evaluation-harness 框架,选取 GSM8K(小学数学应用题)作为推理基准。每个模型跑 50 道题(2-shot,即给两个示例),通过 OpenAI 兼容接口调用。

举个例子,一道典型的 GSM8K 题目是这样的:
小明有 5 个苹果,给了小红 2 个,又买了 3 个。请问小明现在有几个苹果?
模型需要列出计算步骤,最终给出正确答案"6"。

  • 看什么指标? exact_match(精确匹配率)——模型给出的最终数字是否和标准答案完全一致。这个指标非常严格,不接受"差不多对"。
3.2.2 RAG 能力(检索增强生成)
  • 这是什么? RAG(Retrieval-Augmented Generation)是目前企业落地大模型最常见的架构:先从知识库中检索相关文档,再把文档内容拼接到 prompt 里,让模型基于这些"证据"来回答问题。这个场景中我们关心的是:模型能否基于给定的文档准确回答,而不是"瞎编"。
  • 我们怎么测? 整个流程分四步:
  1. 准备一组测试文档和对应的问答对;
  2. 使用 Embedding 模型将文档向量化,存入 FAISS 索引;
  3. 对每个问题检索 Top-K 最相关的文档片段,拼接到 prompt 中让模型回答;
  4. 使用 ragas 框架(一个专业的 RAG 评测工具)自动计算指标。
  • 看什么指标? ragas 框架提供三个核心指标:
  • answer_relevancy(答案相关性):回答是否切题,不答非所问。
  • faithfulness(忠实度):回答是否基于检索到的文档内容,而非模型自己"编造"的知识。这个指标在企业场景中尤其重要——你不希望客服机器人"自由发挥"。
  • context_precision(上下文精度):检索到的文档片段里,有多少是真正有用的。
3.2.3 Function Calling(工具调用)
  • 这是什么? 现在的大模型不仅能聊天,还能"调用工具"——比如查天气、发邮件、执行计算。Function Calling 能力决定了模型能否在 Agent 场景中正确工作。

  • 我们怎么测? 设计了 10 个测试场景:

  • 6 个需要调用工具的场景(如"今天北京天气怎么样?"应该调用 get_weather)

  • 4 个不需要调用工具的场景(如"请做一下自我介绍"不应该调用任何工具)

  • 模型需要做到三件事:选对工具、提取对参数、在不需要工具时正确拒绝。

  • 看什么指标?

  • 工具选择准确率:是否选对了该调用的工具

  • 参数准确率:传给工具的参数是否正确

  • 无需调用准确率:在不需要工具时,是否正确地没有调用

3.2.4 多轮对话
  • 这是什么? 实际使用中,我们很少只和模型说一句话。多轮对话能力决定了模型在持续交互中能否"记住"之前说了什么、保持一致的行为、正确理解指代关系。

  • 我们怎么测? 设计了 8 个多轮对话场景,覆盖三个维度:

  • 上下文记忆:在第一轮告诉模型"我叫张伟,是一名软件工程师",几轮对话后问"我叫什么名字?"——看模型是否还记得。

  • 指令一致性:告诉模型"从现在开始只用英文回答",然后故意用中文提问——看模型是否坚持用英文回复,不会被"带偏"。

  • 指代消解:先聊"Python 是一种编程语言",然后问"它是谁发明的?"——看模型是否理解"它"指的是 Python。

  • 看什么指标? 通过关键词命中和禁词检查自动判定每个场景是否通过,最终计算各维度的通过率。

3.2.5 延迟与吞吐量
  • 这是什么? 能力再强,如果回复要等半分钟,用户体验也会很差。延迟和吞吐量直接决定了模型在生产环境中的可用性。

  • 我们怎么测? 分三组测试:

  • 短 prompt(约 50 字)、中 prompt(约 200 字)、长 prompt(约 500 字),每组各测 3 次取平均。

  • 额外做一组 3 并发压测,模拟真实使用场景。

  • 看什么指标?

  • 平均延迟(秒):从发出请求到收到完整回复的时间

  • 平均吞吐(tok/s):每秒生成的 token 数,越高越好

  • 并发延迟:同时发多个请求时的平均响应时间

3.3 评测结果与分析

以下是我们使用上述五个模型、五个维度实测的结果。

推理能力(GSM8K exact_match)
模型 得分
qwen-turbo-latest 0.960
qwen3.5-plus 0.980
qwen3.5-397b-a17b 0.980
gpt-5.3-codex 0.920
gemini-3-flash-preview 0.020

💡 分析: Qwen 全系列表现非常稳定,qwen3.5 系列达到了 0.98 的高水平。GPT-5.3-Codex 虽然主打代码,但在数学推理上也有 0.92 的不错成绩。Gemini Flash 在该基准上得分偏低,可能与代理接口的兼容性有关,不一定反映模型真实能力。

RAG 能力(ragas 指标)
模型 答案相关性 忠实度 上下文精度
qwen-turbo-latest 0.844 1.000 1.000
qwen3.5-plus 0.967 1.000 1.000
qwen3.5-397b-a17b 0.967 0.917 1.000
gpt-5.3-codex 0.939 1.000 1.000
gemini-3-flash-preview 0.617 0.649 0.917

💡 分析: RAG 场景下,Qwen3.5 系列和 GPT-5.3-Codex 的忠实度几乎满分,说明它们很"老实",严格基于给定文档回答,不会胡编乱造。Gemini Flash 的忠实度偏低(0.649),在对准确性要求高的场景中需要特别注意。

Function Calling(工具调用)
模型 工具选择 参数准确率 无需调用
qwen-turbo-latest 100.0% 83.3% 100.0%
qwen3.5-plus 100.0% 66.7% 100.0%
qwen3.5-397b-a17b 100.0% 66.7% 100.0%
gpt-5.3-codex 83.3% 80.0% 100.0%
gemini-3-flash-preview 0.0% 0.0% 100.0%

💡 分析: Qwen 全系列在工具选择上达到了 100% 的准确率,表现最为稳定。有趣的是,qwen-turbo 这个最"便宜"的模型,参数准确率反而是 Qwen 系列中最高的(83.3%)。所有模型在"不需要调用工具"的场景中都做出了正确判断。

多轮对话
模型 总体 上下文记忆 指代消解 指令一致性
qwen-turbo-latest 100.0% 100.0% 100.0% 100.0%
qwen3.5-plus 100.0% 100.0% 100.0% 100.0%
qwen3.5-397b-a17b 87.5% 66.7% 100.0% 100.0%
gpt-5.3-codex 100.0% 100.0% 100.0% 100.0%
gemini-3-flash-preview 100.0% 100.0% 100.0% 100.0%

💡 分析: 大部分模型全部通过。值得注意的是,参数量最大的 qwen3.5-397b-a17b 在上下文记忆方面反而有所遗漏(66.7%),说明"参数大不一定什么都强",MoE 架构在多轮记忆上可能有其特殊性。

延迟与吞吐量
模型 平均延迟 吞吐(tok/s) 短prompt 长prompt 并发延迟
qwen-turbo-latest 1.55s 73.8 0.50s 2.43s 1.42s
gemini-3-flash-preview 2.79s 79.4 2.43s 2.95s 2.33s
gpt-5.3-codex 18.62s 35.2 1.93s 48.37s 7.44s
qwen3.5-397b-a17b 27.83s 79.4 6.55s 24.01s 121.27s

💡 分析: 速度方面差异巨大。qwen-turbo 以 1.55 秒的平均延迟遥遥领先,短 prompt 甚至只需 0.5 秒,非常适合对响应速度要求高的场景。Gemini Flash 虽然名字里有"Flash",延迟也确实控制在 3 秒以内。大参数模型(397B、Codex)延迟明显更高,尤其在长 prompt 和并发场景下。

费用对比
模型 一轮评测费用
qwen-turbo-latest $0.24
qwen3.5-plus $0.71
gemini-3-flash-preview $0.85
qwen3.5-397b-a17b $2.14
gpt-5.3-codex $3.65

跑完五个维度的完整评测,最便宜的 qwen-turbo 只需 $0.24(约 1.7 元人民币),即使是最贵的 gpt-5.3-codex 也只要 $3.65(约 26 元)。对个人开发者来说,这个成本完全可以接受。

3.4 总结:没有"万能模型",只有"合适的选择"

通过实测数据可以很清晰地看到——没有哪个模型在所有维度上都"碾压"其他选手。每个模型都有自己的强项和短板:

  • 要速度和性价比qwen-turbo-latest(延迟最低、费用最低、推理和 Function Calling 表现优秀)
  • 要综合能力最强qwen3.5-plus(推理满分级别、RAG 忠实度满分、多轮对话全通过)
  • 要代码能力gpt-5.3-codex(代码场景专精,RAG 忠实度也很高)
  • 要低延迟 + 国际化gemini-3-flash-preview(延迟低、吞吐量高)

所以下次再看到"天又塌了"的标题,不用焦虑——打开你的评测系统,跑一遍数据,答案自然就有了。



本文所有评测数据基于 2026 年 2 月底实测,不同网络环境和 API 版本下结果可能略有差异。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐