2026年,LLM生成内容泛滥,传统评估基准失效。HELM通过多维度指标揭示模型权衡取舍;Chatbot Arena采用众包人类判断评估实际应用效果;LLM裁判虽能近似人类评估,但存在位置、冗长等系统性偏差。当前评估仍需结合离线基准和人类判断,全自动评估尚待解决偏见问题。


语言模型的进步速度超过了我们能够可靠衡量它们的速度——而这正在成为一个问题。

塞缪尔·弗伦德

2026年3月16日

现在是 2026 年,LLM 生成的内容无处不在,从使用 ChatGPT 进行头脑风暴,到使用 Gemini 进行网络搜索,再到使用 Notion AI 进行个人笔记编辑,以及使用 Claude 进行代码生成。

问题不再是“我们如何构建能够生成令人信服文本的语言学习模型?”,而是如何以一种真正合理的方式评估它们。当领域像聊天机器人一样开放时,传统的基准测试工具,例如 GLUE、SuperGLUE、MMLU、BigBench、SQuAD、Natural Questions、HellaSwag 及其变体,就显得力不从心了。

这就引出了一个基础性的研究问题:

我们如何评估旨在回答几乎所有问题的系统?

本周,我们将探讨塑造现代大型语言模型(LLM)评估格局中的三项关键工作:

  • **HELM——**引入了整体LLM评估的概念,揭示了使用传统基准时仍然隐藏的权衡取舍。
  • **Chatbot Arena——**它证明了众包的人类判断可以评估“实际应用中的LLM”。
  • LLM 作为评判者——这表明 LLM 本身可以近似于人类的评估,尽管存在一些重要的注意事项。

我们来看一下。

HELM(斯坦福大学,2023)

HELM 的作者使用 7 个基本标准(准确性、校准性、稳健性、公平性、偏差、毒性和效率)在 16 个场景中测试了 30 个模型——这是有史以来最全面的离线 LLM 评估工作之一。

HELM (*语言模型整体评估)*的作者认为,以往的语言模型基准测试工作过于狭隘地关注单一指标,而这些指标很容易优化,有时甚至只需记住特定的基准数据集即可。他们声称,要真正理解语言模型的行为,评估必须涵盖多个任务中的多个指标,从而揭示的不仅仅是单一的性能指标,而是一系列更广泛的权衡取舍。

具体而言,作者引入了 16 个 LLM“场景”,这些场景由成熟的基准数据集(例如 Natural Questions、MS MARCO、IMDb 等)代表。在这些场景中,他们测量了 7 项评估指标:

  • 准确率——模型预测正确标签的程度
  • 校准——模型估计自身答案不确定性的准确程度
  • 稳健性——模型输出在诸如改写文字或拼写错误等微小输入扰动下的稳定性。
  • 公平性偏见和**毒性——**使用针对每个维度专门设计的分类器进行衡量
  • 效率——模型的延迟和吞吐量特性

这七项要求使得我们能够对模型行为进行更深入的分析,而不仅仅局限于原始准确率。一个模型可能在达到很高准确率的同时,仍然会产生有害或不公平的输出——这种权衡取舍在某些应用场景下可能是不可接受的。

借助 HELM 框架,作者对 30 个语言模型进行了基准测试,其中包括当时最先进的 Anthropic(Anthropic-LM)、Google(UL2)、OpenAI(davinci)等公司的系统。所有模型均在相同的 16 个场景下使用相同的 7 个指标进行评估,总共产生了 1700 万次查询、120 亿个词元,商业模型的 API 费用为 3.8 万美元,而开源模型在本地运行则耗费了约 2 万个 GPU 小时——这是一项全面但成本高昂的实验。

这项努力没有白费。最终的论文长达165页,报告了25项重要发现,其中包括:

  • **指令微调具有诸多优势。**基准测试中仅有的两个经过指令微调的模型,在准确率、鲁棒性和公平性方面均位列前三,其中 OpenAI 的达芬奇模型在这三项指标上均排名第一。
  • **准确性、稳健性和公平性是相关的。**准确性更高的模型往往也更稳健、更公平。
  • **准确度和校准度在很大程度上不相关。**能够预测正确答案的模型并不一定擅长估计自身的不确定性。
  • **准确率并不能预测偏差或毒性。**一个模型可能非常准确,但仍然会产生有偏差或有害的输出结果。

或许最重要的是,HELM 研究表明,在所有七项指标中并不存在单一的“最佳”模型。不同的模型针对不同的特性进行优化。例如,OpenAI 的达芬奇模型在准确率、公平性和鲁棒性方面领先,但在毒性方面却并非最佳。该研究中毒性最小的模型是由 Hugging Face 牵头的 BigScience 合作项目发布的 T0pp。

所有这些都指向一个简单的结论:单一指标是不够的。模型质量本质上是多维度的,我们的评估方法应该体现这一点。

聊天机器人竞技场

Chatbot Arena 的胜率(左)和战斗次数(右),涵盖 12 个 LLM。

与 HELM 类似,Chatbot Arena( Chiang等人,2024)的创建者也批评静态的 LLM 基准测试无法反映真实世界的使用情况,而真实世界的使用情况远比固定的评估数据集更加开放和多样化。然而,与 HELM 不同的是,他们的解决方案并非引入额外的指标和数据集,而是直接利用人类的偏好判断。

Chatbot Arena 是一个由(志愿者)众包驱动的实时基准测试平台。其创建者通过简洁的网页用户界面免费提供最新、功能最强大的 LLM(低级逻辑模型)。用户提交问题,查看来自两个不同 SOTA LLM 的两个答案,并使用用户界面底部的四个按钮(“👈 A 更好”、“👉 B 更好”、“🤝 平局”和“👎 都不好”)对哪个答案更优(如果有的话)进行评分。

在底层,这些战斗的结果都符合布拉德利-特里模型,该模型模拟模型 m 战胜模型 m′ 的概率。

(P(m \text{ 击打 } m’) = \frac{1}{1 + e^{\xi_{m’} - \xi_m}} )

其中系数ξm代表模型m的整体强度。根据这些学习到的系数,可以使用标准竞赛排名计算模型m的排名。

(\mathrm{rank}(m) = 1 + \sum_{m’ \in [M]} \mathbf{1}{\xi_{m’} > \xi_m})

它简单地统计了有多少个模型比模型 m 更强。举个具体的例子,假设我们有四个模型,它们的系数分别为:

  • GPT-4:ξ = 2.0,
  • 克劳德:ξ = 1.8,
  • 双子座:ξ = 1.8,
  • 羊驼:ξ = 1.2,

那么我们会将 GPT-4 排在第一位,Claude 和 Gemini 排在第二位,Llama 排在第四位。

一个有趣的技术细节是,模型配对是基于战斗结果的最大不确定性——也就是说,估计获胜概率 P 最接近 0.5 的对决。随着时间的推移,这种自适应采样策略使得强大的模型越来越频繁地与其他强大的模型进行匹配,正如上面的热图所反映的那样(ChatGPT-4-Turbo 对阵 Claude-2.1 的热度最高)。

为了验证大众志愿者的判断,作者进行了一项对照实验,其中两位专家评委——加州大学伯克利分校的研究生——重新评估了 GPT-4 和 Llama-2 之间的 160 场大众对战。他们测得专家和大众志愿者之间的一致率为 73%–78%,这与两位专家自身的一致率(~90%)相当接近,从而支持了基于大众的方法的可靠性。

Chatbot Arena 取得了巨大的成功。上线第一年,它就收集了来自 9 万名用户、涵盖 100 多种语言的 24 万张投票,对 50 多个最先进的语言学习模型 (LLM) 进行了比较。如今,它仍然是最具影响力的 LLM 评估平台之一,新模型往往只有在 Arena 排行榜上表现出色才能获得重视。

LLM评判者

ChatGPT 的评委的任务是决定在这个多轮对话中,哪个 LLM 助手给出了更好的回复。

LLM作为评判者的概念最早由Zheng等人于2023年提出(他们也是Chatbot Arena的作者),这或许是目前LLM评估领域最热门的新方向。利用LLM来评判其他LLM的想法仍在发展中。这种方法可行,但必须经过仔细验证,并且需要考虑一些重要的注意事项和局限性。

更具体地说,当LLM作为偏好判断者时,已经观察到几种系统性偏差:

  • 位置偏差——在并排比较中,LLM 倾向于偏向显示的第一个响应。
  • 冗长偏好——LLM 评委往往更喜欢较长的回答,即使这些回答用处不大。
  • 自我提升偏差——逻辑推理能力强的人往往更偏爱由自己所属的模型家族生成的答案。例如,双子座评委倾向于选择双子座给出的答案。
  • 推理能力有限——逻辑推理模型(LLM)可能会在自己能够解决的问题上做出错误的评估。例如,GPT-4 已被证明会错误判断一些相对简单的数学问题的答案。

有些问题可以通过一些实用技巧来缓解。例如,可以允许以两种顺序呈现答案,只有当LLM的判断在所有排列组合中都保持一致时才接受其结果,以此来消除立场偏见。另一个技巧是让LLM评委先回答问题本身,这有助于减少因推理能力有限而导致的错误。

这些技术提高了可靠性,但LLM评判员仍需通过对照研究进行验证。本文作者使用MT-Bench数据集开展了此类研究。MT-Bench是一个包含80道高质量多轮问答题的数据集,涵盖写作、角色扮演、信息提取、推理、数学、编程、STEM(科学、技术、工程和数学)以及人文社科八个类别。

这些问题由六个 LLM(GPT-4、GPT-3.5、Claude-v1、Vicuna-13B、Alpaca-13B 和 LLaMA-13B)回答,并由 58 位人类专家进行并排偏好比较来评估答案,从而有效地创建了一个规模较小、可控的聊天机器人竞技场版本。

作者随后比较了人类专家与三种不同的LLM评判系统——GPT-4、GPT-3.5和Claude-v1——之间的一致性。他们发现,GPT-4评判系统与人类评估的一致性最高,达到85%,而人类标注者之间的一致性为82%。换句话说,平均而言,人类与GPT-4评判系统的一致性略高于人类彼此之间的一致性,这为LLM作为评判系统能够有效地近似人类的偏好判断提供了强有力的统计证据。

前景

随着LLM 日益融入我们的日常生活,其评估的重要性只会与日俱增。目前看来,让LLM担任评判者似乎是扩大评估规模最有前景的途径,但问题远未解决。我们对LLM评判者可能存在的偏见以及如何可靠地减轻这些偏见仍然知之甚少。郑等人的研究指明了正确的方向,但该领域仍需开展更多研究。

另一个值得注意的风险是“橡皮图章效应”(Dietz等人,2025)。当要求人类验证LLM的响应是否合理时,他们更有可能同意模型的评估——即使该评估明显错误。这种现象类似于心理学中的阿什从众效应。因此,如果设计不当,人类对LLM生成的标签(包括偏好判断)的验证可能会沦为被动的同意。在最糟糕的情况下,这会形成一个反馈循环,即人类验证的输出仍然会趋向于模型自身的偏好。

目前,要准确评估LLM(生命周期管理)仍然需要全面的离线基准测试(例如HELM)或大规模的人类偏好数据(例如Chatbot Arena)。全自动评估最终可能会成为现实,但在2026年,人类判断仍然是整个流程中不可或缺的一部分。

AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!

在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

在这里插入图片描述

人才缺口巨大

人力资源社会保障部有关报告显示,据测算,当前,****我国人工智能人才缺口超过500万,****供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!
图片

就业薪资超高

在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!

脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!

在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!

图片

总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!

但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:

❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;

❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;

❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。

他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐