一、核心能力类通用评测指标(所有领域通用)

这部分是衡量大模型基础能力的通用标尺,任何领域落地都需要优先评估:

表格

指标分类 具体指标 计算方式 适用场景
基础准确率 Accuracy(准确率) 正确回答数 / 总问题数 结构化任务、选择判断题
语言流畅度 Perplexity(困惑度,PPL) 衡量模型预测文本序列的惊讶度,值越低越流畅 所有生成类任务
事实一致性 Factual Consistency 检查生成内容与给定参考材料是否一致 RAG检索增强生成场景
内容可追溯性 Attribution / Groundedness 逐句验证是否对应参考材料中的证据,分为Supported/Contradicted/No Evidence三档 企业知识库问答、文献综述生成

二、关键能力专项评测指标

1. 推理能力指标

推理能力是大模型解决复杂问题的核心,评测重点关注过程而非仅结果:

  • Chain-of-Thought Correctness(思维链正确率)‌:不仅看最终答案,还要验证推理链路每一步是否正确,适用于数学计算、逻辑分析场景。
  • Multi-Step Reasoning Success Rate(多步推理成功率)‌:统计需要多步骤推导任务的完成率,适用于流程规划、工具调用场景。
  • Tool/Function Calling 成功率‌:拆分为三个子维度:函数选择正确率、参数格式正确率、参数语义正确率,是智能体应用的核心评测指标。
2. 可控性指标(企业落地必备)

企业场景要求大模型严格遵循约束,可控性指标直接决定落地可用性:

  • 指令遵循率‌:包含格式正确率(JSON/XML/YAML等结构化输出)、输出约束遵守率(长度、风格、语气)、多约束成功率三个子维度。
  • 稳定度(Determinism)‌:相同Prompt下输出结果的一致性,金融、医疗、法律等高合规领域重点关注。
  • 自洽性(Self-Consistency)‌:相同问题多次提问,输出结果是否不存在逻辑冲突。

三、特定领域专属评测指标

不同垂直领域对大模型有特殊能力要求,需补充领域专属指标:

金融领域
  • 金融合规准确率:输出内容是否符合金融监管要求,是否存在违规推荐、虚假宣传。
  • 研报信息准确度:生成研报解读、投资分析时,关键数据(财报、股价、营收)是否准确无误。
  • 风险识别召回率:识别欺诈话术、违规内容的覆盖比例。
法律领域
  • 法条匹配准确率:对应案件匹配适用法律条文的正确率。
  • 文书格式合规率:法律文书(合同、起诉状)的格式是否符合行业规范。
  • 量刑建议偏差率:给出的量刑建议参考值与真实判例的偏差范围。
医疗领域
  • 诊断符合率:辅助诊断结果与临床确诊结果的一致性。
  • 用药推荐安全率:推荐药物是否存在禁忌症、剂量错误等安全问题。
  • 医学文献依从性:生成内容是否符合最新临床指南与循证医学结论。
代码领域
  • 可运行通过率:生成代码在标准测试用例下的运行通过率(HumanEval/MBPP数据集常用)。
  • 代码注释完整率:生成代码是否包含清晰规范的注释说明。
  • 依赖兼容性:生成代码是否存在依赖冲突、版本不兼容问题。

四、生产落地附加评测指标

完成基础能力和领域能力评测后,还需要评估生产环境的可用性:

  1. 性能指标‌:首屏响应时间(TTFT)、完整输出耗时、单请求Token消耗量,直接影响用户体验和服务成本。
  2. 安全合规指标‌:有害内容拦截率(有毒、暴力、违法内容)、敏感信息泄露率(检测模型是否会输出训练数据中的隐私内容)、数据漂移监测(生产环境输入分布变化后模型性能衰减速度)。
  3. 用户体验指标‌:多轮对话上下文一致性、解决用户问题的最终成功率,可通过A/B测试结合用户反馈收集。

五、可直接落地的评测工具推荐

目前行业最成熟的开源评测平台是‌OpenCompass 2.0‌,支持快速开展特定领域评测:

  • 已内置法律、金融等垂直领域的评测基准,覆盖安全评估+主客观评测全流程。
  • 支持分布式高效评测,兼容HuggingFace开源模型与主流API模型,提供CompassRank中立榜单和CompassKit全栈工具链,可直接基于现有框架扩展你的领域专属评测任务。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐