大模型分类测评指标清单

天学林总

223人浏览 · 2026-06-12 10:47:06

天学林总 · 2026-06-12 10:47:06 发布

一、核心能力类通用评测指标（所有领域通用）

这部分是衡量大模型基础能力的通用标尺，任何领域落地都需要优先评估：

表格

指标分类	具体指标	计算方式	适用场景
‌基础准确率‌	Accuracy（准确率）	正确回答数 / 总问题数	结构化任务、选择判断题
‌语言流畅度‌	Perplexity（困惑度，PPL）	衡量模型预测文本序列的惊讶度，值越低越流畅	所有生成类任务
‌事实一致性‌	Factual Consistency	检查生成内容与给定参考材料是否一致	RAG检索增强生成场景
‌内容可追溯性‌	Attribution / Groundedness	逐句验证是否对应参考材料中的证据，分为Supported/Contradicted/No Evidence三档	企业知识库问答、文献综述生成

二、关键能力专项评测指标

1. 推理能力指标

推理能力是大模型解决复杂问题的核心，评测重点关注过程而非仅结果：

‌Chain-of-Thought Correctness（思维链正确率）‌：不仅看最终答案，还要验证推理链路每一步是否正确，适用于数学计算、逻辑分析场景。
‌Multi-Step Reasoning Success Rate（多步推理成功率）‌：统计需要多步骤推导任务的完成率，适用于流程规划、工具调用场景。
‌Tool/Function Calling 成功率‌：拆分为三个子维度：函数选择正确率、参数格式正确率、参数语义正确率，是智能体应用的核心评测指标。

2. 可控性指标（企业落地必备）

企业场景要求大模型严格遵循约束，可控性指标直接决定落地可用性：

‌指令遵循率‌：包含格式正确率（JSON/XML/YAML等结构化输出）、输出约束遵守率（长度、风格、语气）、多约束成功率三个子维度。
‌稳定度（Determinism）‌：相同Prompt下输出结果的一致性，金融、医疗、法律等高合规领域重点关注。
‌自洽性（Self-Consistency）‌：相同问题多次提问，输出结果是否不存在逻辑冲突。

三、特定领域专属评测指标

不同垂直领域对大模型有特殊能力要求，需补充领域专属指标：

金融领域

金融合规准确率：输出内容是否符合金融监管要求，是否存在违规推荐、虚假宣传。
研报信息准确度：生成研报解读、投资分析时，关键数据（财报、股价、营收）是否准确无误。
风险识别召回率：识别欺诈话术、违规内容的覆盖比例。

法律领域

法条匹配准确率：对应案件匹配适用法律条文的正确率。
文书格式合规率：法律文书（合同、起诉状）的格式是否符合行业规范。
量刑建议偏差率：给出的量刑建议参考值与真实判例的偏差范围。

医疗领域

诊断符合率：辅助诊断结果与临床确诊结果的一致性。
用药推荐安全率：推荐药物是否存在禁忌症、剂量错误等安全问题。
医学文献依从性：生成内容是否符合最新临床指南与循证医学结论。

代码领域

可运行通过率：生成代码在标准测试用例下的运行通过率（HumanEval/MBPP数据集常用）。
代码注释完整率：生成代码是否包含清晰规范的注释说明。
依赖兼容性：生成代码是否存在依赖冲突、版本不兼容问题。

四、生产落地附加评测指标

完成基础能力和领域能力评测后，还需要评估生产环境的可用性：

‌性能指标‌：首屏响应时间（TTFT）、完整输出耗时、单请求Token消耗量，直接影响用户体验和服务成本。
‌安全合规指标‌：有害内容拦截率（有毒、暴力、违法内容）、敏感信息泄露率（检测模型是否会输出训练数据中的隐私内容）、数据漂移监测（生产环境输入分布变化后模型性能衰减速度）。
‌用户体验指标‌：多轮对话上下文一致性、解决用户问题的最终成功率，可通过A/B测试结合用户反馈收集。

五、可直接落地的评测工具推荐

目前行业最成熟的开源评测平台是‌OpenCompass 2.0‌，支持快速开展特定领域评测：

已内置法律、金融等垂直领域的评测基准，覆盖安全评估+主客观评测全流程。
支持分布式高效评测，兼容HuggingFace开源模型与主流API模型，提供CompassRank中立榜单和CompassKit全栈工具链，可直接基于现有框架扩展你的领域专属评测任务。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

KV Cache 到底是什么？一文讲透大模型推理加速原理

AtomGit开源社区

Faust：把 Kafka Streams 搬到 Python 里

Faust 是 Robinhood 开源的 Python 流处理库（6.8k Star），将 Kafka Streams 功能引入 Python 生态。它无需 DSL，基于 async/await 语法，支持静态类型检查，通过装饰器定义流处理逻辑。Faust 提供分布式 K/V 存储和状态管理，支持窗口聚合与故障恢复，单核每秒可处理数万事件，天然支持水平扩展。与主流 Python 库（如 NumP