【AI基础篇08】大模型评估指标:困惑度、BLEU、ROUGE

前言:怎么判断一个大模型"好不好"?有人说"能写诗就是好",有人说"数学题全对才是真本事"。但做AI开发不能靠感觉——你需要量化的指标。本文从最基础的困惑度、BLEU、ROUGE讲到2026年主流的MMLU、HumanEval、Chatbot Arena,一次搞懂大模型评测体系的方方面面。


📋 目录


一、评测的三重维度

1.1 大模型评测为什么难?

传统软件评测 vs 大模型评测:

传统软件:
  输入相同的值 → 输出相同的值 ✅
  测试用例 = 输入输出对
  结果:对就是对,错就是错

大模型:
  输入"写一首关于月亮的诗" →
  输出可能有很多种,都是"对的"
  怎么量化"这首诗写得好不好"?

三个核心挑战:
1️⃣ 开放性:任务没有唯一正确答案
2️⃣ 主观性:好坏的判断因人而异
3️⃣ 多维性:一个模型在编程上强,在写作上弱

1.2 评测的三种方法论

┌──────────────────────────────────────────────────────┐
│                  大模型评测体系                        │
├───────────────────────────────────────────────────────┤
│                                                       │
│  1️⃣ 指标评测(Metric-based)                          │
│     自动计算数值指标,可复现、可对比                   │
│     代表:Perplexity、BLEU、ROUGE                     │
│     特点:快、客观、但不反映真实体验                  │
│                                                       │
│  2️⃣ 基准测试(Benchmark-based)                       │
│     标准化测试集,覆盖特定能力维度                     │
│     代表:MMLU、HumanEval、GSM8K                      │
│     特点:标准化、可复现、但怕"刷榜"                 │
│                                                       │
│  3️⃣ 人类评估(Human Evaluation)                      │
│     真人盲测打分,最贴近真实使用                       │
│     代表:Chatbot Arena、MT-Bench                      │
│     特点:真实、可信、但成本高、不稳定                 │
│                                                       │
└───────────────────────────────────────────────────────┘

最佳实践:三种方法结合使用
  指标评测 → 快速筛选(适合开发过程中)
  基准测试 → 横向对比(适合模型发布时)
  人类评估 → 最终判断(适合上线使用前)

二、困惑度(Perplexity):最基础的内部指标

2.1 什么是困惑度

困惑度(Perplexity,PPL)是语言模型最基础的自评估指标,衡量模型对下一个token的"不确定程度"。

直觉理解:

一个"困惑"的模型:
  "我今天去___" → 模型:可能是"上学"(30%)、"上班"(30%)、"医院"(20%)、"玩"(20%)
  模型很困惑,不知道哪个更合理
  困惑度 = 高

一个"自信"的模型:
  "我今天去___" → 模型:应该是"上班"(85%)、"上学"(10%)、"医院"(3%)、"玩"(2%)  
  模型很清楚,上班是最合理的
  困惑度 = 低

2.2 数学公式

Perplexity = exp(-1/N × Σ log P(w_i | w_{<i}))

其中:
  N: 序列长度(token数)
  P(w_i | w_{<i}): 模型预测第i个token的概率
  exp: 指数函数

简化理解:
  模型预测的"平均概率"越高 → 困惑度越低
  完美模型:PPL = 1(每个token都100%猜对)
  随机猜测:PPL = 词汇表大小(比如50000)
  好模型:PPL = 10-30(根据任务不同)

2.3 不同模型的困惑度对比

┌─────────────┬──────────────┬────────────────────────┐
│ 模型        │ 测试集PPL    │ 备注                    │
├─────────────┼──────────────┼────────────────────────┤
│ GPT-2 (2019)│ 约35         │ 当时SOTA               │
│ GPT-3 (2020)│ 约20         │ 千亿参数的威力          │
│ LLaMA-7B    │ 约12         │ 小模型,大潜力          │
│ LLaMA-65B   │ 约7.5        │ 开源标杆               │
│ DeepSeek-V3 │ <5           │ 671B MoE架构           │
│ GPT-4       │ 约4-5        │ 非公开,行业估算        │
└─────────────┴──────────────┴────────────────────────┘

2.4 困惑度的局限性

❌ 不能反映"任务表现"
  一个模型的PPL很低,但在问答任务上可能表现很差
  PPL只衡量"预测下一个词"的能力,不是"有用性"

❌ 受词汇表影响大
  不同模型词汇表不同,PPL不能跨模型直接对比
  中文的PPL天然比英文高(因为token效率低)

❌ 容易被"记忆"欺骗
  如果模型"记住"了测试数据(数据污染)
  PPL会异常低,但实际泛化能力并不好

✅ 什么时候用PPL?
  训练过程中的快速验证
  同一模型不同checkpoint的对比
  判断模型是否收敛、过拟合

💡 面试加分点:面试中如果被问到"PPL越低越好吗",回答应该是"在同等条件下越低越好,但不能跨模型、跨语言、跨数据集直接对比"。PPL是开发过程中的调试工具,不是产品上线时的评估工具。


三、BLEU:机器翻译的标准

3.1 核心思想

BLEU(Bilingual Evaluation Understudy)是机器翻译领域最经典的评估指标,核心思想是:看模型生成的翻译和人工参考翻译有多"像"

BLEU = "模型输出" vs "人工参考翻译"的n-gram重合度

直观理解:
  参考翻译:"The cat sits on the mat"
  模型输出:"The cat is on the mat"

  共有的词:"The", "cat", "on", "the", "mat" → 5个
  BLEU不只看单个词,还看连续2个词、3个词的匹配度

3.2 计算公式

BLEU = BP × exp(1/4 × Σ log(P_n))

其中:
  P_n = 匹配的n-gram数 / 总n-gram数  (n从1到4)
  BP = 长度惩罚因子(防止生成太短的句子)

BP(Brevity Penalty,简短惩罚):
  如果模型输出比参考翻译短 → 扣分
  BP = min(1, exp(1 - ref_len / output_len))

例子:
  参考翻译:The cat sits on the mat (6个词)
  模型输出1:The cat on mat (4个词) → BP < 1 → 惩罚
  模型输出2:The cat sits on the mat quickly (7个词) → BP = 1 → 不惩罚

3.3 BLEU的优缺点

✅ 优点:
  自动计算,成本低
  与人类判断有中等相关性(约0.6-0.7)
  标准化,跨论文可对比
  快速迭代优化

❌ 缺点:
  只关注"词面匹配",不关注"语义"
  "The cat is on the mat" vs "The feline is positioned on the rug"
  BLEU很低,但意思完全一样!→ 语义理解失败

  不同语言的BLEU不可比
  英文BLEU 30 ≈ 中文BLEU 20(中文更难匹配)

  对词汇丰富度惩罚
  用"好"可以,用"优秀/出众/卓越" → 匹配率下降

2026年现状:BLEU在机器翻译评测中仍在使用
  但不再作为唯一指标
  更多使用COMET等基于神经网络的语义评估

四、ROUGE:文本摘要的基准

4.1 核心思想

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是文本摘要任务的标准指标,和BLEU互补——BLEU看"模型输出包含了多少参考信息"(精确率导向),ROUGE看"参考信息中有多少被模型覆盖了"(召回率导向)

BLEU vs ROUGE 的本质差异:

BLEU(精确率导向):
  模型输出:"我喜欢猫和狗"
  问:模型输出中有多少是和参考匹配的?
  → 关注"模型说的话是否准确"

ROUGE(召回率导向):
  参考摘要:"我喜欢猫、狗和鱼"
  问:参考摘要中有多少被模型覆盖了?
  → 关注"重要信息是否都被模型说到了"

4.2 主要变体

ROUGE主要有三种形式,适用于不同场景:

ROUGE-N(n-gram匹配)
  ROUGE-1:单个词匹配
  ROUGE-2:连续2个词匹配
  ROUGE-3:连续3个词匹配
  
  例:参考="我喜欢猫", 输出="我爱猫"
  ROUGE-1: "我"+"猫" → 2/4 = 0.5
  ROUGE-2: "我喜欢"+"喜欢猫" vs "我爱"+"爱猫" → 0/2 = 0.0

ROUGE-L(最长公共子序列)
  不要求连续,只要求顺序一致
  参考:"我今天很开心"
  输出:"我开心"
  最长公共子序列:"我"+"开心" → LCS长度=3

ROUGE-S(跳词二元组)
  允许跳词匹配
  参考:"AB CD EF"
  输出:"AB EF"
  "AB"匹配,"EF"匹配 → 可以!

适用场景:
  ROUGE-1:关键词覆盖(适合关键词提取)
  ROUGE-2:流畅度评估(适合句子生成)
  ROUGE-L:内容完整性(适合长文本摘要)

4.3 BLEU和ROUGE的综合对比

                  BLEU                  ROUGE
  起源领域      机器翻译              文本摘要
  侧重点        精确率(输出质量)     召回率(信息覆盖)
  n-gram        up to 4-gram         1-gram为主
  长度惩罚      有(防过短)          无
  与人类判断    中等相关             中等相关
  2026年地位    仍在使用,但不唯一    仍在使用,但不唯一

两者共同局限:
  ❌ 依赖参考译文(标注成本高)
  ❌ 不关注语义(词汇不匹配就扣分)
  ❌ 无法评估创造性、流畅度
  
2026年趋势:基于AI的自动评估正在兴起
  COMET(机器翻译):用神经网络评分
  G-Eval(通用):用LLM给LLM的输出打分
  Self-Check(事实一致性):检查模型是否"胡编"

五、MMLU:知识广度测试

5.1 什么是MMLU

MMLU(Massive Multitask Language Understanding)是2021年提出的综合知识评测基准,目前仍是最广泛使用的客观评测之一。它测试模型在57个学科领域中的知识广度。

MMLU的学科分布:

人文社科(18个学科):
  法学、哲学、历史、地理、政治...
  
科学(21个学科):
  物理、化学、生物、计算机科学...
  
专业领域(18个学科):
  医学、心理学、会计、工程...
  
难度分布:
  高中水平:约30%
  大学水平:约50%
  专业水平:约20%

5.2 评测方式

MMLU使用4选1的选择题:

示例:
  Question: What is the capital of France?
  A. London
  B. Paris ✅
  C. Berlin
  D. Madrid

评测指标:准确率(Accuracy)
  模型答对题目数 / 总题数
  随机猜测基线:25%(4选1)

关键细节:
  模型输出的第一个token必须是A/B/C/D
  不能输出"根据我的知识..." → 直接判错
  考验模型的"精准回答"能力

5.3 各模型MMLU得分(2026年5月)

┌──────────────────┬───────┬─────────────────────────┐
│ 模型             │ MMLU  │ 备注                    │
├──────────────────┼───────┼─────────────────────────┤
│ 随机猜测         │ 25%   │ 基线                    │
│ BERT-large       │ 40.9% │ 2020年                  │
│ GPT-3            │ 43.9% │ 175B参数                │
│ LLaMA-65B        │ 63.4% │ 开源里程碑              │
│ GPT-4            │ 86.4% │ 2023年                │
│ Claude 3 Opus    │ 86.8% │ 2024年                │
│ Gemini 1.5 Pro   │ ~87%  │ 2024年                │
│ DeepSeek-V3      │ ~89%  │ 671B MoE, 2024         │
│ Qwen3-Max        │ ~90%  │ 阿里旗舰, 2025       │
│ Claude Opus 4.6  │ ~92%  │ 2026年                │
│ GPT-5.2          │ ~93%  │ 2026年                │
│ Claude Opus 4.7  │ ~94%  │ 2026年5月最新          │
└──────────────────┴───────┴─────────────────────────┘

关键洞察:
  从GPT-3的43.9%到2026年的94%
  5年内知识广度翻了一倍多
  接近人类专家水平

5.3 MMLU的问题

1️⃣ 数据污染
  模型训练数据中可能包含MMLU的题目
  如果模型"记住"了答案,得分就虚高
  → 需要定期更新题库

2️⃣ 天花板效应
  94%意味着接近天花板了
  剩下的6%可能是"印刷错误"或"有争议"
  → MMLU对顶级模型已经"不够难"

3️⃣ 选择题≠真实能力
  MMLU考的是"识别正确答案"
  不是"生成正确答案"
  真实场景中后者更重要

2026年演进:
  MMLU-Pro(更难的版本,减少数据污染)
  增加推理题比例
  MMLU-Redux(新维护的清洗版本)

六、HumanEval与代码评测

6.1 什么是HumanEval

HumanEval是OpenAI发布的代码生成评测基准,包含164道Python函数级编程题,测试模型"从文档字符串生成正确代码"的能力。

HumanEval示例:

​```python
def is_palindrome(s: str) -> bool:
    """判断字符串是否是回文
    
    >>> is_palindrome("racecar")
    True
    >>> is_palindrome("hello")
    False
    >>> is_palindrome("")
    True
    """
    # 模型需要补全函数体

评测方式:

  1. 给模型函数签名+文档字符串
  2. 模型生成函数体
  3. 运行单元测试
  4. 通过=正确,不通过=错误
    → 100%客观,没有"部分正确"
### 6.2 代码评测指标

pass@1(最常用):
模型生成1次代码,通过测试的概率
最严格的指标

pass@10:
模型生成10次代码,只要有一次通过就算成功
更接近"开发者实际使用"的场景

pass@k的计算方式:
pass@k = 1 - (C(n-k, m) / C(n, k))
其中:n=总生成次数,m=通过的次数

实际值(2026年5月数据):
┌──────────────────┬────────┬────────┐
│ 模型 │ pass@1 │ pass@10│
├──────────────────┼────────┼────────┤
│ GPT-3 (2020) │ 28% │ 56% │
│ Codex (2021) │ 37% │ 77% │
│ StarCoder (2023) │ 34% │ 71% │
│ GPT-4 (2023) │ 67% │ 87% │
│ Claude Opus 3 │ 75% │ 92% │
│ DeepSeek-V3 │ 82% │ 95% │
│ Claude Opus 4.6 │ ~90% │ ~98% │
│ GPT-5.3 Codex │ ~92% │ ~99% │
│ Claude Opus 4.7 │ ~93% │ ~99% │
└──────────────────┴────────┴────────┘

趋势:
人力程序员平均pass@1 ≈ 85-95%
2026年的顶级模型已经接近或达到人类水平

### 6.3 SWE-bench:更真实的编程评测

SWE-bench(2024年提出)比HumanEval更难、更真实:

HumanEval:补全单个函数(164道题)
→ 类似于"写一个二分查找"
→ 单个函数,不涉及项目上下文

SWE-bench:解决真实的GitHub Issue(2294个)
→ 模型的输入是一个完整的GitHub Issue描述
→ 需要理解整个代码库
→ 需要修改多个文件
→ 用真实测试用例验证修复是否正确

SWE-bench得分(2026年):
┌──────────────────┬──────────┐
│ 模型 │ 解决率 │
├──────────────────┼──────────┤
│ GPT-4 (2023) │ 1.7% │
│ Claude Opus 3 │ 9.0% │
│ Devin (2024) │ 13.8% │
│ Claude 3.5 Sonnet│ 16.0% │
│ Claude Opus 4.6 │ 72.5% │
│ Claude Opus 4.7 │ 80.9% │
│ GPT-5.3 Codex │ ~75% │
└──────────────────┴──────────┘

关键洞察:
从GPT-4的1.7%到Claude Opus 4.7的80.9%
3年内提升了47倍!
代码AI已经从"玩具"变成了"生产力工具"

---

## 七、GSM8K与数学推理

### 7.1 GSM8K:小学应用题

GSM8K包含**8500道小学水平数学应用题**,对大模型来说,这比看起来难得多——因为它测试的是"多步推理能力"。

GSM8K示例:

题目:
“Beth有16块饼干。她吃了3块。
她妈妈又给了她一盒饼干,现在她有29块饼干。
一盒饼干中有多少块?”

正确推理步骤:

  1. Beth吃完3块后还有:16 - 3 = 13块
  2. 加上一盒饼干后:13 + X = 29
  3. X = 29 - 13 = 16
    答案:一盒中有16块

模型的错误模式:
❌ 直接猜一个数
❌ 只做了一步就出答案
❌ 全部运算正确但写错了最终答案

GSM8K得分趋势:
2021年(GPT-3):18%
2022年(PaLM):58%
2023年(GPT-4):87%
2024年(DeepSeek-V3):~90%
2026年(Claude Opus 4.6):~97%
2026年(Claude Opus 4.7 Thinking):~98%

6年内从18%到98% → 数学推理能力的飞跃

### 7.2 MATH:高难度数学竞赛

MATH(Mathematics Aptitude Test of Heuristics)包含**5000道高中至竞赛级数学题**,难度远高于GSM8K。

MATH的难度分级:
等级1:基础(约20%)— 如解一元方程
等级2-3:中等(约50%)— 如几何证明
等级4-5:高难度(约30%)— 如AMC/AIME竞赛题

MATH得分趋势(体现了推理能力的最剧烈进步):
2021年(GPT-3):5.2%
2022年(Minerva):52.7%
2023年(GPT-4):52.9%
2024年(DeepSeek-R1):~75%
2025年(o3):~87%
2026年(Claude Opus 4.6 Thinking):~90%+

从5%到90%:5年内提升了18倍!
这是大模型推理能力提升最直观的证据

### 7.3 Chain-of-Thought:让模型"说人话"

为什么思维链(CoT)对数学推理这么重要?

没有CoT(直接输出答案):
输入:16块饼干,吃了3块,妈妈给了一盒,现在29块…
输出:16

有CoT(一步步推理):
输入:16块饼干,吃了3块,妈妈给了一盒,现在29块…
输出:
“第一步:Beth吃完3块后 = 16 - 3 = 13
第二步:设一盒有X块 = 13 + X = 29
第三步:X = 29 - 13 = 16
答案:16”

为什么CoT有效?
人类解决复杂问题时也需要"纸笔计算"
中间步骤给了模型"推理的锚点"
即使最后计算错了,也可以看到哪里出错

2026年CoT已经成为标准:
所有旗舰模型默认内置思维链推理
Claude Opus的"Thinking模式"
OpenAI的o系列推理模型
DeepSeek-R1的推理模式

---

## 八、人类偏好评估:Chatbot Arena

### 8.1 什么是Chatbot Arena

以上所有指标和基准都有一个核心问题:**选择题和代码题不代表真实使用体验**。为此,LMSYS(UC Berkeley)在2023年推出了Chatbot Arena——现在已更名为Arena AI,并在2026年1月完成**1.5亿美元融资**,估值17亿美元。

Arena AI的评测方式:

Step 1:用户输入一个问题
Step 2:两个模型(匿名)分别回答
Step 3:用户盲测投票,选择"谁更好"
Step 4:基于Elo积分系统更新排名

为什么这种方式更可信?
✅ 真实用户 + 真实问题
✅ 双盲 → 消除偏见
✅ 持续更新 → 不被刷榜
✅ 反映"真实体感"

2026年规模:
超过200个模型参与排名
数百万次人类投票
最权威的"真人偏好"榜单

### 8.2 2026年5月Arena AI排名

┌──────────────────────────────────────────────┐
│ Arena AI 综合排名(截至2026年5月) │
├──────────────────┬───────┬───────────────────┤
│ 排名 │ 模型 │ Elo分 │ 备注 │
├──────┼───────────┼───────┼───────────────────┤
│ 1 │ Claude │ 1392 │ 思维链模式最强 │
│ │ Opus 4.7 │ │ │
│ │ Thinking │ │ │
│ 2 │ Claude │ 1385 │ 综合能力均衡 │
│ │ Opus 4.6 │ │ │
│ │ Thinking │ │ │
│ 3 │ Claude │ 1378 │ 标准推理模式 │
│ │ Opus 4.6 │ │ │
│ 4 │ Gemini │ 1355 │ Google最新旗舰 │
│ │ 3.1 Pro │ │ │
│ 5 │ GPT-5.2 │ 1348 │ OpenAI对话模型 │
│ 6 │ Gemini │ 1340 │ 速度与质量平衡 │
│ │ 3.1 Flash │ │ │
│ 7 │ DeepSeek │ 1320 │ 开源性价比之王 │
│ │ V4-Pro │ │ │
│ 8 │ Qwen3- │ 1295 │ 中文场景极强 │
│ │ Max │ │ │
└──────┴───────────┴───────┴───────────────────┘

关键洞察:
前10名Elo分差不超过50分
顶级模型之间的实际差距正在收窄
场景匹配度比"哪个模型更强"更重要

### 8.3 评测方法的三代演进

第一代:内部指标(2018-2021)
代表:Perplexity、BLEU、ROUGE
优点:自动计算、速度快
缺点:和人类判断相关性低
状态:仍在开发流程中使用

第二代:基准测试(2021-2024)
代表:MMLU、HumanEval、GSM8K
优点:标准化、可复现
缺点:容易被刷榜、数据污染
状态:仍然是论文必备指标

第三代:人类偏好评估(2024-至今)
代表:Arena AI、MT-Bench
优点:反映真实体验、难以刷榜
缺点:成本高、评分波动
状态:当前最受关注的评测方式

2026年新趋势:
Arena AI估值17亿美元 → 评测本身成了生意
“AI投票团”:用LLM评估LLM(如G-Eval)
垂直领域专项评测:医疗、法律、金融各自有基准
多模态评测:不只是文本,还有图像、视频、音频

---

## 九、中文评测:C-Eval与CMMLU

### 9.1 为什么需要中文评测

大多数国际基准是英文的:
MMLU:57个学科,全部英文
HumanEval:Python代码,英文文档
GSM8K:英文数学题

直接用英文基准测中文模型的问题:

  1. 中文模型在英文基准上天然劣势
  2. 不能反映中文场景的真实能力
  3. 无法比较不同模型的中文表现

需要专门的中文评测!

### 9.2 C-Eval

C-Eval(2023年发布)是中文综合知识评测的首选基准:

覆盖52个中文学科:
基础学科:语文、数学、物理、化学
人文学科:历史、哲学、文学、艺术
社会科学:法学、经济学、教育学
工程学科:计算机、电子、机械
医学:基础医学、临床医学、药学

题目形式:4选1选择题
和MMLU类似,但全部是中文
部分题目涉及中国特有的知识
测试"中文+中国知识"双重能力

各模型C-Eval得分(2026年):
┌──────────────────┬───────┐
│ 模型 │ C-Eval│
├──────────────────┼───────┤
│ GPT-4 │ 68.0% │
│ LLaMA-2-70B │ 45.0% │
│ 文心一言4.0 │ 82.0% │
│ DeepSeek-V3 │ 89.5% │
│ Qwen3-Max │ 91.2% │ ← 中文最强
│ GLM-5 │ 89.8% │
│ Kimi K2.6 │ 88.5% │
│ Claude Opus 4.6 │ ~75% │
└──────────────────┴───────┘

关键洞察:
国际模型(GPT/Claude)中文能力也在提升
但国产模型在中文上仍有10-15%的优势
Qwen3-Max中文评测持续领先

### 9.3 评测的"猫腻":数据污染问题

数据污染是大模型评测最大的隐患:

什么情况下算数据污染?
训练数据中包含评测集题目
模型"记住"了答案,而不是真的理解

真实案例:
某模型在MMLU上得分超高
后来发现其训练数据中包含MMLU题目
重新测试 → 分数下降20%

怎么检测数据污染?
方法1:测试不同变体
​ "法国的首都是?"→ 巴黎 ✅
​ "法兰西共和国的首都是?"→ 巴黎 ❌(可能是记住了)

方法2:使用新题(未公开的题目)
​ 最可靠的方法
​ 但需要持续更新题库(成本高)

方法3:n-gram重叠检测
​ 检查模型输出和训练数据的文本相似度
​ 如果完全一样 → 高度怀疑记住

2026年应对措施:
MMLU-Pro:重新整理、去重后的版本
LiveBench:使用当天的新数据评测(每日刷新)
Arena AI:真实用户提问,不依赖固定题库

---

## 📌 总结

大模型评估指标核心要点:

1️⃣ 经典指标(开发用)
Perplexity:模型"困惑度",越低越好
BLEU:翻译精确率,看n-gram匹配
ROUGE:摘要召回率,看信息覆盖

2️⃣ 基准测试(对比用)
MMLU:57学科知识广度(2026年顶级≈94%)
HumanEval:代码生成(pass@1从28%→93%)
GSM8K/MATH:数学推理(MATH从5%→90%+)

3️⃣ 人类评估(真实用)
Arena AI:百万级真人盲测,最权威
Elo积分制,排名持续更新
2026年估值17亿美元

4️⃣ 中文评测
C-Eval:52个中文学科
Qwen3-Max 91.2%领跑
国产模型在中文上优势明显

5️⃣ 评测演进
第1代:PPL/BLEU/ROUGE(指标)
第2代:MMLU/HumanEval(基准)
第3代:Arena AI(人类偏好)
第4代:正在到来——AI评估AI

---

## 🔗 延伸阅读

- 【AI基础篇01】AI大模型基础概念全景图
- 【AI基础篇02】从Transformer到GPT:生成式AI的演进史
- 【AI基础篇03】大模型参数、算力、数据:Scaling Law的本质
- 【AI基础篇05】注意力机制:Self-Attention详解
- 【AI基础篇07】预训练 vs 微调 vs 提示工程

---

> **觉得有帮助?点赞收藏!下一篇我们讲大模型幻觉问题——为什么AI会一本正经地胡说八道?背后原因是什么?怎么检测和缓解?** 🚀

*标签:人工智能、大模型、评测指标、Perplexity、BLEU、ROUGE、MMLU、HumanEval、GSM8K、Chatbot Arena、C-Eval*
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐