【AI基础篇08】大模型评估指标:困惑度、BLEU、ROUGE
【AI基础篇08】大模型评估指标:困惑度、BLEU、ROUGE
前言:怎么判断一个大模型"好不好"?有人说"能写诗就是好",有人说"数学题全对才是真本事"。但做AI开发不能靠感觉——你需要量化的指标。本文从最基础的困惑度、BLEU、ROUGE讲到2026年主流的MMLU、HumanEval、Chatbot Arena,一次搞懂大模型评测体系的方方面面。
📋 目录
- 一、评测的三重维度
- 二、困惑度(Perplexity):最基础的内部指标
- 三、BLEU:机器翻译的标准
- 四、ROUGE:文本摘要的基准
- 五、MMLU:知识广度测试
- 六、HumanEval与代码评测
- 七、GSM8K与数学推理
- 八、人类偏好评估:Chatbot Arena
- 九、中文评测:C-Eval与CMMLU
一、评测的三重维度
1.1 大模型评测为什么难?
传统软件评测 vs 大模型评测:
传统软件:
输入相同的值 → 输出相同的值 ✅
测试用例 = 输入输出对
结果:对就是对,错就是错
大模型:
输入"写一首关于月亮的诗" →
输出可能有很多种,都是"对的"
怎么量化"这首诗写得好不好"?
三个核心挑战:
1️⃣ 开放性:任务没有唯一正确答案
2️⃣ 主观性:好坏的判断因人而异
3️⃣ 多维性:一个模型在编程上强,在写作上弱
1.2 评测的三种方法论
┌──────────────────────────────────────────────────────┐
│ 大模型评测体系 │
├───────────────────────────────────────────────────────┤
│ │
│ 1️⃣ 指标评测(Metric-based) │
│ 自动计算数值指标,可复现、可对比 │
│ 代表:Perplexity、BLEU、ROUGE │
│ 特点:快、客观、但不反映真实体验 │
│ │
│ 2️⃣ 基准测试(Benchmark-based) │
│ 标准化测试集,覆盖特定能力维度 │
│ 代表:MMLU、HumanEval、GSM8K │
│ 特点:标准化、可复现、但怕"刷榜" │
│ │
│ 3️⃣ 人类评估(Human Evaluation) │
│ 真人盲测打分,最贴近真实使用 │
│ 代表:Chatbot Arena、MT-Bench │
│ 特点:真实、可信、但成本高、不稳定 │
│ │
└───────────────────────────────────────────────────────┘
最佳实践:三种方法结合使用
指标评测 → 快速筛选(适合开发过程中)
基准测试 → 横向对比(适合模型发布时)
人类评估 → 最终判断(适合上线使用前)
二、困惑度(Perplexity):最基础的内部指标
2.1 什么是困惑度
困惑度(Perplexity,PPL)是语言模型最基础的自评估指标,衡量模型对下一个token的"不确定程度"。
直觉理解:
一个"困惑"的模型:
"我今天去___" → 模型:可能是"上学"(30%)、"上班"(30%)、"医院"(20%)、"玩"(20%)
模型很困惑,不知道哪个更合理
困惑度 = 高
一个"自信"的模型:
"我今天去___" → 模型:应该是"上班"(85%)、"上学"(10%)、"医院"(3%)、"玩"(2%)
模型很清楚,上班是最合理的
困惑度 = 低
2.2 数学公式
Perplexity = exp(-1/N × Σ log P(w_i | w_{<i}))
其中:
N: 序列长度(token数)
P(w_i | w_{<i}): 模型预测第i个token的概率
exp: 指数函数
简化理解:
模型预测的"平均概率"越高 → 困惑度越低
完美模型:PPL = 1(每个token都100%猜对)
随机猜测:PPL = 词汇表大小(比如50000)
好模型:PPL = 10-30(根据任务不同)
2.3 不同模型的困惑度对比
┌─────────────┬──────────────┬────────────────────────┐
│ 模型 │ 测试集PPL │ 备注 │
├─────────────┼──────────────┼────────────────────────┤
│ GPT-2 (2019)│ 约35 │ 当时SOTA │
│ GPT-3 (2020)│ 约20 │ 千亿参数的威力 │
│ LLaMA-7B │ 约12 │ 小模型,大潜力 │
│ LLaMA-65B │ 约7.5 │ 开源标杆 │
│ DeepSeek-V3 │ <5 │ 671B MoE架构 │
│ GPT-4 │ 约4-5 │ 非公开,行业估算 │
└─────────────┴──────────────┴────────────────────────┘
2.4 困惑度的局限性
❌ 不能反映"任务表现"
一个模型的PPL很低,但在问答任务上可能表现很差
PPL只衡量"预测下一个词"的能力,不是"有用性"
❌ 受词汇表影响大
不同模型词汇表不同,PPL不能跨模型直接对比
中文的PPL天然比英文高(因为token效率低)
❌ 容易被"记忆"欺骗
如果模型"记住"了测试数据(数据污染)
PPL会异常低,但实际泛化能力并不好
✅ 什么时候用PPL?
训练过程中的快速验证
同一模型不同checkpoint的对比
判断模型是否收敛、过拟合
💡 面试加分点:面试中如果被问到"PPL越低越好吗",回答应该是"在同等条件下越低越好,但不能跨模型、跨语言、跨数据集直接对比"。PPL是开发过程中的调试工具,不是产品上线时的评估工具。
三、BLEU:机器翻译的标准
3.1 核心思想
BLEU(Bilingual Evaluation Understudy)是机器翻译领域最经典的评估指标,核心思想是:看模型生成的翻译和人工参考翻译有多"像"。
BLEU = "模型输出" vs "人工参考翻译"的n-gram重合度
直观理解:
参考翻译:"The cat sits on the mat"
模型输出:"The cat is on the mat"
共有的词:"The", "cat", "on", "the", "mat" → 5个
BLEU不只看单个词,还看连续2个词、3个词的匹配度
3.2 计算公式
BLEU = BP × exp(1/4 × Σ log(P_n))
其中:
P_n = 匹配的n-gram数 / 总n-gram数 (n从1到4)
BP = 长度惩罚因子(防止生成太短的句子)
BP(Brevity Penalty,简短惩罚):
如果模型输出比参考翻译短 → 扣分
BP = min(1, exp(1 - ref_len / output_len))
例子:
参考翻译:The cat sits on the mat (6个词)
模型输出1:The cat on mat (4个词) → BP < 1 → 惩罚
模型输出2:The cat sits on the mat quickly (7个词) → BP = 1 → 不惩罚
3.3 BLEU的优缺点
✅ 优点:
自动计算,成本低
与人类判断有中等相关性(约0.6-0.7)
标准化,跨论文可对比
快速迭代优化
❌ 缺点:
只关注"词面匹配",不关注"语义"
"The cat is on the mat" vs "The feline is positioned on the rug"
BLEU很低,但意思完全一样!→ 语义理解失败
不同语言的BLEU不可比
英文BLEU 30 ≈ 中文BLEU 20(中文更难匹配)
对词汇丰富度惩罚
用"好"可以,用"优秀/出众/卓越" → 匹配率下降
2026年现状:BLEU在机器翻译评测中仍在使用
但不再作为唯一指标
更多使用COMET等基于神经网络的语义评估
四、ROUGE:文本摘要的基准
4.1 核心思想
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是文本摘要任务的标准指标,和BLEU互补——BLEU看"模型输出包含了多少参考信息"(精确率导向),ROUGE看"参考信息中有多少被模型覆盖了"(召回率导向)。
BLEU vs ROUGE 的本质差异:
BLEU(精确率导向):
模型输出:"我喜欢猫和狗"
问:模型输出中有多少是和参考匹配的?
→ 关注"模型说的话是否准确"
ROUGE(召回率导向):
参考摘要:"我喜欢猫、狗和鱼"
问:参考摘要中有多少被模型覆盖了?
→ 关注"重要信息是否都被模型说到了"
4.2 主要变体
ROUGE主要有三种形式,适用于不同场景:
ROUGE-N(n-gram匹配)
ROUGE-1:单个词匹配
ROUGE-2:连续2个词匹配
ROUGE-3:连续3个词匹配
例:参考="我喜欢猫", 输出="我爱猫"
ROUGE-1: "我"+"猫" → 2/4 = 0.5
ROUGE-2: "我喜欢"+"喜欢猫" vs "我爱"+"爱猫" → 0/2 = 0.0
ROUGE-L(最长公共子序列)
不要求连续,只要求顺序一致
参考:"我今天很开心"
输出:"我开心"
最长公共子序列:"我"+"开心" → LCS长度=3
ROUGE-S(跳词二元组)
允许跳词匹配
参考:"AB CD EF"
输出:"AB EF"
"AB"匹配,"EF"匹配 → 可以!
适用场景:
ROUGE-1:关键词覆盖(适合关键词提取)
ROUGE-2:流畅度评估(适合句子生成)
ROUGE-L:内容完整性(适合长文本摘要)
4.3 BLEU和ROUGE的综合对比
BLEU ROUGE
起源领域 机器翻译 文本摘要
侧重点 精确率(输出质量) 召回率(信息覆盖)
n-gram up to 4-gram 1-gram为主
长度惩罚 有(防过短) 无
与人类判断 中等相关 中等相关
2026年地位 仍在使用,但不唯一 仍在使用,但不唯一
两者共同局限:
❌ 依赖参考译文(标注成本高)
❌ 不关注语义(词汇不匹配就扣分)
❌ 无法评估创造性、流畅度
2026年趋势:基于AI的自动评估正在兴起
COMET(机器翻译):用神经网络评分
G-Eval(通用):用LLM给LLM的输出打分
Self-Check(事实一致性):检查模型是否"胡编"
五、MMLU:知识广度测试
5.1 什么是MMLU
MMLU(Massive Multitask Language Understanding)是2021年提出的综合知识评测基准,目前仍是最广泛使用的客观评测之一。它测试模型在57个学科领域中的知识广度。
MMLU的学科分布:
人文社科(18个学科):
法学、哲学、历史、地理、政治...
科学(21个学科):
物理、化学、生物、计算机科学...
专业领域(18个学科):
医学、心理学、会计、工程...
难度分布:
高中水平:约30%
大学水平:约50%
专业水平:约20%
5.2 评测方式
MMLU使用4选1的选择题:
示例:
Question: What is the capital of France?
A. London
B. Paris ✅
C. Berlin
D. Madrid
评测指标:准确率(Accuracy)
模型答对题目数 / 总题数
随机猜测基线:25%(4选1)
关键细节:
模型输出的第一个token必须是A/B/C/D
不能输出"根据我的知识..." → 直接判错
考验模型的"精准回答"能力
5.3 各模型MMLU得分(2026年5月)
┌──────────────────┬───────┬─────────────────────────┐
│ 模型 │ MMLU │ 备注 │
├──────────────────┼───────┼─────────────────────────┤
│ 随机猜测 │ 25% │ 基线 │
│ BERT-large │ 40.9% │ 2020年 │
│ GPT-3 │ 43.9% │ 175B参数 │
│ LLaMA-65B │ 63.4% │ 开源里程碑 │
│ GPT-4 │ 86.4% │ 2023年 │
│ Claude 3 Opus │ 86.8% │ 2024年 │
│ Gemini 1.5 Pro │ ~87% │ 2024年 │
│ DeepSeek-V3 │ ~89% │ 671B MoE, 2024 │
│ Qwen3-Max │ ~90% │ 阿里旗舰, 2025 │
│ Claude Opus 4.6 │ ~92% │ 2026年 │
│ GPT-5.2 │ ~93% │ 2026年 │
│ Claude Opus 4.7 │ ~94% │ 2026年5月最新 │
└──────────────────┴───────┴─────────────────────────┘
关键洞察:
从GPT-3的43.9%到2026年的94%
5年内知识广度翻了一倍多
接近人类专家水平
5.3 MMLU的问题
1️⃣ 数据污染
模型训练数据中可能包含MMLU的题目
如果模型"记住"了答案,得分就虚高
→ 需要定期更新题库
2️⃣ 天花板效应
94%意味着接近天花板了
剩下的6%可能是"印刷错误"或"有争议"
→ MMLU对顶级模型已经"不够难"
3️⃣ 选择题≠真实能力
MMLU考的是"识别正确答案"
不是"生成正确答案"
真实场景中后者更重要
2026年演进:
MMLU-Pro(更难的版本,减少数据污染)
增加推理题比例
MMLU-Redux(新维护的清洗版本)
六、HumanEval与代码评测
6.1 什么是HumanEval
HumanEval是OpenAI发布的代码生成评测基准,包含164道Python函数级编程题,测试模型"从文档字符串生成正确代码"的能力。
HumanEval示例:
```python
def is_palindrome(s: str) -> bool:
"""判断字符串是否是回文
>>> is_palindrome("racecar")
True
>>> is_palindrome("hello")
False
>>> is_palindrome("")
True
"""
# 模型需要补全函数体
评测方式:
- 给模型函数签名+文档字符串
- 模型生成函数体
- 运行单元测试
- 通过=正确,不通过=错误
→ 100%客观,没有"部分正确"
### 6.2 代码评测指标
pass@1(最常用):
模型生成1次代码,通过测试的概率
最严格的指标
pass@10:
模型生成10次代码,只要有一次通过就算成功
更接近"开发者实际使用"的场景
pass@k的计算方式:
pass@k = 1 - (C(n-k, m) / C(n, k))
其中:n=总生成次数,m=通过的次数
实际值(2026年5月数据):
┌──────────────────┬────────┬────────┐
│ 模型 │ pass@1 │ pass@10│
├──────────────────┼────────┼────────┤
│ GPT-3 (2020) │ 28% │ 56% │
│ Codex (2021) │ 37% │ 77% │
│ StarCoder (2023) │ 34% │ 71% │
│ GPT-4 (2023) │ 67% │ 87% │
│ Claude Opus 3 │ 75% │ 92% │
│ DeepSeek-V3 │ 82% │ 95% │
│ Claude Opus 4.6 │ ~90% │ ~98% │
│ GPT-5.3 Codex │ ~92% │ ~99% │
│ Claude Opus 4.7 │ ~93% │ ~99% │
└──────────────────┴────────┴────────┘
趋势:
人力程序员平均pass@1 ≈ 85-95%
2026年的顶级模型已经接近或达到人类水平
### 6.3 SWE-bench:更真实的编程评测
SWE-bench(2024年提出)比HumanEval更难、更真实:
HumanEval:补全单个函数(164道题)
→ 类似于"写一个二分查找"
→ 单个函数,不涉及项目上下文
SWE-bench:解决真实的GitHub Issue(2294个)
→ 模型的输入是一个完整的GitHub Issue描述
→ 需要理解整个代码库
→ 需要修改多个文件
→ 用真实测试用例验证修复是否正确
SWE-bench得分(2026年):
┌──────────────────┬──────────┐
│ 模型 │ 解决率 │
├──────────────────┼──────────┤
│ GPT-4 (2023) │ 1.7% │
│ Claude Opus 3 │ 9.0% │
│ Devin (2024) │ 13.8% │
│ Claude 3.5 Sonnet│ 16.0% │
│ Claude Opus 4.6 │ 72.5% │
│ Claude Opus 4.7 │ 80.9% │
│ GPT-5.3 Codex │ ~75% │
└──────────────────┴──────────┘
关键洞察:
从GPT-4的1.7%到Claude Opus 4.7的80.9%
3年内提升了47倍!
代码AI已经从"玩具"变成了"生产力工具"
---
## 七、GSM8K与数学推理
### 7.1 GSM8K:小学应用题
GSM8K包含**8500道小学水平数学应用题**,对大模型来说,这比看起来难得多——因为它测试的是"多步推理能力"。
GSM8K示例:
题目:
“Beth有16块饼干。她吃了3块。
她妈妈又给了她一盒饼干,现在她有29块饼干。
一盒饼干中有多少块?”
正确推理步骤:
- Beth吃完3块后还有:16 - 3 = 13块
- 加上一盒饼干后:13 + X = 29
- X = 29 - 13 = 16
答案:一盒中有16块
模型的错误模式:
❌ 直接猜一个数
❌ 只做了一步就出答案
❌ 全部运算正确但写错了最终答案
GSM8K得分趋势:
2021年(GPT-3):18%
2022年(PaLM):58%
2023年(GPT-4):87%
2024年(DeepSeek-V3):~90%
2026年(Claude Opus 4.6):~97%
2026年(Claude Opus 4.7 Thinking):~98%
6年内从18%到98% → 数学推理能力的飞跃
### 7.2 MATH:高难度数学竞赛
MATH(Mathematics Aptitude Test of Heuristics)包含**5000道高中至竞赛级数学题**,难度远高于GSM8K。
MATH的难度分级:
等级1:基础(约20%)— 如解一元方程
等级2-3:中等(约50%)— 如几何证明
等级4-5:高难度(约30%)— 如AMC/AIME竞赛题
MATH得分趋势(体现了推理能力的最剧烈进步):
2021年(GPT-3):5.2%
2022年(Minerva):52.7%
2023年(GPT-4):52.9%
2024年(DeepSeek-R1):~75%
2025年(o3):~87%
2026年(Claude Opus 4.6 Thinking):~90%+
从5%到90%:5年内提升了18倍!
这是大模型推理能力提升最直观的证据
### 7.3 Chain-of-Thought:让模型"说人话"
为什么思维链(CoT)对数学推理这么重要?
没有CoT(直接输出答案):
输入:16块饼干,吃了3块,妈妈给了一盒,现在29块…
输出:16
有CoT(一步步推理):
输入:16块饼干,吃了3块,妈妈给了一盒,现在29块…
输出:
“第一步:Beth吃完3块后 = 16 - 3 = 13
第二步:设一盒有X块 = 13 + X = 29
第三步:X = 29 - 13 = 16
答案:16”
为什么CoT有效?
人类解决复杂问题时也需要"纸笔计算"
中间步骤给了模型"推理的锚点"
即使最后计算错了,也可以看到哪里出错
2026年CoT已经成为标准:
所有旗舰模型默认内置思维链推理
Claude Opus的"Thinking模式"
OpenAI的o系列推理模型
DeepSeek-R1的推理模式
---
## 八、人类偏好评估:Chatbot Arena
### 8.1 什么是Chatbot Arena
以上所有指标和基准都有一个核心问题:**选择题和代码题不代表真实使用体验**。为此,LMSYS(UC Berkeley)在2023年推出了Chatbot Arena——现在已更名为Arena AI,并在2026年1月完成**1.5亿美元融资**,估值17亿美元。
Arena AI的评测方式:
Step 1:用户输入一个问题
Step 2:两个模型(匿名)分别回答
Step 3:用户盲测投票,选择"谁更好"
Step 4:基于Elo积分系统更新排名
为什么这种方式更可信?
✅ 真实用户 + 真实问题
✅ 双盲 → 消除偏见
✅ 持续更新 → 不被刷榜
✅ 反映"真实体感"
2026年规模:
超过200个模型参与排名
数百万次人类投票
最权威的"真人偏好"榜单
### 8.2 2026年5月Arena AI排名
┌──────────────────────────────────────────────┐
│ Arena AI 综合排名(截至2026年5月) │
├──────────────────┬───────┬───────────────────┤
│ 排名 │ 模型 │ Elo分 │ 备注 │
├──────┼───────────┼───────┼───────────────────┤
│ 1 │ Claude │ 1392 │ 思维链模式最强 │
│ │ Opus 4.7 │ │ │
│ │ Thinking │ │ │
│ 2 │ Claude │ 1385 │ 综合能力均衡 │
│ │ Opus 4.6 │ │ │
│ │ Thinking │ │ │
│ 3 │ Claude │ 1378 │ 标准推理模式 │
│ │ Opus 4.6 │ │ │
│ 4 │ Gemini │ 1355 │ Google最新旗舰 │
│ │ 3.1 Pro │ │ │
│ 5 │ GPT-5.2 │ 1348 │ OpenAI对话模型 │
│ 6 │ Gemini │ 1340 │ 速度与质量平衡 │
│ │ 3.1 Flash │ │ │
│ 7 │ DeepSeek │ 1320 │ 开源性价比之王 │
│ │ V4-Pro │ │ │
│ 8 │ Qwen3- │ 1295 │ 中文场景极强 │
│ │ Max │ │ │
└──────┴───────────┴───────┴───────────────────┘
关键洞察:
前10名Elo分差不超过50分
顶级模型之间的实际差距正在收窄
场景匹配度比"哪个模型更强"更重要
### 8.3 评测方法的三代演进
第一代:内部指标(2018-2021)
代表:Perplexity、BLEU、ROUGE
优点:自动计算、速度快
缺点:和人类判断相关性低
状态:仍在开发流程中使用
第二代:基准测试(2021-2024)
代表:MMLU、HumanEval、GSM8K
优点:标准化、可复现
缺点:容易被刷榜、数据污染
状态:仍然是论文必备指标
第三代:人类偏好评估(2024-至今)
代表:Arena AI、MT-Bench
优点:反映真实体验、难以刷榜
缺点:成本高、评分波动
状态:当前最受关注的评测方式
2026年新趋势:
Arena AI估值17亿美元 → 评测本身成了生意
“AI投票团”:用LLM评估LLM(如G-Eval)
垂直领域专项评测:医疗、法律、金融各自有基准
多模态评测:不只是文本,还有图像、视频、音频
---
## 九、中文评测:C-Eval与CMMLU
### 9.1 为什么需要中文评测
大多数国际基准是英文的:
MMLU:57个学科,全部英文
HumanEval:Python代码,英文文档
GSM8K:英文数学题
直接用英文基准测中文模型的问题:
- 中文模型在英文基准上天然劣势
- 不能反映中文场景的真实能力
- 无法比较不同模型的中文表现
需要专门的中文评测!
### 9.2 C-Eval
C-Eval(2023年发布)是中文综合知识评测的首选基准:
覆盖52个中文学科:
基础学科:语文、数学、物理、化学
人文学科:历史、哲学、文学、艺术
社会科学:法学、经济学、教育学
工程学科:计算机、电子、机械
医学:基础医学、临床医学、药学
题目形式:4选1选择题
和MMLU类似,但全部是中文
部分题目涉及中国特有的知识
测试"中文+中国知识"双重能力
各模型C-Eval得分(2026年):
┌──────────────────┬───────┐
│ 模型 │ C-Eval│
├──────────────────┼───────┤
│ GPT-4 │ 68.0% │
│ LLaMA-2-70B │ 45.0% │
│ 文心一言4.0 │ 82.0% │
│ DeepSeek-V3 │ 89.5% │
│ Qwen3-Max │ 91.2% │ ← 中文最强
│ GLM-5 │ 89.8% │
│ Kimi K2.6 │ 88.5% │
│ Claude Opus 4.6 │ ~75% │
└──────────────────┴───────┘
关键洞察:
国际模型(GPT/Claude)中文能力也在提升
但国产模型在中文上仍有10-15%的优势
Qwen3-Max中文评测持续领先
### 9.3 评测的"猫腻":数据污染问题
数据污染是大模型评测最大的隐患:
什么情况下算数据污染?
训练数据中包含评测集题目
模型"记住"了答案,而不是真的理解
真实案例:
某模型在MMLU上得分超高
后来发现其训练数据中包含MMLU题目
重新测试 → 分数下降20%
怎么检测数据污染?
方法1:测试不同变体
"法国的首都是?"→ 巴黎 ✅
"法兰西共和国的首都是?"→ 巴黎 ❌(可能是记住了)
方法2:使用新题(未公开的题目)
最可靠的方法
但需要持续更新题库(成本高)
方法3:n-gram重叠检测
检查模型输出和训练数据的文本相似度
如果完全一样 → 高度怀疑记住
2026年应对措施:
MMLU-Pro:重新整理、去重后的版本
LiveBench:使用当天的新数据评测(每日刷新)
Arena AI:真实用户提问,不依赖固定题库
---
## 📌 总结
大模型评估指标核心要点:
1️⃣ 经典指标(开发用)
Perplexity:模型"困惑度",越低越好
BLEU:翻译精确率,看n-gram匹配
ROUGE:摘要召回率,看信息覆盖
2️⃣ 基准测试(对比用)
MMLU:57学科知识广度(2026年顶级≈94%)
HumanEval:代码生成(pass@1从28%→93%)
GSM8K/MATH:数学推理(MATH从5%→90%+)
3️⃣ 人类评估(真实用)
Arena AI:百万级真人盲测,最权威
Elo积分制,排名持续更新
2026年估值17亿美元
4️⃣ 中文评测
C-Eval:52个中文学科
Qwen3-Max 91.2%领跑
国产模型在中文上优势明显
5️⃣ 评测演进
第1代:PPL/BLEU/ROUGE(指标)
第2代:MMLU/HumanEval(基准)
第3代:Arena AI(人类偏好)
第4代:正在到来——AI评估AI
---
## 🔗 延伸阅读
- 【AI基础篇01】AI大模型基础概念全景图
- 【AI基础篇02】从Transformer到GPT:生成式AI的演进史
- 【AI基础篇03】大模型参数、算力、数据:Scaling Law的本质
- 【AI基础篇05】注意力机制:Self-Attention详解
- 【AI基础篇07】预训练 vs 微调 vs 提示工程
---
> **觉得有帮助?点赞收藏!下一篇我们讲大模型幻觉问题——为什么AI会一本正经地胡说八道?背后原因是什么?怎么检测和缓解?** 🚀
*标签:人工智能、大模型、评测指标、Perplexity、BLEU、ROUGE、MMLU、HumanEval、GSM8K、Chatbot Arena、C-Eval*
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)