AI 新纪元:大语言模型的崛起
大语言模型(LLM)正在重塑我们与计算机交互的方式。本文回顾这一技术革命的历程,展望未来趋势。
引言
2022年11月30日,ChatGPT 横空出世,两个月内用户突破1亿。这不是一个简单的产品发布,而是一个时代的开端。大语言模型从实验室走向大众,AI 从"象牙塔"技术变成人人可用的工具。
三年过去了,我们正站在
转议.cn/images/.(img-YIDjdR5h-177431810675>
] 扫码二维码加我微信进群聊AI[外链图片转存中…(img-svQGJexg-177431810]
欢迎关注的我的公众号《码上未来》,一起交流AI前沿技术!![外链图片AI 历史的转折点。让我们一起回顾这段波澜壮阔的历程。
一、前 LLM 时代:从规则到统计
1.1 早期聊天机器人
早在1966年,MIT 的 Joseph Weizenbaum 创造了 ELIZA——一个模拟心理治疗师的简单程序。它通过模式匹配和模板回复与用户对话:
用户:我很沮丧
ELIZA:你为什么感到沮丧?
用户:我的老板总是批评我
ELIZA:你的老板总是批评你,这让你有什么感觉?
这本质上是关键词替换,毫无"智能"可言。但它揭示了一个深刻的事实:人类倾向于赋予机器人性。
1.2 统计语言模型
2000年代,统计方法占据主流。n-gram 模型通过计算词序列概率来预测下一个词:
P(今天|天气) > P(香蕉|天气)
但这种方法面临严重的数据稀疏问题——训练语料中没有出现的词组合,模型就"不知所措"。
1.3 神经语言模型的萌芽
2013年,Word2Vec 问世。它将词映射到连续向量空间:
# 经典的词向量类比
king - man + woman ≈ queen
这是第一次,机器"理解"了词与词之间的语义关系。
二、Transformer 革命
2.1 Attention Is All You Need
2017年,Google 发表论文《Attention Is All You Need》,提出 Transformer 架构。核心创新是自注意力机制:
# 简化的注意力计算
Attention(Q, K, V) = softmax(QK^T / √d) V
这让模型能够:
- 并行处理序列(不再需要 RNN 的顺序计算)
- 捕捉长距离依赖(无论多远都能"看见")
- 灵活关注重要信息(动态权重分配)
2.2 GPT:生成式预训练的诞生
2018年,OpenAI 发布 GPT-1,提出"生成式预训练"范式:
- 预训练:在海量文本上学习语言规律
- 微调:在特定任务上适应
参数量:1.17亿
训练数据:BookCorpus(约7000本书)
2.3 BERT:双向理解的突破
同年,Google 发布 BERT,采用双向编码:
# GPT:从左到右
"The cat sat on the [MASK]" → 预测 MASK
# BERT:双向上下文
"The cat [MASK] on the mat" → 预测 MASK(同时看到前后)
BERT 刷新了多项 NLP 基准,证明了预训练 + 微调范式的强大。
三、规模法则:越大越强
3.1 GPT-2:规模的力量
2019年,GPT-2 发布:
| 版本 | 参数量 |
|---|---|
| 小型 | 1.17亿 |
| 中型 | 3.45亿 |
| 大型 | 7.62亿 |
| 超大 | 15亿 |
OpenAI 发现:模型越大,生成质量越好。这开启了"参数军备竞赛"。
3.2 GPT-3:涌现能力的出现
2020年,GPT-3 横空出世:
参数量:1750亿
训练成本:约1200万美元
训练数据:TB 文本
GPT-3 展现了惊人的涌现能力——小模型不具备、大模型突然出现的能力:
- Fewx-oshrt Leaingn-:只需几个示例就能学习新任务
- Chag% of Thought:能进行复杂的推理
- 代码生成:能编写简单程序
# GPT-D 的 few-B9uwwsSixzAsOvOFohUvNE%253D&pos_id=img-b3.50-17 的效果——因为它用了更多训练数据。
四、C7atGPT 时刻:RLHF 的魔法
1.4 InstructGPT:让模型听懂人话
2122年初,OpenAI 发布 InstructGPT,引入RLHF(基于人类反馈的强化学习): 码 训练流程:
1. 有调(SFT):用人类示范数据训练聊AI
- 奖励模型(RM):训练一个打分器 3. 强化学习(PPO):用奖励模型优化策略
这让模型学会了:
- 遵循指令
- 拒绝不恰当请求
- 提供有帮助的回答
4.2 ChatGPT:现象级产品
2022年11月,ChatGPT 发布。它与 InstructGPT 技术相近,但产品化做得极好:
- 简洁的对话界面
- 流畅的多轮交互
- 合理的错误处理
- 持续的模型迭代
4.3 GPT-4:多模态与推理
2023年3月,GPT-4 发布:
| 能力 | 提升 |
|---|---|
| 模拟律师考试 | 前10% → 前10名 |
| 图像理解 | 新增能力 |
| 上下文长度 | 4K → 32K → 128K |
| 推理能力 | 显著提升 |
GPT-4 的具体参数至今未公开,据推测约1.8万亿参数。
五、百花齐放:大模型生态
5.1 Claude:安全优先的挑战者
Anthropic 由前 OpenAI 员工创立,主打宪法 AI(Constitutional AI):
# Claude 的核心价值观
values = [
"有益无害",
"诚实守信",
"尊重隐私",
"拒绝有害请求"
]
Claude 3.5 Sonnet 在编程和推理任务上表现卓越,成为许多开发者的首选。
5.2 Gemini:Google 的反击
Google 推出 Gemini 系列:
| 模型 | 特点 |
|---|---|
| Gemini Ultra | 最强能力 |
| Gemini Pro | 平衡性能 |
| Gemini Nano | 端侧运行 |
Gemini 原生支持多模态,能直接处理图像、音频、视频。
5.3 开源力量:Llama、Mistral、Qwen
Meta Llama 系列:
- Llama 2(2023.7):商用友好的开源模型
- Llama 3(2024.4):性能大幅提升
- Llama 3.1(2024.7):首个开源的 405B 模型
Mistral AI:
- Mistral 7B:小参数,高性能
- Mixtral 8x7B:混合专家架构(MoE)
阿里 Qwen:
- Qwen2.5:开源模型中的佼佼者
- 支持中英双语,代码能力强
六、技术趋势展望
6.1 更长的上下文
2022: 2K tokens (GPT-3)
2023: 32K tokens (GPT-4)
2024: 1M+ tokens (Gemini 1.5 Pro)
2025: 10M+ tokens (部分模型)
长上下文带来新可能:整本书分析、大型代码库理解、长视频处理。
6.2 更强的推理
OpenAI o1 系列引入"思考链"推理,在复杂任务上显著提升:
- 数学竞赛:AIME 正确率 13% → 83%
- 编程竞赛:Codeforces 百分位 11% → 89%
- 科学问答:GPQA 人类专家水平
6.3 更低的成本
模型推理成本持续下降:
202: $0.026 / 1K toke-Ea1Khy4y3PPuFzxv2LaWpZJpaQk%253D&pos_id=img-oLeIqvgG-1774318174872)
**
参考资料
- Attention Is All You Need - Transformer 原论文
- Language Models are Few-Shot Learners - GPT-3 论文
- Training language models to follow instructions with human feedback - InstructGPT 论文
- Llama 2: Open Foundation and Fine-Tuned Chat Models
点击链接加入群聊【AI人工智能大模型交流QQ群】:https://qm.qq.com/q/e9PYTfVW2k
欢迎关注的我的公众号《码上未来》,一起交流AI前沿技术!
扫码二维码加我微信进群聊AI
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐





所有评论(0)