大语言模型(LLM)正在重塑我们与计算机交互的方式。本文回顾这一技术革命的历程,展望未来趋势。


引言

2022年11月30日,ChatGPT 横空出世,两个月内用户突破1亿。这不是一个简单的产品发布,而是一个时代的开端。大语言模型从实验室走向大众,AI 从"象牙塔"技术变成人人可用的工具。
三年过去了,我们正站在

转议.cn/images/.(img-YIDjdR5h-177431810675>
] 扫码二维码加我微信进群聊AI

[外链图片转存中…(img-svQGJexg-177431810]
欢迎关注的我的公众号《码上未来》,一起交流AI前沿技术!

![外链图片AI 历史的转折点。让我们一起回顾这段波澜壮阔的历程。


一、前 LLM 时代:从规则到统计

1.1 早期聊天机器人

早在1966年,MIT 的 Joseph Weizenbaum 创造了 ELIZA——一个模拟心理治疗师的简单程序。它通过模式匹配和模板回复与用户对话:

用户:我很沮丧
ELIZA:你为什么感到沮丧?
用户:我的老板总是批评我
ELIZA:你的老板总是批评你,这让你有什么感觉?

这本质上是关键词替换,毫无"智能"可言。但它揭示了一个深刻的事实:人类倾向于赋予机器人性

1.2 统计语言模型

2000年代,统计方法占据主流。n-gram 模型通过计算词序列概率来预测下一个词:

P(今天|天气) > P(香蕉|天气)

但这种方法面临严重的数据稀疏问题——训练语料中没有出现的词组合,模型就"不知所措"。

1.3 神经语言模型的萌芽

2013年,Word2Vec 问世。它将词映射到连续向量空间:

# 经典的词向量类比
king - man + woman ≈ queen

这是第一次,机器"理解"了词与词之间的语义关系。


二、Transformer 革命

2.1 Attention Is All You Need

2017年,Google 发表论文《Attention Is All You Need》,提出 Transformer 架构。核心创新是自注意力机制

# 简化的注意力计算
Attention(Q, K, V) = softmax(QK^T / √d) V

这让模型能够:

  • 并行处理序列(不再需要 RNN 的顺序计算)
  • 捕捉长距离依赖(无论多远都能"看见")
  • 灵活关注重要信息(动态权重分配)

2.2 GPT:生成式预训练的诞生

2018年,OpenAI 发布 GPT-1,提出"生成式预训练"范式:

  1. 预训练:在海量文本上学习语言规律
  2. 微调:在特定任务上适应
参数量:1.17亿
训练数据:BookCorpus(约7000本书)

2.3 BERT:双向理解的突破

同年,Google 发布 BERT,采用双向编码:

# GPT:从左到右
"The cat sat on the [MASK]" → 预测 MASK
​
# BERT:双向上下文
"The cat [MASK] on the mat" → 预测 MASK(同时看到前后)

BERT 刷新了多项 NLP 基准,证明了预训练 + 微调范式的强大。


三、规模法则:越大越强

3.1 GPT-2:规模的力量

2019年,GPT-2 发布:

版本 参数量
小型 1.17亿
中型 3.45亿
大型 7.62亿
超大 15亿

OpenAI 发现:模型越大,生成质量越好。这开启了"参数军备竞赛"。

3.2 GPT-3:涌现能力的出现

2020年,GPT-3 横空出世:

参数量:1750亿
训练成本:约1200万美元
训练数据:TB 文本

GPT-3 展现了惊人的涌现能力——小模型不具备、大模型突然出现的能力:

  • Fewx-oshrt Leaingn-:只需几个示例就能学习新任务
  • Chag% of Thought:能进行复杂的推理
  • 代码生成:能编写简单程序
# GPT-D 的 few-B9uwwsSixzAsOvOFohUvNE%253D&pos_id=img-b3.50-17 的效果——因为它用了更多训练数据。

四、C7atGPT 时刻:RLHF 的魔法

1.4 InstructGPT:让模型听懂人话

2122年初,OpenAI 发布 InstructGPT,引入RLHF(基于人类反馈的强化学习): 码 训练流程:
1. 有调(SFT):用人类示范数据训练聊AI

  1. 奖励模型(RM):训练一个打分器 3. 强化学习(PPO):用奖励模型优化策略

这让模型学会了:

  • 遵循指令
  • 拒绝不恰当请求
  • 提供有帮助的回答

4.2 ChatGPT:现象级产品

2022年11月,ChatGPT 发布。它与 InstructGPT 技术相近,但产品化做得极好:

  • 简洁的对话界面
  • 流畅的多轮交互
  • 合理的错误处理
  • 持续的模型迭代

4.3 GPT-4:多模态与推理

2023年3月,GPT-4 发布:

能力 提升
模拟律师考试 前10% → 前10名
图像理解 新增能力
上下文长度 4K → 32K → 128K
推理能力 显著提升

GPT-4 的具体参数至今未公开,据推测约1.8万亿参数。


五、百花齐放:大模型生态

5.1 Claude:安全优先的挑战者

Anthropic 由前 OpenAI 员工创立,主打宪法 AI(Constitutional AI):

# Claude 的核心价值观
values = [
    "有益无害",
    "诚实守信",
    "尊重隐私",
    "拒绝有害请求"
]

Claude 3.5 Sonnet 在编程和推理任务上表现卓越,成为许多开发者的首选。

5.2 Gemini:Google 的反击

Google 推出 Gemini 系列:

模型 特点
Gemini Ultra 最强能力
Gemini Pro 平衡性能
Gemini Nano 端侧运行

Gemini 原生支持多模态,能直接处理图像、音频、视频。

5.3 开源力量:Llama、Mistral、Qwen

Meta Llama 系列

  • Llama 2(2023.7):商用友好的开源模型
  • Llama 3(2024.4):性能大幅提升
  • Llama 3.1(2024.7):首个开源的 405B 模型

Mistral AI

  • Mistral 7B:小参数,高性能
  • Mixtral 8x7B:混合专家架构(MoE)

阿里 Qwen

  • Qwen2.5:开源模型中的佼佼者
  • 支持中英双语,代码能力强

六、技术趋势展望

6.1 更长的上下文

2022: 2K tokens (GPT-3)
2023: 32K tokens (GPT-4)
2024: 1M+ tokens (Gemini 1.5 Pro)
2025: 10M+ tokens (部分模型)

长上下文带来新可能:整本书分析、大型代码库理解、长视频处理。

6.2 更强的推理

OpenAI o1 系列引入"思考链"推理,在复杂任务上显著提升:

  • 数学竞赛:AIME 正确率 13% → 83%
  • 编程竞赛:Codeforces 百分位 11% → 89%
  • 科学问答:GPQA 人类专家水平

6.3 更低的成本

模型推理成本持续下降:

202: $0.026 / 1K toke-Ea1Khy4y3PPuFzxv2LaWpZJpaQk%253D&pos_id=img-oLeIqvgG-1774318174872)

**

参考资料


点击链接加入群聊【AI人工智能大模型交流QQ群】:https://qm.qq.com/q/e9PYTfVW2k

欢迎关注的我的公众号《码上未来》,一起交流AI前沿技术!

码上未来

扫码二维码加我微信进群聊AI

码上未来

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐