面试官:“从 GPT-1 到 4,核心突破是?” 我:“不知道。” 面试官:“你可以走了。”

文章目录
一、GPT-1(2018)
论文:Improving Language Understanding by Generative Pre-Training
用了什么术语?
-
生成式预训练 (Generative Pre-Training)
大白话:先不给模型布置具体任务,就让它把互联网上的海量文字当“闲书”看,目标只有一个:学会根据上文猜下一个词(这叫自回归语言模型)。这个过程没有人工标注,所以叫无监督学习。 -
Transformer 解码器 (Decoder-only Transformer)
大白话:模型只看前面的字,不看后面的(单向),一个字一个字地往外蹦,像接龙。 -
微调 (Fine-tuning)
大白话:预训练完后,再拿少量带标签的“标准答案”数据教它做具体任务,比如情感分类、阅读理解。只需短时间调教就能考高分。
里程碑意义(解决了什么傻问题)
以前的模型:想让 AI 做翻译,得专门训练一个翻译模型;想做问答,又得重新训一个。一个萝卜一个坑,还特别吃标注数据。
GPT-1 证明了:先海量无监督预训练,再小规模有监督微调,这一套组合拳可以在多种任务上都达到当时最好的效果。
这就像先把人通识教育拉满,再随便给几个例子学某个技能,他很快就上手了。
对应用开发者的启示
这个阶段还没有 API,但预训练-微调范式直接成了后来整个 NLP 工业界的流水线。你今天用的微调思想,老巢就在这儿。
二、GPT-2(2019)
论文:Language Models are Unsupervised Multitask Learners
用了什么术语?
-
多任务学习 (Multitask Learning)
大白话:同一个模型,不专门做微调,直接就能翻译、写摘要、编故事,全凭预训练时看到的各种文字模式。 -
零样本迁移 (Zero-shot Transfer)
大白话:一个任务的具体例子都不给模型看,只靠一句任务描述,它就能直接开干。例如直接输入“把下面这句话翻译成法语:你好”,模型就给你出结果,从没见过法文平行语料也照做。这就是 zero-shot。 -
扩展律 (Scaling Law) 初露端倪
大白话:参数越多、数据越大,模型能力跳得越高,甚至出现预料之外的“聪明劲儿”。
里程碑意义
GPT-2 拿了 15 亿参数(当时巨大),发现“什么都不改,只是把模型和数据怼上去”,就能 zero-shot 完成很多任务。它证明语言模型自己就是一个多任务学习器,不用你再单独教。
同时引发了安全争议,OpenAI 不敢全量放出,开启了“大模型要管控”的讨论。
对应用开发者的启示
提示工程 (Prompt Engineering) 的种子埋下了。 你不用非得微调模型,写好任务指令(prompt),模型就能出活儿。这在你后来调用 API 时极其重要。
三、GPT-3(2020)
论文:Language Models are Few-Shot Learners
用了什么术语?
-
上下文学习 (In-context Learning)
大白话:不给模型更新权重,而是直接在输入里塞几个“问题-答案”的例子,模型看过例子后,瞬间就能模仿着给出新答案。所有“学习”都发生在它读你给的提示词的这一瞬间,不改变模型本身。 -
few-shot / one-shot / zero-shot
- few-shot:给几个示例再回答
- one-shot:只给一个示例
- zero-shot:完全不给示例,只给指令
-
1750 亿参数,密集 Transformer
就是超大号的解码器,没有变成混合架构,纯靠规模堆出能力。
里程碑意义
GPT-3 把规模化到底能带来什么展示到了极致。它没做任何微调,就可以通过 in-context learning 做翻译、编程、数学推理等复杂任务,而且 prompt 怎么写效果天差地别。
从此,“训练模型”变成了“设计提示词”。 OpenAI 直接把它做成付费 API,宣告 模型即服务 (MaaS) 时代来了。
对应用开发者的直接影响
你就是在这个节点作为开发者进场最顺畅:
- 你不用训模型,调 prompt 就搞定大量文本任务。
- 但缺点也明显:胡说八道、有害输出、不听人话、对指令格式极其敏感。
- 你需要掌握 prompt 设计,和如何用 few-shot 示例去“挟持”模型出正确结果。
四、InstructGPT / ChatGPT(2022)
论文:Training language models to follow instructions with human feedback
用了什么术语?
-
指令微调 (Instruction Tuning)
大白话:找一堆由人写的“用户指令-理想回答”对,对模型再做一次监督微调。让它学会“听人话”并按指令办事,而不是单纯续写文字。 -
RLHF (Reinforcement Learning from Human Feedback)
大白话:让人给模型的多个回答排好坏名次,训练一个小“奖励模型”;然后用强化学习算法(PPO,近端策略优化)去调整大模型,让它拼命产出奖励模型会给高分的回答。由此把“好不好、有没有用、无害”这些人类偏好量化进去。 -
对齐 (Alignment)
大白话:把模型的输出目标往“有用、诚实、无害”上掰,防止它输出暴力、歧视、瞎编等没节操内容。
里程碑意义
GPT-3 是个什么都知道但三观不正、不听使唤的“野马”。InstructGPT/ChatGPT 用指令微调 + RLHF 给它套上了缰绳,变得听话、礼貌、拒绝不当请求、更符合人类偏好。
ChatGPT 爆发,全世界第一次真正感受到“跟AI聊天”的可用性,RLHF 成为标配。
对应用开发者的直接影响
- 你现在能靠 系统消息 (System Message) 设定角色和边界,模型会一直接戏。
- 对话式应用成立:多轮上下文管理、token 窗口成了你开发的核心关注点。
- 可以通过 API 的 Chat Completion 构建产品,提示词工程从“写指令”升级为“编排对话”。
- 需要学会防范 prompt 注入,因为模型变得太听人话,也可能被用户套出不该说的。
五、GPT-4(2023)及 GPT-4 Turbo
发布方式:技术报告,不再公布细节
用了什么术语?
-
多模态 (Multimodal)
大白话:不仅能读文字,还能“看懂”图片。输入可以是图+文,输出文字。底层混合了视觉编码器和语言模型。 -
更长的上下文窗口 (Context Window)
GPT-4 初版 8k/32k tokens,Turbo 到 128k。大白话:能一次性“记住”三百页书的内容,整个对话、长文档都能塞进去。 -
增强的可控性与系统消息遵循度
比前面版本更听系统提示,能在角色扮演、安全边界上精细调节。 -
函数调用 (Function Calling / Tools)
大白话:模型不只是输出文字,还能输出结构化的 JSON 告诉我“我要调用的 API 是哪一个,参数是什么”,从而让你连接外部工具执行实际操作。这是Agent 智能体的基础。 -
JSON 模式、可复现输出(Seed 参数)
方便开发者做自动化处理。
里程碑意义
GPT-4 的推理能力、常识准确性、指令遵循度大幅度跃升。多模态+函数调用,直接把 AI 从“嘴炮”变成了能看图、能动手的数字员工。
它是构建可依赖的 AI 应用的基石。
对应用开发者的直接影响
- 复杂逻辑任务(代码生成、数据分析、报告起草)可以在单一模型上闭环。
- 函数调用让你可以接入搜索、数据库、邮件等外部工具,催生了 LangChain、AutoGPT 这类 agent 框架。
- 长窗口使得 RAG(检索增强生成)可以塞大把上下文,减少幻觉。
- 多模态可以让你的应用直接接收用户上传的图片并推理。
- 你需要管控成本、延迟,并运用 结构化输出 确保稳定性。
六、GPT-4o 及后续(Omni 全模态)
GPT-4o:o 代表 omni
用了什么术语?
-
原生多模态预训练 (Natively Multimodal)
大白话:不再是先把语音转文字、再让文字模型处理。而是同一个神经网络直接把文本、视觉、音频一次性吃进去,端到端理解。所以能感知语调、笑声、背景音。 -
实时交互与低延迟
语音对话延迟达到类人级别,音频传输与生成直接在模型内部完成。 -
高级推理分割与链式思考 (Chain-of-Thought) 内置优化
模型内部已经会自己规划思考步骤。
里程碑意义
让 AI 有了“眼耳口”的全感官,实时对话跟真人差不多。开启了屏幕共享、实时协作、情感感知等交互范式。
同时也把成本进一步打下来,让开发者能大规模铺开全模态应用。
对应用开发者的直接影响
- 你可以开发实时语音助手、面试陪练、同声传译、多模态知识库等产品。
- Realtime API 提供了 websocket 连接,编程模型转向流式多模态处理。
- 模型能直接看视频流理解物理世界,这对接地气的实体应用是质变。
所以,整条发展线串起来,你作为开发者看到了什么?
- GPT-1 → 给你“预训练+微调”这个万能套路。
- GPT-2 → 让你发现模型本身就有多任务能力,连微调都可能省掉。
- GPT-3 → 给你 in-context learning,用 prompt 就能挖掘能力,AI 变成 API。
- InstructGPT/ChatGPT → 套上 RLHF 缰绳,AI 从胡说八道变得听话可用,对话应用成型。
- GPT-4 → 多模态+工具调用,让 AI 能看、能动,成为 Agent 大脑。
- GPT-4o → 全模态实时交互,把感官和成本门槛抹平,做真正融入生活的应用。
每一步,都是把“你需要自己搞定的脏活累活”变得更加抽象,让开发者更专注于产品体验和流程编排。你现在用的每一个 API 参数和提示词技巧,都是这些里程碑一层层垒起来的。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)