面试官：“从 GPT-1 到 4，核心突破是？” 我：“不知道。” 面试官：“你可以走了。”

Java后端的Ai之路

950人浏览 · 2026-05-01 22:33:35

Java后端的Ai之路 · 2026-05-01 22:33:35 发布

文章目录

一、GPT-1（2018）

论文：Improving Language Understanding by Generative Pre-Training

用了什么术语？

生成式预训练 (Generative Pre-Training)
大白话：先不给模型布置具体任务，就让它把互联网上的海量文字当“闲书”看，目标只有一个：学会根据上文猜下一个词（这叫自回归语言模型）。这个过程没有人工标注，所以叫无监督学习。
Transformer 解码器 (Decoder-only Transformer)
大白话：模型只看前面的字，不看后面的（单向），一个字一个字地往外蹦，像接龙。
微调 (Fine-tuning)
大白话：预训练完后，再拿少量带标签的“标准答案”数据教它做具体任务，比如情感分类、阅读理解。只需短时间调教就能考高分。

里程碑意义（解决了什么傻问题）

以前的模型：想让 AI 做翻译，得专门训练一个翻译模型；想做问答，又得重新训一个。一个萝卜一个坑，还特别吃标注数据。
GPT-1 证明了：先海量无监督预训练，再小规模有监督微调，这一套组合拳可以在多种任务上都达到当时最好的效果。
这就像先把人通识教育拉满，再随便给几个例子学某个技能，他很快就上手了。

对应用开发者的启示

这个阶段还没有 API，但预训练-微调范式直接成了后来整个 NLP 工业界的流水线。你今天用的微调思想，老巢就在这儿。

二、GPT-2（2019）

论文：Language Models are Unsupervised Multitask Learners

用了什么术语？

多任务学习 (Multitask Learning)
大白话：同一个模型，不专门做微调，直接就能翻译、写摘要、编故事，全凭预训练时看到的各种文字模式。
零样本迁移 (Zero-shot Transfer)
大白话：一个任务的具体例子都不给模型看，只靠一句任务描述，它就能直接开干。例如直接输入“把下面这句话翻译成法语：你好”，模型就给你出结果，从没见过法文平行语料也照做。这就是 zero-shot。
扩展律 (Scaling Law) 初露端倪
大白话：参数越多、数据越大，模型能力跳得越高，甚至出现预料之外的“聪明劲儿”。

里程碑意义

GPT-2 拿了 15 亿参数（当时巨大），发现“什么都不改，只是把模型和数据怼上去”，就能 zero-shot 完成很多任务。它证明语言模型自己就是一个多任务学习器，不用你再单独教。
同时引发了安全争议，OpenAI 不敢全量放出，开启了“大模型要管控”的讨论。

对应用开发者的启示

提示工程 (Prompt Engineering) 的种子埋下了。 你不用非得微调模型，写好任务指令（prompt），模型就能出活儿。这在你后来调用 API 时极其重要。

三、GPT-3（2020）

论文：Language Models are Few-Shot Learners

用了什么术语？

上下文学习 (In-context Learning)
大白话：不给模型更新权重，而是直接在输入里塞几个“问题-答案”的例子，模型看过例子后，瞬间就能模仿着给出新答案。所有“学习”都发生在它读你给的提示词的这一瞬间，不改变模型本身。
few-shot / one-shot / zero-shot
- few-shot：给几个示例再回答
- one-shot：只给一个示例
- zero-shot：完全不给示例，只给指令
1750 亿参数，密集 Transformer
就是超大号的解码器，没有变成混合架构，纯靠规模堆出能力。

里程碑意义

GPT-3 把规模化到底能带来什么展示到了极致。它没做任何微调，就可以通过 in-context learning 做翻译、编程、数学推理等复杂任务，而且 prompt 怎么写效果天差地别。
从此，“训练模型”变成了“设计提示词”。 OpenAI 直接把它做成付费 API，宣告 模型即服务 (MaaS) 时代来了。

对应用开发者的直接影响

你就是在这个节点作为开发者进场最顺畅：

你不用训模型，调 prompt 就搞定大量文本任务。
但缺点也明显：胡说八道、有害输出、不听人话、对指令格式极其敏感。
你需要掌握 prompt 设计，和如何用 few-shot 示例去“挟持”模型出正确结果。

四、InstructGPT / ChatGPT（2022）

论文：Training language models to follow instructions with human feedback

用了什么术语？

指令微调 (Instruction Tuning)
大白话：找一堆由人写的“用户指令-理想回答”对，对模型再做一次监督微调。让它学会“听人话”并按指令办事，而不是单纯续写文字。
RLHF (Reinforcement Learning from Human Feedback)
大白话：让人给模型的多个回答排好坏名次，训练一个小“奖励模型”；然后用强化学习算法（PPO，近端策略优化）去调整大模型，让它拼命产出奖励模型会给高分的回答。由此把“好不好、有没有用、无害”这些人类偏好量化进去。
对齐 (Alignment)
大白话：把模型的输出目标往“有用、诚实、无害”上掰，防止它输出暴力、歧视、瞎编等没节操内容。

里程碑意义

GPT-3 是个什么都知道但三观不正、不听使唤的“野马”。InstructGPT/ChatGPT 用指令微调 + RLHF 给它套上了缰绳，变得听话、礼貌、拒绝不当请求、更符合人类偏好。
ChatGPT 爆发，全世界第一次真正感受到“跟AI聊天”的可用性，RLHF 成为标配。

对应用开发者的直接影响

你现在能靠 系统消息 (System Message) 设定角色和边界，模型会一直接戏。
对话式应用成立：多轮上下文管理、token 窗口成了你开发的核心关注点。
可以通过 API 的 Chat Completion 构建产品，提示词工程从“写指令”升级为“编排对话”。
需要学会防范 prompt 注入，因为模型变得太听人话，也可能被用户套出不该说的。

五、GPT-4（2023）及 GPT-4 Turbo

发布方式：技术报告，不再公布细节

用了什么术语？

多模态 (Multimodal)
大白话：不仅能读文字，还能“看懂”图片。输入可以是图+文，输出文字。底层混合了视觉编码器和语言模型。
更长的上下文窗口 (Context Window)
GPT-4 初版 8k/32k tokens，Turbo 到 128k。大白话：能一次性“记住”三百页书的内容，整个对话、长文档都能塞进去。
增强的可控性与系统消息遵循度
比前面版本更听系统提示，能在角色扮演、安全边界上精细调节。
函数调用 (Function Calling / Tools)
大白话：模型不只是输出文字，还能输出结构化的 JSON 告诉我“我要调用的 API 是哪一个，参数是什么”，从而让你连接外部工具执行实际操作。这是Agent 智能体的基础。
JSON 模式、可复现输出（Seed 参数）
方便开发者做自动化处理。

里程碑意义

GPT-4 的推理能力、常识准确性、指令遵循度大幅度跃升。多模态+函数调用，直接把 AI 从“嘴炮”变成了能看图、能动手的数字员工。
它是构建可依赖的 AI 应用的基石。

对应用开发者的直接影响

复杂逻辑任务（代码生成、数据分析、报告起草）可以在单一模型上闭环。
函数调用让你可以接入搜索、数据库、邮件等外部工具，催生了 LangChain、AutoGPT 这类 agent 框架。
长窗口使得 RAG（检索增强生成）可以塞大把上下文，减少幻觉。
多模态可以让你的应用直接接收用户上传的图片并推理。
你需要管控成本、延迟，并运用 结构化输出 确保稳定性。

六、GPT-4o 及后续（Omni 全模态）

GPT-4o：o 代表 omni

用了什么术语？

原生多模态预训练 (Natively Multimodal)
大白话：不再是先把语音转文字、再让文字模型处理。而是同一个神经网络直接把文本、视觉、音频一次性吃进去，端到端理解。所以能感知语调、笑声、背景音。
实时交互与低延迟
语音对话延迟达到类人级别，音频传输与生成直接在模型内部完成。
高级推理分割与链式思考 (Chain-of-Thought) 内置优化
模型内部已经会自己规划思考步骤。

里程碑意义

让 AI 有了“眼耳口”的全感官，实时对话跟真人差不多。开启了屏幕共享、实时协作、情感感知等交互范式。
同时也把成本进一步打下来，让开发者能大规模铺开全模态应用。

对应用开发者的直接影响

你可以开发实时语音助手、面试陪练、同声传译、多模态知识库等产品。
Realtime API 提供了 websocket 连接，编程模型转向流式多模态处理。
模型能直接看视频流理解物理世界，这对接地气的实体应用是质变。

所以，整条发展线串起来，你作为开发者看到了什么？

GPT-1 → 给你“预训练+微调”这个万能套路。
GPT-2 → 让你发现模型本身就有多任务能力，连微调都可能省掉。
GPT-3 → 给你 in-context learning，用 prompt 就能挖掘能力，AI 变成 API。
InstructGPT/ChatGPT → 套上 RLHF 缰绳，AI 从胡说八道变得听话可用，对话应用成型。
GPT-4 → 多模态+工具调用，让 AI 能看、能动，成为 Agent 大脑。
GPT-4o → 全模态实时交互，把感官和成本门槛抹平，做真正融入生活的应用。

每一步，都是把“你需要自己搞定的脏活累活”变得更加抽象，让开发者更专注于产品体验和流程编排。你现在用的每一个 API 参数和提示词技巧，都是这些里程碑一层层垒起来的。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI Agent在智能客服中的意图识别优化

意图识别是自然语言处理（NLP）领域的核心任务之一，目标是将用户输入的文本/语音映射到对应的预定义意图类别，进而匹配对应的服务流程。智能客服的所有响应、流程跳转都基于意图识别的结果，一旦识别错误，后续所有服务都会偏离用户需求。上下文遗忘：无法关联用户之前的提问、历史订单、行为数据，只能基于当前单轮输入做识别；多意图漏识别：只能处理单意图请求，用户同时提多个需求时至少漏识别40%的意图；模糊意图/开

AtomGit开源社区

Hermes Agent 完全安装指南（Linux、macOS、Windows、Android）

摘要（148字）： HermesAgent提供跨平台一键安装方案，支持Linux/macOS/WSL2（curl命令）、Windows（PowerShell）和Android（Termux）。国内用户推荐使用镜像源加速安装，避免网络问题。核心功能通过hermessetup配置模型，hermes启动聊天，5分钟内完成部署。模型推荐方面，国内首选Kimi（免代理、长文本处理强），海外可选OpenAI/