LLM全称:Large Language Model(大语言模型),简称大模型

模型参数量:GPT-3(175B参数)、GPT-4(约1.8T参数,是GPT-3的10倍)的大语言模型

工作原理:本质是基于概率生成模型,通过预测下一个词的概率来生成后续文本

发展简史

时间

事件

意义/影响

2017年

Transformer架构提出

奠定大模型技术基础

2018年

GPT-1/GPT-2/ELMo发布

预训练+微调范式确立

2019年

GPT-3发布

大模型+Prompt范式确立

2022年

ChatGPT/Stable Diffusion发布

大模型+Agent概念火爆出圈

核心概念

1. 基础模型 Foundation Model

定义:通过大规模无监督预训练,从海量文本中学习通用知识表示

核心特点:预训练(Pre-training)→ 微调(Fine-tuning)→ 提示学习(Prompt Learning)

关键技术:自监督学习、上下文学习(In-context Learning)、思维链(Chain-of-Thought)

2. Token(词元/令牌)

定义:大模型处理文本的最小单元,不同于"字/词",比如"ChatGPT"会被拆分为多个Token

特点:1个中文≈1~2个Token,1个英文单词≈0.75个Token,1个Token≈0.75个英文单词

Token与模型参数的关系:参数量越大,能处理的上下文(Token数)越多

3. 上下文窗口 Context Window

定义:模型一次能处理的最大Token数量,决定了"记忆"长度

常见规模:GPT-3.5(4K/16K Token)、GPT-4(8K/32K/128K Token)

长上下文技术:RAG、滑动窗口、位置编码优化

4. 模型训练阶段

预训练 Pre-training:海量无标注数据,学习语言规律和世界知识

指令微调 SFT(Supervised Fine-Tuning):用(指令,输出)对训练,让模型学会遵循指令

RLHF(人类反馈强化学习):用人类偏好训练奖励模型,让输出更符合人类价值观

5. 模型能力涌现 Emergent Ability

定义:模型参数量达到某个阈值后,突然展现出小模型不具备的能力

典型表现:上下文学习、思维链推理、代码生成、多语言翻译

关键阈值:约10B~100B参数区间出现明显涌现

6. 大模型核心能力

文本生成:文章写作、邮件回复、代码生成、创意文案

知识推理:数学计算、逻辑推理、常识判断

多轮对话:上下文理解、角色扮演、情感分析

多模态能力:图文理解(GPT-4V)、语音交互(Whisper)

7. Prompt Engineering(提示工程)

定义:通过设计输入Prompt,引导模型输出高质量结果

核心技巧:

  • 角色扮演:"你是一位资深Python工程师..."
  • 少样本示例 Few-shot:给2~3个示例,让模型模仿输出格式
  • 思维链 CoT:"Let's think step by step",引导模型分步推理
  • 输出格式控制:要求JSON/Markdown/表格等结构化输出

8. 大模型应用架构

纯模型调用:直接调用API,适合简单问答

RAG(检索增强生成):向量数据库+大模型,解决知识时效性和幻觉问题

Agent(智能体):大模型+工具+记忆+规划,实现复杂任务自主执行

微调 Fine-tuning:用领域数据微调模型,适配垂直场景

9. 模型评估指标

困惑度 Perplexity:衡量模型对文本的预测能力,越低越好

BLEU/ROUGE:文本生成质量评估(翻译、摘要)

人类评估:ELO评分、Side-by-Side对比

能力测试:MMLU(多学科知识)、GSM8K(数学推理)、HumanEval(代码)

10. 开源 vs 闭源模型

开源代表:Llama 2/3(Meta)、Qwen(阿里)、ChatGLM(智谱)、Baichuan(百川)

闭源代表:GPT-4(OpenAI)、Claude(Anthropic)、Gemini(Google)

选型建议:开源适合私有化部署和微调,闭源适合快速验证和复杂任务

11. 大模型局限性与风险

幻觉 Hallucination:生成看似合理但实际错误的内容

知识时效性:训练数据有截止日期,无法获知最新事件

偏见与毒性:可能生成歧视性、有害内容

安全风险:提示注入攻击、数据隐私泄露

12. 学习路径建议

入门:理解Transformer、Prompt Engineering、调用API

进阶:RAG搭建、模型微调、评估指标

深入:预训练原理、RLHF、模型部署与优化

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐