核心大模型基础(LLM)
LLM全称:Large Language Model(大语言模型),简称大模型
模型参数量:GPT-3(175B参数)、GPT-4(约1.8T参数,是GPT-3的10倍)的大语言模型
工作原理:本质是基于概率生成模型,通过预测下一个词的概率来生成后续文本
发展简史
|
时间 |
事件 |
意义/影响 |
|
2017年 |
Transformer架构提出 |
奠定大模型技术基础 |
|
2018年 |
GPT-1/GPT-2/ELMo发布 |
预训练+微调范式确立 |
|
2019年 |
GPT-3发布 |
大模型+Prompt范式确立 |
|
2022年 |
ChatGPT/Stable Diffusion发布 |
大模型+Agent概念火爆出圈 |
核心概念
1. 基础模型 Foundation Model
定义:通过大规模无监督预训练,从海量文本中学习通用知识表示
核心特点:预训练(Pre-training)→ 微调(Fine-tuning)→ 提示学习(Prompt Learning)
关键技术:自监督学习、上下文学习(In-context Learning)、思维链(Chain-of-Thought)
2. Token(词元/令牌)
定义:大模型处理文本的最小单元,不同于"字/词",比如"ChatGPT"会被拆分为多个Token
特点:1个中文≈1~2个Token,1个英文单词≈0.75个Token,1个Token≈0.75个英文单词
Token与模型参数的关系:参数量越大,能处理的上下文(Token数)越多
3. 上下文窗口 Context Window
定义:模型一次能处理的最大Token数量,决定了"记忆"长度
常见规模:GPT-3.5(4K/16K Token)、GPT-4(8K/32K/128K Token)
长上下文技术:RAG、滑动窗口、位置编码优化
4. 模型训练阶段
预训练 Pre-training:海量无标注数据,学习语言规律和世界知识
指令微调 SFT(Supervised Fine-Tuning):用(指令,输出)对训练,让模型学会遵循指令
RLHF(人类反馈强化学习):用人类偏好训练奖励模型,让输出更符合人类价值观
5. 模型能力涌现 Emergent Ability
定义:模型参数量达到某个阈值后,突然展现出小模型不具备的能力
典型表现:上下文学习、思维链推理、代码生成、多语言翻译
关键阈值:约10B~100B参数区间出现明显涌现
6. 大模型核心能力
文本生成:文章写作、邮件回复、代码生成、创意文案
知识推理:数学计算、逻辑推理、常识判断
多轮对话:上下文理解、角色扮演、情感分析
多模态能力:图文理解(GPT-4V)、语音交互(Whisper)
7. Prompt Engineering(提示工程)
定义:通过设计输入Prompt,引导模型输出高质量结果
核心技巧:
- 角色扮演:"你是一位资深Python工程师..."
- 少样本示例 Few-shot:给2~3个示例,让模型模仿输出格式
- 思维链 CoT:"Let's think step by step",引导模型分步推理
- 输出格式控制:要求JSON/Markdown/表格等结构化输出
8. 大模型应用架构
纯模型调用:直接调用API,适合简单问答
RAG(检索增强生成):向量数据库+大模型,解决知识时效性和幻觉问题
Agent(智能体):大模型+工具+记忆+规划,实现复杂任务自主执行
微调 Fine-tuning:用领域数据微调模型,适配垂直场景
9. 模型评估指标
困惑度 Perplexity:衡量模型对文本的预测能力,越低越好
BLEU/ROUGE:文本生成质量评估(翻译、摘要)
人类评估:ELO评分、Side-by-Side对比
能力测试:MMLU(多学科知识)、GSM8K(数学推理)、HumanEval(代码)
10. 开源 vs 闭源模型
开源代表:Llama 2/3(Meta)、Qwen(阿里)、ChatGLM(智谱)、Baichuan(百川)
闭源代表:GPT-4(OpenAI)、Claude(Anthropic)、Gemini(Google)
选型建议:开源适合私有化部署和微调,闭源适合快速验证和复杂任务
11. 大模型局限性与风险
幻觉 Hallucination:生成看似合理但实际错误的内容
知识时效性:训练数据有截止日期,无法获知最新事件
偏见与毒性:可能生成歧视性、有害内容
安全风险:提示注入攻击、数据隐私泄露
12. 学习路径建议
入门:理解Transformer、Prompt Engineering、调用API
进阶:RAG搭建、模型微调、评估指标
深入:预训练原理、RLHF、模型部署与优化
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)