核心大模型基础（LLM）

qq_39156659

278人浏览 · 2026-06-15 15:07:49

qq_39156659 · 2026-06-15 15:07:49 发布

LLM全称：Large Language Model（大语言模型），简称大模型

模型参数量：GPT-3（175B参数）、GPT-4（约1.8T参数，是GPT-3的10倍）的大语言模型

工作原理：本质是基于概率生成模型，通过预测下一个词的概率来生成后续文本

发展简史

时间	事件	意义/影响
2017年	Transformer架构提出	奠定大模型技术基础
2018年	GPT-1/GPT-2/ELMo发布	预训练+微调范式确立
2019年	GPT-3发布	大模型+Prompt范式确立
2022年	ChatGPT/Stable Diffusion发布	大模型+Agent概念火爆出圈

核心概念

1. 基础模型 Foundation Model

定义：通过大规模无监督预训练，从海量文本中学习通用知识表示

核心特点：预训练（Pre-training）→ 微调（Fine-tuning）→ 提示学习（Prompt Learning）

关键技术：自监督学习、上下文学习（In-context Learning）、思维链（Chain-of-Thought）

2. Token（词元/令牌）

定义：大模型处理文本的最小单元，不同于"字/词"，比如"ChatGPT"会被拆分为多个Token

特点：1个中文≈1~2个Token，1个英文单词≈0.75个Token，1个Token≈0.75个英文单词

Token与模型参数的关系：参数量越大，能处理的上下文（Token数）越多

3. 上下文窗口 Context Window

定义：模型一次能处理的最大Token数量，决定了"记忆"长度

常见规模：GPT-3.5（4K/16K Token）、GPT-4（8K/32K/128K Token）

长上下文技术：RAG、滑动窗口、位置编码优化

4. 模型训练阶段

预训练 Pre-training：海量无标注数据，学习语言规律和世界知识

指令微调 SFT（Supervised Fine-Tuning）：用（指令，输出）对训练，让模型学会遵循指令

RLHF（人类反馈强化学习）：用人类偏好训练奖励模型，让输出更符合人类价值观

5. 模型能力涌现 Emergent Ability

定义：模型参数量达到某个阈值后，突然展现出小模型不具备的能力

典型表现：上下文学习、思维链推理、代码生成、多语言翻译

关键阈值：约10B~100B参数区间出现明显涌现

6. 大模型核心能力

文本生成：文章写作、邮件回复、代码生成、创意文案

知识推理：数学计算、逻辑推理、常识判断

多轮对话：上下文理解、角色扮演、情感分析

多模态能力：图文理解（GPT-4V）、语音交互（Whisper）

7. Prompt Engineering（提示工程）

定义：通过设计输入Prompt，引导模型输出高质量结果

核心技巧：

角色扮演："你是一位资深Python工程师..."
少样本示例 Few-shot：给2~3个示例，让模型模仿输出格式
思维链 CoT："Let's think step by step"，引导模型分步推理
输出格式控制：要求JSON/Markdown/表格等结构化输出

8. 大模型应用架构

纯模型调用：直接调用API，适合简单问答

RAG（检索增强生成）：向量数据库+大模型，解决知识时效性和幻觉问题

Agent（智能体）：大模型+工具+记忆+规划，实现复杂任务自主执行

微调 Fine-tuning：用领域数据微调模型，适配垂直场景

9. 模型评估指标

困惑度 Perplexity：衡量模型对文本的预测能力，越低越好

BLEU/ROUGE：文本生成质量评估（翻译、摘要）

人类评估：ELO评分、Side-by-Side对比

能力测试：MMLU（多学科知识）、GSM8K（数学推理）、HumanEval（代码）

10. 开源 vs 闭源模型

开源代表：Llama 2/3（Meta）、Qwen（阿里）、ChatGLM（智谱）、Baichuan（百川）

闭源代表：GPT-4（OpenAI）、Claude（Anthropic）、Gemini（Google）

选型建议：开源适合私有化部署和微调，闭源适合快速验证和复杂任务

11. 大模型局限性与风险

幻觉 Hallucination：生成看似合理但实际错误的内容

知识时效性：训练数据有截止日期，无法获知最新事件

偏见与毒性：可能生成歧视性、有害内容

安全风险：提示注入攻击、数据隐私泄露

12. 学习路径建议

入门：理解Transformer、Prompt Engineering、调用API

进阶：RAG搭建、模型微调、评估指标

深入：预训练原理、RLHF、模型部署与优化

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于 LangChain + 通义千问的多索引路由 RAG 智能 Agent 设计与实现 —— 人工智能模型应用课程综合实践

AtomGit开源社区

AI 压缩上下文那一下，替你扔了什么

AtomGit开源社区

指纹浏览器虚拟机检测技术分析

采集时间：2026-06-18本报告基于本地 Firefox 内核落盘、Ruyipage 自动化网络记录和页面快照分析。结论用于技术研究与公众号解析，不等价于 Fingerprint 官方服务端模型。

AtomGit开源社区

所有评论(0)

查看更多评论

qq_39156659

@qq_39156659

已为社区贡献1条内容

核心大模型基础（LLM）

qq_39156659

发展简史

核心概念

1. 基础模型 Foundation Model

2. Token（词元/令牌）

3. 上下文窗口 Context Window

4. 模型训练阶段

5. 模型能力涌现 Emergent Ability

6. 大模型核心能力

7. Prompt Engineering（提示工程）

8. 大模型应用架构

9. 模型评估指标

10. 开源 vs 闭源模型

11. 大模型局限性与风险

12. 学习路径建议

所有评论(0)

温馨提示：您尚未绑定手机号

qq_39156659