8个核心概念层层递进,小白也能秒懂大模型原理!收藏这份进阶指南
8 个核心概念,一层一层往上搭,看完你对 AI 的理解会上一个台阶。
**核心概念地图:**LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill
AI 圈子里每天都在冒一些看似高大上的新名词,这篇文章目的是让我们从最底层的工程视角出发,一个一个把这些词语拆开、揉碎、讲清楚,帮你对这些词语去魅的同时,理解 AI 运行的底层逻辑。
我们先从最底层的东西开始,一层一层往上搭。
01 LLM:大语言模型
AI 的「大脑」—— 一切的起点
LLM 全称 Large Language Model(大语言模型),简称大模型。你日常接触到的 ChatGPT、Claude、Gemini、豆包、文心一言,它们的核心都是一个 LLM。
1.1
工作原理:文字接龙
大模型的工作原理其实非常朴素——本质上就是一个文字接龙游戏。
想象你跟朋友玩成语接龙:你说"龙飞凤舞",朋友要接"舞"开头的成语。大模型干的事差不多,只是它接的不是成语,而是任何文字。你说一句话,它根据前面的所有内容,猜下一个最合适的词是什么,吐出来,再猜下一个……一个词一个词地往外蹦,直到它觉得话说完了,才停下来。
关键点: 这就是为什么大模型要一个词一个词地输出答案——因为它就是这么运作的。就像你写作文时一个字一个字地写,它也是一个词一个词地"写"出回答。
但这里有个关键问题:大模型本质上是一个庞大的数学函数,里面跑的全是矩阵运算。它接收的是数字,输出的也是数字,压根就不认识人类写的文字。那它是怎么理解我们的语言的?
💡 类比: 想象一个只懂数字的外星人来到地球,它完全看不懂中文和英文。但如果你给它一本「密码本」——比如"苹果=42,好吃=77"——它就能把人类的文字翻译成自己懂的数字来处理了。大模型就是这个外星人,而帮它翻译的「密码本」就是我们下一节要讲的东西。
02 Token:语言的积木块
大模型处理文本的最基本单元
在人类和大模型之间,必须有一个「翻译官」来做转换。这个翻译官叫 Tokenizer,它负责两件事:编码(把文字变成数字)和解码(把数字还原成文字)。
2.1
编码过程:两步走
第一步:切菜。 就像厨师做菜之前要先把食材切成小块一样,Tokenizer 会把你的一句话切成一个个小片段,这些片段就叫做 Token。比如「我喜欢人工智能」会被切成:[我][喜欢][人工][智能]。
第二步:编号。 切好之后,给每个小片段贴一个数字标签(叫 Token ID)。就像超市里每件商品都有一个条形码——"苹果"的条形码是 48231,"牛奶"的条形码是 15097。Token ID 和 Token 本质上是同一个东西,只是换了一种大模型能看懂的表达方式。
2.2
Token ≠ 词
很多人以为一个 Token 就等于一个词,但其实不是。这就像切菜——你以为"西红柿"会被整个保留,但厨师可能把它切成了"西红"和"柿"两块:
| 文本 | 你以为 | 实际切分 |
|---|---|---|
| 工作坊 | 1 个 Token | 工作 + 坊 = 2 个 |
| 程序员 | 1 个 Token | 程序 + 员 = 2 个 |
| helpful | 1 个 Token | help + ful = 2 个 |
| ✓(对勾) | 1 个 Token | 需要 3 个 Token 表示 |
关键点: Token 是模型自己学会的一套切分规则,跟我们理解的"词"不完全对应。平均来讲,1 个 Token ≈ 0.75 个英文单词 ≈ 1.5~2 个汉字。
03 Context:上下文
AI 的「临时记忆体」
我们平时和大模型聊天,它好像能记住之前说过的话。比如你开头告诉它「我叫小明」,后面再问「我叫什么」,它还能回答出来。但大模型只是一个数学函数,并不像人一样真的有记忆。
那它是怎么做到的?
💡 类比: 想象你去一家餐厅,每次叫服务员过来,服务员都会换一个新人。新服务员对你之前点过什么菜一无所知。但餐厅有个规矩:每次叫服务员时,他会先看一遍桌上的点菜单——上面记录了你从进门到现在所有的点单记录。所以虽然每次来的都是「新人」,但他看完点菜单就知道你之前点了什么。
大模型就是这个"永远的新服务员"。每次你发消息,背后的程序会自动把你之前的整段对话历史一起发过去。模型每次看到的都是完整的"点菜单",所以它才能"记住"之前发生了什么。
Context(上下文) 就是这张"点菜单"——大模型每次处理任务时所接收到的信息总和,包括用户问题、对话历史、模型正在输出的内容、工具列表、System Prompt 等等。
3.1
Context Window:点菜单的纸有多大
这张点菜单不是无限长的。Context Window(上下文窗口) 就是这张纸的大小——它代表 Context 能容纳的最大 Token 数量。
| 模型 | Context Window | 约等于 |
|---|---|---|
| GPT-5.4 | 105 万 Token | ≈ 157 万汉字 |
| Gemini 3.1 Pro | 100 万 Token | ≈ 150 万汉字 |
| Claude Opus 4.6 | 100 万 Token | ≈ 150 万汉字 |
100 万个 Token 差不多是 150 万个汉字,整套《哈利波特》都能装得下。但即便如此,对于超大文档(比如上千页的产品手册),把全部内容塞进去也不现实——太贵了。
💡 类比: 这就像你去图书馆查资料。你不会把整个图书馆的书都搬到桌上,而是先去目录柜查一下,找到最相关的几本书,只把这几本带到座位上翻阅。AI 领域有个技术叫 RAG(检索增强生成),干的就是这个事——先从海量文档中抽取跟你问题最相关的几个片段,只把这几段喂给模型。
04 Prompt:提示词
和 AI 对话的「技术」
Prompt 就是大模型接收的具体问题或指令。你在聊天框里输入的每一句话,都是一个 Prompt——它并不是什么高端概念。
但 Prompt 怎么写,直接决定了大模型的输出质量。
💡 类比: 你去理发店,跟 Tony 老师说"帮我剪短一点",结果可能千差万别——他不知道你要哪种短。但如果你说"两边推 3mm,顶部保留 5cm,打薄,不要刘海",Tony 就知道该怎么下刀了。跟 AI 说话也是一样,说得越具体,结果越靠谱。
| 普通 Prompt(模糊) | 高质量 Prompt(具体) |
|---|---|
| 帮我写一首诗 | 请写一首五言绝句,主题秋天落叶,风格悲凉 |
| 帮我写个邮件 | 你是职场沟通顾问,请写一封给客户的跟进邮件,语气友好且专业… |
4.1
两种 Prompt
实际应用中,Prompt 分为两种:
User Prompt(用户提示词) ——你自己输入的具体任务。比如「帮我看看这道数学题」。
System Prompt(系统提示词) ——开发者在后台偷偷塞给模型的"人设卡",你看不到,但它一直在生效。
💡 类比: 你去剧本杀,拿到的角色卡上写着"你是一个冷面侦探,说话简洁,从不开玩笑"。之后不管玩家问你什么,你都会按照这个人设来回应。System Prompt 就是大模型的「角色卡」——开发者在后台给它发了一张,用户根本看不到,但模型的一切行为都受它影响。
举个例子:你做了一个数学辅导机器人,在后台设置 System Prompt:「你是一个耐心的数学老师,不要直接给答案,要引导学生思考。」当学生问「3+5 等于几」时,模型不会直接说 8,而是回答:「你手里有 3 个苹果,又拿了 5 个,现在一共有多少个呢?」
05 Tool:工具
让 AI 感知和影响外部世界
大模型有一个致命弱点——它无法感知外界环境。你问它「今天上海天气怎么样」,它会说「抱歉,我无法获取实时天气信息」。
💡 类比: 大模型就像一个被关在隔音房间里的超级学霸。他脑子里装满了知识,你递纸条进去问问题,他能写出精彩的回答递出来。但你要是问他"外面现在下雨了吗",他完全没辙——因为房间没有窗户,他看不到外面的世界。
Tool(工具) 就是给这个隔音房间开的窗户和装的电话。Tool 本质上就是一个函数——你给它输入,它就给你输出。比如一个天气查询工具,输入「上海 + 今天」,输出天气信息。
5.1
完整流程:四个角色的协作
但这里有个重要细节:学霸自己不能打电话,他只能写一张纸条说"请帮我打电话给气象局查一下上海天气",然后由房间外的助理来真正执行这个操作。
整个流程涉及四个角色:用户、平台(助理)、大模型(学霸)、工具(电话/窗户)。
| 步骤 | 谁 → 谁 | 做了什么 |
|---|---|---|
| ① | 用户 → 助理 → 学霸 | 把问题递进去,同时告诉学霸"你可以让我帮你打电话查天气" |
| ② | 学霸 → 助理 | 学霸写纸条:“请帮我查一下上海今天的天气” |
| ③ | 助理 → 工具 | 助理真正打电话给气象局,拿到结果 |
| ④ | 助理 → 学霸 → 用户 | 学霸收到天气数据,组织成一句人话回复用户 |
关键点: 大模型(学霸)能做的仅仅是写一张纸条,告诉助理它想查什么。真正打电话的是助理(平台),不是学霸(模型)——这是很多初学者容易搞混的地方。
06 MCP:统一接口
AI 世界的「Type-C」
工具有了,但工程上有个大问题:每个平台的工具接入规范都不一样。
💡 类比: 想象你买了一部手机、一个平板、一副耳机,结果发现手机用 Lightning 线,平板用 Micro-USB,耳机用 Mini-USB——三根线,三种接口,出门要带一堆线,崩溃。
AI 领域也一样。同一个天气工具,接 ChatGPT 要写一套代码,接 Claude 再写一套,接 Gemini 又写一套——同一个工具写三遍,开发者直接裂开。
MCP(Model Context Protocol,模型上下文协议) 就是 AI 世界的 Type-C 接口。名字听起来很学术,但本质就是一套统一的工具接入标准。有了 MCP,工具开发者只需按一个规范开发一次,工具就能被所有支持 MCP 的平台使用。一根线走天下。
| 没有 MCP(各种接口) | 有了 MCP(统一 Type-C) | |
|---|---|---|
| 开发成本 | 同一工具写 N 遍代码 | 写一次即可 |
| 接入方式 | 每个平台规范不同 | 统一标准协议 |
| 可复用性 | 低,各平台互不兼容 | 高,一次开发处处可用 |
07 Agent:智能体
会自己「想办法」的 AI
有了大模型和工具,还差什么?让我们看一个更复杂的例子:
「今天我这里的天气怎么样?如果下雨的话,帮我查一下附近有没有卖雨伞的店。」
之前讲的 Tool,是你告诉 AI"用这个工具查一下",它就查一下。但现在这个问题不一样——它需要 AI 自己拆解任务、自己决定调用哪些工具、甚至根据中间结果改变策略。
💡 类比: 之前的 AI 像一个只会执行命令的实习生——你说"帮我查个天气",他就查个天气,然后坐着等下一个指令。但现在我们需要的是一个靠谱的私人助理——你只说一句"我要出门,帮我搞定",他就会自己想:先查你在哪儿、再查天气、发现下雨了就帮你找附近卖伞的店,最后把所有结果整理好告诉你。全程不需要你一步一步指挥。
| 步骤 | 助理的脑回路 | 行动 |
|---|---|---|
| ① | “主人问天气,我得先知道他在哪” | 调用定位工具 → 获取经纬度 |
| ② | “好,位置有了,查天气” | 调用天气工具 → 结果:有雨 |
| ③ | “下雨了,主人说要找伞,我来查查” | 调用店铺工具 → 附近 100m 全家有卖 |
| ④ | “齐了,整理一下汇报” | 综合信息,给出最终答案 |
我们称这种能够自主规划、自主调用工具、直至完成任务的系统为 Agent(智能体)。目前市面上已有很多 Agent 产品,比如 Claude Code、Codex、Gemini CLI 等。
08 Agent Skill:智能体技能
Agent 的「操作手册」
有了靠谱的私人助理(Agent),事情是不是就完美了?还差一步。
💡 类比: 你新招了一个助理,很聪明,什么都能做。但他不了解你的个人习惯。你喜欢出门前检查天气、根据天气带不同的东西(下雨带伞、太阳大带帽子、空气差带口罩)、而且你希望他每次用固定格式汇报。如果你不把这些规矩写下来,每次出门前你都得口头交代一大堆——“记得查天气啊,下雨提醒我带伞啊,格式按这个来啊”——第二天又得重新说一遍。太累了。
Agent Skill 就是你给助理写的那份 《工作手册》。写一次,助理永远照着执行,你再也不用重复交代。
8.1
本质:一份给 Agent 看的说明文档
Agent Skill 本质上就是你提前写好塞给 Agent 的一份说明文档(一个 Markdown 文件)。它的结构分为两部分:
封面(元数据层) ——相当于手册的标题页,告诉助理"这本手册叫什么名字,管什么事"。至少包含 Name 和 Description。
正文(指令层) ——具体的执行步骤、判断规则、输出格式和示例。就像你写给新员工的 SOP(标准操作流程)——第一步做什么,第二步做什么,遇到什么情况怎么处理,最后结果用什么格式输出。
8.2
智能加载机制:不是一股脑全看完
这里还有一个巧妙的设计:助理上班时不会把所有手册从头到尾全看一遍,他只会先扫一眼每本手册的封面——看看标题和简介。只有当你提的问题跟某本手册相关时,他才会翻开那本手册仔细看正文。
💡 类比: 就像一个高效的员工,桌上放着十本操作手册。来了一个关于"出差报销"的问题,他不会把十本全翻一遍,而是一眼扫到《出差报销手册》的封面,然后只打开这一本来按规定处理。
这种「渐进式披露」机制可以节省大量 Token,避免把所有 Skill 的完整内容都塞进 Context。
实操提示: 以 Claude Code 为例,Skill 文件需存放在 ~/.claude/skills/ 目录下,文件名必须叫 SKILL.md(大写)——这是硬性规范,算是个「接头暗号」,随便起名字系统不会认。
全景回顾
一张表串起所有概念
| 概念 | 一句话解释 | 类比 |
|---|---|---|
| LLM | 基于 Transformer 的文字接龙引擎 | 会玩成语接龙的超级学霸 |
| Token | 模型处理文本的最小单位,由 Tokenizer 切分 | 食材切成的小块 |
| Context | 模型每次处理任务时接收的信息总和 | 餐厅里的点菜单 |
| Prompt | 给模型的指令,分 User / System 两种 | 跟 Tony 老师说的发型要求 |
| Tool | 让模型感知和影响外部世界的函数 | 隔音房间里的电话和窗户 |
| MCP | 统一工具接入格式的标准协议 | 所有设备通用的 Type-C |
| Agent | 能自主规划、调用工具、完成任务的系统 | 靠谱的私人助理 |
| Agent Skill | 给 Agent 的可复用说明文档 | 给助理写的《工作手册》 |
记住这条主线:
LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill
从底层智能到上层应用,一层一层,逐步构建。
理解了这些概念,你就看懂了 AI 圈子里的各种新产品、新技术。无论是 Claude Code、Codex、Cowork 还是 OpenClaw,它们本质上都在这个框架下运作。
AI 技术发展很快,新概念层出不穷,但万变不离其宗——理解了这 8 个核心概念,你就掌握了当前 AI 技术栈的主干。无论未来出现什么新概念,大概率都可以在这个框架里找到它的位置。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)