AI 为什么会胡说八道？傻子可懂的 AI 大模型原理讲解

程序员鱼皮

27人浏览 · 2026-06-18 16:54:03

程序员鱼皮 · 2026-06-18 16:54:03 发布

大家好，我是程序员鱼皮。

用 AI 编程这么久，你有没有好奇过，AI 到底是怎么听懂我们说的话的？它凭什么知道下一个词该写什么？为什么有时候能写出完美的代码，有时候又会一本正经地胡说八道？

这篇文章，我想用最通俗的方式带你把 AI 大模型背后的原理捋一遍，不需要数学基础、也不需要懂算法。

看完之后你再用 AI 编程，心里会更有底，也更知道该怎么跟它打交道。

1、AI 生成的本质

不管你是在跟 AI 聊天，还是在编辑器里让它帮你写代码，背后的事情其实出奇地简单，就是一个超大的模型在不停地预测下一个词。

你给它一段话，它会算出接下来最可能出现的词，接上去之后再接着预测下一个，就这么一个词一个词地往外蹦，直到拼出一整段完整的回答。

比如你输入「天空是」，AI 心里会算算下一个词的概率，蓝色的可能性最高，灰色次之，再往后还有美丽、无限之类的。

它会挑个概率高的接上，假设接了「蓝色」，再基于「天空是蓝色」继续预测下一个词。

下一个词预测

这也是为什么 AI 的回答是一个字一个字冒出来的，因为它真的就是一个一个生成的。

那它凭什么知道「天空是」后面大概率跟「蓝色」呢？

答案是依靠训练。

AI 在训练阶段读过了互联网上的海量文字，「天空是蓝色的」这种说法见过无数次，自然就学会了这种语言规律。

想通这一点，很多现象你就都能理解了。AI 之所以会胡说八道，是因为它本质上只是在按概率猜词，并没有真的理解事实。你的提示词越清楚，它预测得就越准；需求越模糊，它越容易答非所问。

AI 能写代码，也是因为训练时啃过海量代码，摸清了代码的套路。

所以 AI 编程时，大家要多花几分钟把需求讲清楚、把相关文件附上，输出质量立马就上一个台阶。

2、AI 的大脑是怎么长的

AI 是靠什么来做这个预测的呢？

这就要提到一种叫 Transformer 的结构了。

它来自 2017 年 Google 的一篇论文，叫《Attention Is All You Need》，翻译过来就是「注意力就是你所需要的一切」。

现在你听过的那些主流大模型，从 ChatGPT、Claude 到 Gemini、DeepSeek、通义千问，几乎全都建立在这个结构之上。

Transformer 架构

你可以把 Transformer 理解成 AI 的大脑结构。在它出现之前，处理文字的模型有点像一个人看书只能从头一个字一个字往下读，读到后面很容易就忘了前面讲了啥。而 Transformer 的厉害之处在于，它能一眼看到整段话里的每一个词，还能判断哪些词之间的关系最重要，这个判断关系的本事就是 注意力机制，也是让大模型一下子变强的关键。

打个比方，你在书里读到「小明把苹果递给小红，她说谢谢」，如果有人问你这个「她」指的是谁，你会很自然地把注意力投到前面的小红身上，因为结合上下文，「她」和「小红」的关联最强。

注意力机制

AI 干的就是类似的事。对于输入里的每一个词，它都会去算这个词跟其他所有词的关联有多强，然后把更多注意力放在最相关的那些词上。而且它不止从一个角度看，还会同时从语法、语义、逻辑好几个维度去琢磨词和词的关系，理解得自然就更全面。

3、AI 怎么把文字变成数字

前面讲的预测下一个词也好、注意力也好，其实 AI 都不是直接在文字上做的，因为它压根看不懂文字，只认数字！

所以 AI 真正开工之前，得先把我们打进去的字翻译成数字。

第一步叫分词，就是把一段话切成一个个小块，每个小块叫一个 Token。对于国外大模型，英文里一个 Token 差不多是一个单词或者半个单词，中文里一个汉字大概对应一到两个 Token，但是不绝对。

Token 太重要了，堪比新时代的话费流量。因为它是 AI 计费的基本单位，你跟 AI 每聊一句烧的都是 Token，说得越啰嗦花的钱越多。

我之前调 Bug 图省事，把一大段错误日志反复粘给 AI，白白浪费了不少额度，后来只截最关键的那几行发过去，效果一样好，还省钱。

切完词之后，每个 Token 会被转换成一串数字，这个过程叫嵌入。它神奇的地方在于，意思相近的词转出来的数字也会很接近，比如猫和狗就离得近，猫和飞机就离得远。

分词和嵌入

AI 编程时，像 Cursor 这类工具会给项目里的代码建好索引，你一提问，它就能凭借语义把最相关的代码片段捞出来喂给 AI，这也是为什么 AI 能摸清你的项目、按实际情况来回答。

光有词义还不够，词的顺序也得管管，比如「我吃了饭」和「饭吃了我」用的字一样，意思却完全相反，所以模型还会额外给每个词标上位置信息。

4、一个 AI 是怎么练出来的

一个能跟你流畅聊天、帮你写代码的 AI，是怎么从零练出来的呢？

整个过程大致分三步，特别像培养一个人才，先读万卷书，再学怎么答题，最后不断地成长历练。

训练三阶段

第一步是 预训练。模型会去啃互联网上的海量文字，网页、书籍、代码、论文什么都看。

学习方式简单粗暴，给它一段话遮住最后一个词让它猜，猜错了就调整参数，猜对了就加强，这么反复练上无数次，各种语言规律和知识就慢慢刻进了参数里。

这一步练出来的叫 基础模型，虽然有了一大堆知识，但还不太会好好说话，就像一个学生在图书馆里疯狂看书，看完满脑子东西，可你真问他一个具体问题，他可能东拉西扯组织不好语言。

而且这一步还特别烧钱，得用成千上万张顶级显卡跑上好几个月，所以也只有大公司玩得起。。。

第二步是 监督微调，目标是教会模型好好回答问题。

做法是请人准备大量高质量的问答范例，覆盖写代码、答疑、做总结等各种任务，然后让模型照着学。这有点像新员工入职培训，你本事再大，也得先有人给你做示范。

练完这一步，模型就从只会续写变成了会对话。

第三步是 人类对齐，目标是让模型说话更符合人类的价值观。光会回答还不行，它可能会蹦出一些有害的、不合适的内容，所以还要有人来告诉它什么样的回答是好的、什么样的是不好的，让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。

把训练这套流程想明白了，不少事儿也就解释得通了。

比如 AI 为啥不知道最近发生的新闻？

因为训练数据有截止时间。

AI 为啥不肯帮你做坏事？

因为经过了人类对齐这一关。

不同模型说话风格为啥不一样？

因为对齐时喂的偏好数据不同，调教出来的脾气自然就有差别。

5、参数越多就越聪明吗

前面我讲训练时一直在提「参数」，又是调参数，又是把知识刻进参数里。你肯定也听过千亿参数、万亿参数这种说法。

那参数到底是啥，是不是越多就越强？

简单来说，参数就是模型训练时学到的那些「知识数字」。一开始它们大多是随机的，训练时模型不停拿自己的预测和正确答案对比，再一点点把这些数字调准，练到最后，海量数据里的规律就被压缩进了这些参数里。

你可以把它想象成大脑里的神经连接，参数越多，能装下的知识和规律也就越丰富。

2020 年 OpenAI 发现了一个规律，模型的能力会随着参数量、数据量和算力的增加而稳定提升，而且这种提升有迹可循、能提前预估，这就是大名鼎鼎的 Scaling Law 缩放定律。两年后 DeepMind 又补了一条关键经验，光堆参数不行，数据量也得跟上，他们算出来大概每一个参数要配上 20 个 Token 的训练数据，效果才最划算。

不过随着参数越堆越多，又带来一个新麻烦。要是每次回答都动用全部参数，成本就高得离谱了。

于是工程师们想了个聪明的办法，干嘛非得每次都全员上阵呢，根据问题类型只叫醒 最相关的那一小部分 参数不就行了？

这就是现在很流行的 MoE 混合专家架构的思路。

你可以把它想象成一家大医院，里面有内科、外科、眼科几十个科室，但你来看病不用每个科室都跑一遍。挂号台会帮你分诊，去最对口的两三个科室就够了。

MoE 混合专家

模型内部也养着一堆各有所长的「专家」，每个 Token 进来，先由一个路由器判断该交给哪几个专家，只有被选中的少数专家才会被激活。这样模型的总参数可以做得特别大，知识容量管够，但每次实际干活只用其中一小部分，速度快了、成本也下来了，这也是为什么有些模型既便宜又好用。

6、先思考再回答的 AI

你可能发现了，现在不少 AI 在回答难题时，会先「想一会儿」，把思考过程摊开来给你看，然后才给结论。这就是推理模型在发挥作用。

早期的模型接到问题就急着报答案，碰上复杂问题特别容易翻车。后来有人发现，要是让模型把中间的推理步骤一步步写出来，正确率能高一大截。

这就跟我们做数学题一样，直接写答案容易算错，列出步骤一步步推，正确的概率就高多了。这个技巧叫思维链，你不用做什么特殊设置，在提示词里加一句「请一步步思考」，效果往往就会更好。

推理模型思维链

后来这个能力被专门强化，国内外都推出了主打推理的模型，回答之前会先在内部盘算一番，对数学、代码、逻辑这类硬核任务效果特别好。一般想得越久答案越靠谱，但也不是越久越好，想过头了反而可能把自己绕进去，就像考试时一道题纠结太久越想越乱。

现在的趋势是让 AI 自己判断该想多深，简单问题秒回，难题才慢慢推。

我们在 AI 编程时，对于改个样式、加个注释这种小事，用普通模型就行，又快又便宜。但要是设计架构方案、排查一个诡异的 Bug，那就值得切到推理模型，哪怕慢一点贵一点，省下的返工时间远比多花的那点钱值。

7、能看图听声的 AI

早期的大模型只会处理文字，而现在的 AI 越来越全能了，不光能读文字，还能看图、听语音，甚至看懂视频，这种就叫多模态模型。

它的原理跟人脑有点像，我们能同时把看到的画面、听到的声音、读到的文字揉在一起理解，多模态模型也是把图片和文字都转换成它能算的数字，再放到一起处理。

多模态模型

这个能力在 AI 编程时还是很香的，我用得最多的就是截图调试。比如我想调整一个前端页面的样式，用文字跟 AI 描述半天它也没整明白我想要啥效果。干脆直接把页面截图甩给它，在截图上画画圈、标注一下，AI 立刻就懂了。

8、AI 不是万能的

讲了这么多 AI 的本事，也得说说它的短板。

AI 最常见的问题就是幻觉，意思是 AI 会一本正经地编造不存在的东西，比如瞎掰一个根本没有的函数、推荐一个不存在的库。

AI 幻觉

因为当 AI 对某个知识点没把握时，不会老老实实说「我不知道」，而是会顺着概率脑补一个看起来挺合理的答案。它做的始终是猜最可能的下一个词，而不是去查真实的事实。

此外，AI 还有几个毛病。

1）AI 的知识有截止时间，它不会知道训练数据之后才出现的新框架、新代码写法。所以 AI 编程时，先让 AI 联网搜一下最新文档再动手。

2）AI 模型有个「中间遗失」的现象，放在开头和结尾的信息它记得更牢，夹在中间的反而容易被忽略，就像让你一口气读完一本五百页的书，开头结尾印象深，中间的细节很容易糊成一团。所以上下文也不是塞得越多越好。

3）它每次的回答都带点随机性，同样的问题问两遍，答案可能不完全一样。所以需要根据任务调整 AI 的温度（Temperature）参数，用来控制随机性。

如果你想系统学习 AI 编程，可以看看我的免费开源教程《Vibe Coding 零基础入门教程》，上千张图、几十万字，从 0 开始带你学会 AI 编程。

开源指路：https://github.com/liyupi/ai-guide

写在最后

OK 到这里，AI 大模型的核心原理基本就讲完了。从「预测下一个词」这个最朴素的机制，到 Transformer 和注意力让它读懂上下文，再到一步步训练出来、靠推理模型学会思考，相信大家对 AI 有了更深刻的认识。

把这些想明白，再回头用 AI 编程，很多技巧你自然都会注意了。你会明白为什么提示词要写清楚、为什么要给足上下文、什么时候该切推理模型、怎么用才更省钱。你不用成为 AI 专家，但有了这层底子，以后再冒出新模型、新工具，你也能很快看穿它的本质。

我是鱼皮，持续分享 AI 编程相关的干货，觉得有用的话记得点赞收藏关注一波~

也欢迎在评论区聊聊：还有哪些你想学习的 AI 知识？（征集素材哈哈哈）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

NNLM、Word2Vec（CBOW、Skip-gram）与 BERT：神经网络语言模型的演进与对比

本文系统梳理了语言模型的演进历程：从2003年NNLM首次用神经网络替代统计模型，到2013年Word2Vec通过简化架构实现效率突破（CBOW聚合上下文预测中心词，Skip-gram中心词预测上下文），再到2018年BERT采用深层Transformer实现动态语境建模。模型发展呈现从静态词向量到动态上下文表示、从局部窗口到全局双向理解的趋势。不同模型在计算效率、语义捕捉、一词多义处理等方面各具