AI 为什么会胡说八道?傻子可懂的 AI 大模型原理讲解
大家好,我是程序员鱼皮。
用 AI 编程这么久,你有没有好奇过,AI 到底是怎么听懂我们说的话的?它凭什么知道下一个词该写什么?为什么有时候能写出完美的代码,有时候又会一本正经地胡说八道?
这篇文章,我想用最通俗的方式带你把 AI 大模型背后的原理捋一遍,不需要数学基础、也不需要懂算法。
看完之后你再用 AI 编程,心里会更有底,也更知道该怎么跟它打交道。
1、AI 生成的本质
不管你是在跟 AI 聊天,还是在编辑器里让它帮你写代码,背后的事情其实出奇地简单,就是一个超大的模型在不停地 预测 下一个词。
你给它一段话,它会算出接下来最可能出现的词,接上去之后再接着预测下一个,就这么一个词一个词地往外蹦,直到拼出一整段完整的回答。
比如你输入「天空是」,AI 心里会算算下一个词的概率,蓝色的可能性最高,灰色次之,再往后还有美丽、无限之类的。
它会挑个概率高的接上,假设接了「蓝色」,再基于「天空是蓝色」继续预测下一个词。

这也是为什么 AI 的回答是一个字一个字冒出来的,因为它真的就是一个一个生成的。
那它凭什么知道「天空是」后面大概率跟「蓝色」呢?
答案是依靠训练。
AI 在训练阶段读过了互联网上的海量文字,「天空是蓝色的」这种说法见过无数次,自然就学会了这种语言规律。
想通这一点,很多现象你就都能理解了。AI 之所以会胡说八道,是因为它本质上只是在按概率猜词,并没有真的理解事实。你的提示词越清楚,它预测得就越准;需求越模糊,它越容易答非所问。
AI 能写代码,也是因为训练时啃过海量代码,摸清了代码的套路。
所以 AI 编程时,大家要多花几分钟把需求讲清楚、把相关文件附上,输出质量立马就上一个台阶。
2、AI 的大脑是怎么长的
AI 是靠什么来做这个预测的呢?
这就要提到一种叫 Transformer 的结构了。
它来自 2017 年 Google 的一篇论文,叫《Attention Is All You Need》,翻译过来就是「注意力就是你所需要的一切」。
现在你听过的那些主流大模型,从 ChatGPT、Claude 到 Gemini、DeepSeek、通义千问,几乎全都建立在这个结构之上。

你可以把 Transformer 理解成 AI 的大脑结构。在它出现之前,处理文字的模型有点像一个人看书只能从头一个字一个字往下读,读到后面很容易就忘了前面讲了啥。而 Transformer 的厉害之处在于,它能一眼看到整段话里的每一个词,还能判断哪些词之间的关系最重要,这个判断关系的本事就是 注意力机制,也是让大模型一下子变强的关键。
打个比方,你在书里读到「小明把苹果递给小红,她说谢谢」,如果有人问你这个「她」指的是谁,你会很自然地把注意力投到前面的小红身上,因为结合上下文,「她」和「小红」的关联最强。

AI 干的就是类似的事。对于输入里的每一个词,它都会去算这个词跟其他所有词的关联有多强,然后把更多注意力放在最相关的那些词上。而且它不止从一个角度看,还会同时从语法、语义、逻辑好几个维度去琢磨词和词的关系,理解得自然就更全面。
3、AI 怎么把文字变成数字
前面讲的预测下一个词也好、注意力也好,其实 AI 都不是直接在文字上做的,因为它压根看不懂文字,只认数字!
所以 AI 真正开工之前,得先把我们打进去的字翻译成数字。
第一步叫 分词,就是把一段话切成一个个小块,每个小块叫一个 Token。对于国外大模型,英文里一个 Token 差不多是一个单词或者半个单词,中文里一个汉字大概对应一到两个 Token,但是不绝对。
Token 太重要了,堪比新时代的话费流量。因为它是 AI 计费的基本单位,你跟 AI 每聊一句烧的都是 Token,说得越啰嗦花的钱越多。
我之前调 Bug 图省事,把一大段错误日志反复粘给 AI,白白浪费了不少额度,后来只截最关键的那几行发过去,效果一样好,还省钱。
切完词之后,每个 Token 会被转换成一串数字,这个过程叫 嵌入。它神奇的地方在于,意思相近的词转出来的数字也会很接近,比如猫和狗就离得近,猫和飞机就离得远。

AI 编程时,像 Cursor 这类工具会给项目里的代码建好索引,你一提问,它就能凭借语义把最相关的代码片段捞出来喂给 AI,这也是为什么 AI 能摸清你的项目、按实际情况来回答。
光有词义还不够,词的顺序也得管管,比如「我吃了饭」和「饭吃了我」用的字一样,意思却完全相反,所以模型还会额外给每个词标上位置信息。
4、一个 AI 是怎么练出来的
一个能跟你流畅聊天、帮你写代码的 AI,是怎么从零练出来的呢?
整个过程大致分三步,特别像培养一个人才,先读万卷书,再学怎么答题,最后不断地成长历练。

第一步是 预训练。模型会去啃互联网上的海量文字,网页、书籍、代码、论文什么都看。
学习方式简单粗暴,给它一段话遮住最后一个词让它猜,猜错了就调整参数,猜对了就加强,这么反复练上无数次,各种语言规律和知识就慢慢刻进了参数里。
这一步练出来的叫 基础模型,虽然有了一大堆知识,但还不太会好好说话,就像一个学生在图书馆里疯狂看书,看完满脑子东西,可你真问他一个具体问题,他可能东拉西扯组织不好语言。
而且这一步还特别烧钱,得用成千上万张顶级显卡跑上好几个月,所以也只有大公司玩得起。。。
第二步是 监督微调,目标是教会模型好好回答问题。
做法是请人准备大量高质量的问答范例,覆盖写代码、答疑、做总结等各种任务,然后让模型照着学。这有点像新员工入职培训,你本事再大,也得先有人给你做示范。
练完这一步,模型就从只会续写变成了会对话。
第三步是 人类对齐,目标是让模型说话更符合人类的价值观。光会回答还不行,它可能会蹦出一些有害的、不合适的内容,所以还要有人来告诉它什么样的回答是好的、什么样的是不好的,让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。
把训练这套流程想明白了,不少事儿也就解释得通了。
比如 AI 为啥不知道最近发生的新闻?
- 因为训练数据有截止时间。
AI 为啥不肯帮你做坏事?
- 因为经过了人类对齐这一关。
不同模型说话风格为啥不一样?
- 因为对齐时喂的偏好数据不同,调教出来的脾气自然就有差别。
5、参数越多就越聪明吗
前面我讲训练时一直在提「参数」,又是调参数,又是把知识刻进参数里。你肯定也听过千亿参数、万亿参数这种说法。
那参数到底是啥,是不是越多就越强?
简单来说,参数就是模型训练时学到的那些「知识数字」。一开始它们大多是随机的,训练时模型不停拿自己的预测和正确答案对比,再一点点把这些数字调准,练到最后,海量数据里的规律就被压缩进了这些参数里。
你可以把它想象成大脑里的神经连接,参数越多,能装下的知识和规律也就越丰富。
2020 年 OpenAI 发现了一个规律,模型的能力会随着参数量、数据量和算力的增加而稳定提升,而且这种提升有迹可循、能提前预估,这就是大名鼎鼎的 Scaling Law 缩放定律。两年后 DeepMind 又补了一条关键经验,光堆参数不行,数据量也得跟上,他们算出来大概每一个参数要配上 20 个 Token 的训练数据,效果才最划算。
不过随着参数越堆越多,又带来一个新麻烦。要是每次回答都动用全部参数,成本就高得离谱了。
于是工程师们想了个聪明的办法,干嘛非得每次都全员上阵呢,根据问题类型只叫醒 最相关的那一小部分 参数不就行了?
这就是现在很流行的 MoE 混合专家架构的思路。
你可以把它想象成一家大医院,里面有内科、外科、眼科几十个科室,但你来看病不用每个科室都跑一遍。挂号台会帮你分诊,去最对口的两三个科室就够了。

模型内部也养着一堆各有所长的「专家」,每个 Token 进来,先由一个路由器判断该交给哪几个专家,只有被选中的少数专家才会被激活。这样模型的总参数可以做得特别大,知识容量管够,但每次实际干活只用其中一小部分,速度快了、成本也下来了,这也是为什么有些模型既便宜又好用。
6、先思考再回答的 AI
你可能发现了,现在不少 AI 在回答难题时,会先「想一会儿」,把思考过程摊开来给你看,然后才给结论。这就是推理模型在发挥作用。
早期的模型接到问题就急着报答案,碰上复杂问题特别容易翻车。后来有人发现,要是让模型把中间的推理步骤一步步写出来,正确率能高一大截。
这就跟我们做数学题一样,直接写答案容易算错,列出步骤一步步推,正确的概率就高多了。这个技巧叫思维链,你不用做什么特殊设置,在提示词里加一句「请一步步思考」,效果往往就会更好。

后来这个能力被专门强化,国内外都推出了主打推理的模型,回答之前会先在内部盘算一番,对数学、代码、逻辑这类硬核任务效果特别好。一般想得越久答案越靠谱,但也不是越久越好,想过头了反而可能把自己绕进去,就像考试时一道题纠结太久越想越乱。
现在的趋势是让 AI 自己判断该想多深,简单问题秒回,难题才慢慢推。
我们在 AI 编程时,对于改个样式、加个注释这种小事,用普通模型就行,又快又便宜。但要是设计架构方案、排查一个诡异的 Bug,那就值得切到推理模型,哪怕慢一点贵一点,省下的返工时间远比多花的那点钱值。
7、能看图听声的 AI
早期的大模型只会处理文字,而现在的 AI 越来越全能了,不光能读文字,还能看图、听语音,甚至看懂视频,这种就叫多模态模型。
它的原理跟人脑有点像,我们能同时把看到的画面、听到的声音、读到的文字揉在一起理解,多模态模型也是把图片和文字都转换成它能算的数字,再放到一起处理。

这个能力在 AI 编程时还是很香的,我用得最多的就是截图调试。比如我想调整一个前端页面的样式,用文字跟 AI 描述半天它也没整明白我想要啥效果。干脆直接把页面截图甩给它,在截图上画画圈、标注一下,AI 立刻就懂了。
8、AI 不是万能的
讲了这么多 AI 的本事,也得说说它的短板。
AI 最常见的问题就是幻觉,意思是 AI 会一本正经地编造不存在的东西,比如瞎掰一个根本没有的函数、推荐一个不存在的库。

因为当 AI 对某个知识点没把握时,不会老老实实说「我不知道」,而是会顺着概率脑补一个看起来挺合理的答案。它做的始终是猜最可能的下一个词,而不是去查真实的事实。
此外,AI 还有几个毛病。
1)AI 的知识有截止时间,它不会知道训练数据之后才出现的新框架、新代码写法。所以 AI 编程时,先让 AI 联网搜一下最新文档再动手。
2)AI 模型有个「中间遗失」的现象,放在开头和结尾的信息它记得更牢,夹在中间的反而容易被忽略,就像让你一口气读完一本五百页的书,开头结尾印象深,中间的细节很容易糊成一团。所以上下文也不是塞得越多越好。
3)它每次的回答都带点随机性,同样的问题问两遍,答案可能不完全一样。所以需要根据任务调整 AI 的温度(Temperature)参数,用来控制随机性。
如果你想系统学习 AI 编程,可以看看我的免费开源教程 《Vibe Coding 零基础入门教程》,上千张图、几十万字,从 0 开始带你学会 AI 编程。

写在最后
OK 到这里,AI 大模型的核心原理基本就讲完了。从「预测下一个词」这个最朴素的机制,到 Transformer 和注意力让它读懂上下文,再到一步步训练出来、靠推理模型学会思考,相信大家对 AI 有了更深刻的认识。
把这些想明白,再回头用 AI 编程,很多技巧你自然都会注意了。你会明白为什么提示词要写清楚、为什么要给足上下文、什么时候该切推理模型、怎么用才更省钱。你不用成为 AI 专家,但有了这层底子,以后再冒出新模型、新工具,你也能很快看穿它的本质。
我是鱼皮,持续分享 AI 编程相关的干货,觉得有用的话记得点赞收藏关注一波~
也欢迎在评论区聊聊:还有哪些你想学习的 AI 知识?(征集素材哈哈哈)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)