从一次词向量实验出发：关于AI能力边界的几个底层问题

怎么自学嵌入式啊。。。。。

392人浏览 · 2026-05-11 08:45:00

怎么自学嵌入式啊。。。。。 · 2026-05-11 08:45:00 发布

0. 前言

上上篇跑通了迷你Transformer，上篇用四个平台的开源词向量，对比了“程序员”在不同社区里的语义距离。数据出来了，结论也有了。

但跑完的那一刻，我心里冒出了一句不太甘心的话：搞错了。我一开始想做的，根本不是这个。

我想做的，是看“程序员”和“高薪”这两个词，在过去五年里，每年是更近了还是更远了。我想画一条带年份的折线图，横轴是时间，纵轴是余弦相似度，看那条线在2019年、2020年、2022年分别拐向哪里。这才是我从最开始就想验证的东西——不是“知乎和微博谁更焦虑”，而是“我们这个社会对程序员的想象，这几年到底发生了什么变化”。

结果呢？我跑了四个平台的横向对比，发现知乎确实比微博更焦虑，人民日报那列竟然没几个N/A，Mixed-large作为综合基准线表现得四平八稳。这些发现很有意思，但它不是我最初想回答的那个问题。

为什么会跑偏？因为中文互联网，没有现成的、按年份切分好的开源词向量。

这就是这篇文章想聊的事：数据和算力的阶级性，如何从一开始就框定了一个普通研究者能做到什么、做不到什么。以及，在这个限制下，那些把技术和社会观察杂交在一起的尝试，还有什么值得往下做的方向。

1. 语料的质量，决定AI的上限

很多人说国产AI不如国外的好用。问差在哪，说不上来。其实有个很直接的原因：英文AI吃的“菜”，就是比中文AI好。

英文互联网免费开放的高质量语料有很多。维基百科，几百万条经过反复审核的百科条目。Reddit，各种小众领域的深度讨论。Stack Overflow，程序员遇到任何问题都能找到详细解答。arXiv，几十万篇理工科论文。它们的共同点是：长文本、高质量、结构化、免费公开。

中文互联网的高质量语料在哪？一部分在知乎，但知乎很多回答是个人经验碎片，逻辑性和系统性不如英文社区。微信公众号内容质量不低，但是封闭的，很难被大规模爬取。百度百科的严谨性和覆盖面，和维基百科比还有差距。至于媲美Stack Overflow的中文技术社区、媲美arXiv的中文预印本平台，目前还没有。

这不是某个公司的问题。是中文互联网的内容质量和开放程度，整体上还有差距。

AI不是魔法。你喂给它的语料是什么样，它长出来就是什么样。这不是架构的问题——大家都用Transformer，都用了自注意力机制。这是数据的贫富差距。

2. 技术垄断下的“蒸馏”：普通人的天花板

说完了数据，再说算力。

现在训练一个千亿参数的大模型，成本是用“亿美元”来算的。一次训练的电费，可能抵得上一所普通大学全年的预算。从头训练一个顶尖大模型的能力，从一开始就掌握在极少数人手里。

普通人能干嘛？普通人只能站在巨人的肩膀上，做些力所能及的工作。比如蒸馏——把一个大模型里学会的知识，压缩进一个小模型里。不用从头训练，只需要用大模型的输出作为“教材”，让小型模型去学习。

听起来很美好，但问题是：蒸馏出来的模型，能力天花板是被大模型锁死的。它只是一个更轻量、更省算力的影子，不是一个新的太阳。

更麻烦的是，如果语料本身就被污染了——被偏见、被商业软文塞满了关键词——那么大模型的词向量映射关系，从一开始就是偏的。蒸馏到小模型里，只会更偏。技术一直在往前跑，但语料的质量，才是一切问题的源头。

我自己用的词向量数据，是高校开源项目提供的。他们也是大学，才有算力和资源去做这件事。如果这个项目哪天停更了，下一个想自己跑实验的人，可能就被卡住了。

3. 两条路：更精确的指令，还是更模糊的理解

数据和算力的差距，是已经存在的客观事实。在这个事实面前，AI行业正在往两个不同的方向分化。具体的产品名字记不太清了，但大致意思是：一条路，是让你学会更精确地提问；另一条路，是让AI自己去理解你那些模糊的、碎片化的、不完整的表达。

前者需要更干净、更结构化的数据。后者需要更庞大、更多样的语料。

这也是我很久之前就想过的一个问题：为什么每次生图或写东西，都要自己去学一套提示词的写法？为什么不能是我随便说几句，它就懂了？这两年有些工具已经在这方面进步很大，可能就是因为它们在模糊语义的理解上下了更多的功夫。

但不管走哪条路，都绕不开语料的问题。

4. 一些不算结尾的结尾

我做这件事的初衷很简单。就是想画一条线——横轴是年份，纵轴是语义距离，看“程序员”和“高薪”这几年到底是更近了还是更远了。结果这条线没画出来，因为中文互联网暂时没有现成的、按年份切分好的开源词向量。最后跑出来的，是四个平台的横向对比。数据挺有意思，但它不是我最初想回答的那个问题。

我觉得词向量这东西，不只是一堆冷冰冰的数字。它更像是某个特定时期、特定人群的集体潜意识的快照。你每一次按下Shift+Enter，它都在告诉你，有一群人是如何看待他们所处的这个世界的。它不是什么纯技术的产物，更像是一种技术和社会观察杂交出来的东西。

顺着这个想法往下走，我一直在想一件事：如果有一个足够大的、实时更新的语义数据库，再配上一套能算词与词之间距离和热度变化的算法，是不是就能做出一张“语义趋势图谱”？不是静态的词云，是动态的、能显示社会情绪温度和流向的地图。能看到某个概念正在被社会重新定义，能看到某种焦虑正在从一个小圈子往更广的人群里蔓延。我不知道这个东西具体该叫什么，也不知道谁能把它做出来。但如果有人看到了这个想法，愿意去试试，我会很高兴。

别老是抱怨国产AI不好用。如果你只会用最模糊的方式提问，换GPT来也救不了你。提问能力本身，也是使用AI的核心竞争力之一。