自从大模型火了之后,我们经常看见这几个词:“生成式AI”、“语言模型”、“大语言模型(LLM)”。很多时候,我们常常把这三个词混淆。实际上,这几个词既有联系又有区别。

一、什么是“生成式模型”

以前的人工智能,更多说的是“判别式模型”。比如上传一张照片给模型,它会判断“这是一只猫”还是“这是一只狗”。这种模型叫“判别式模型”,它关心的是分类的结果。

而生成式模型,顾名思义,他做的事情是“凭空造出什么”。它通过学习海量的数据,掌握了这些数据背后的潜在规律。模型学成之后,它可以根据这些规律,从零开始生成一张新的图片,这张图片在现实中并不存在,但看起来却非常真实。

不管是生成全新的文字、图片、还是视频和音乐,只要是“无中生有”的新东西,利用的都是生成式模型。

圈内代表作有什么?

  • GAN(生成对抗网络):它的原理是利用一个生成器和一个判别器相互博弈,在对抗中共同进步。前几年非常火的“AI换脸(Deepfake)”,还有些网站上看起来极为逼真的“不存在的人脸”,基本都是基于这项技术。
  • 变分自编码器:它的原理是学习将数据压缩成“潜在特征”,再从特征还原回来。主要用于生成近似图像和异常检测等。
  • 扩散模型(Diffusion Models):它的原理是学习“如何把一张清晰的图片上的噪声一步步去除,最终还原回清晰图片”的过程。图像界很好用的 Midjourney、开源界的扛把子 Stable Diffusion,底层全靠它。
  • 基于注意力的模型:它的原理是 Transformer 架构,通过“自注意力机制”捕捉数据内部的长期依赖关系。大名鼎鼎的大语言模型 (如ChatGPT)就是基于这种结构。

二、什么是“语言模型”

语言模型的核心工作目标极其简单粗暴:根据上一段话,预测下一个字/词最有可能是什么。

它就像一个玩“文字接龙”的高级玩家。你给个上半句:“白日依山尽”,它就会根据之前的上下文内容,推测接下来第一个字可能性最高的字是“黄”,接着往下算是“河”,以此类推。这就叫语言模型。

如果在训练模型的时候,喂给它的数据中小说、维基百科和灌水论坛帖子足够多,这个语言模型的预测能力就越强。

圈内代表作有什么?

  • RNN/LSTM等早期模型:早些年我们用过的机器翻译,或者是稍显智障的早期手机语音助手,基本都是这种模型。
  • BERT:谷歌当年的王炸。但它有点像完形的填空高手,更擅长“理解”文本(比如判断一句话是夸人还是骂人),但它不擅长连篇累牍地向外“写”长文。

三、生成式模型和语言模型是同一回事吗?

这是很多人最容易搞混的地方。其实它俩并不是包含于被包含的关系,而是像两个交叠的圆圈(你可以脑补一个韦恩图),既有自己独占的地盘,也有重合的领域。

  • 是生成式,但不是语言模型: 这个很好理解。前面提到的画图神器 Midjourney,它可以生成绝美的图片,但它不负责跟你长篇大论地用文字谈心。做视频的 Sora 也是同理,它们都在处理视觉视觉,跟语言没啥关系。
  • 是语言模型,但不是生成式: 比如前面提过的 BERT,它是用来处理自然语言的,但它极少用来生成一长段全新的话,大家当时主要拿它去做搜索引擎的结果排序、或者判断淘宝评论是好评还是差评。
  • 生成式语言模型: 这部分就是有交叠的部分。当一个语言模型,从只能做阅读理解,进化到了可以根据你的提示词,像人一样流畅地写作文、写代码、讲笑话时,它就是两者的结晶。它既处理语言,又负责生成。

这就是目前改变我们生活和工作方式的核心引擎。

四、它们和“大语言模型(LLM)”的关系

其实,大语言模型(Large Language Model,简称 LLM),就是咱们前面刚说的那个“黄金地带(生成式语言模型)”中,一个超级大的版本。

为什么要强行加个“大(Large)”字?因为真的是大得出奇。以前的模型参数可能就几百几千万(相当于模型大脑里神经元的连接点),而现在的 LLM 动辄几百亿、数千亿甚至上万亿参数。它们在出厂前,几乎把人类互联网上所有能找到的文字、代码都给“吃”进了肚子里。

奇迹也发生在这个“大”字上。业界有个词叫“涌现能力(Emergent Abilities)”。简单说就是量变引起了质变。当这个玩文字接龙的游戏规模大到一定极端的程度后,它突然就不再只是干巴巴地统计下一个词哪个概率高了,它好像突然“开悟”了。它能听懂你的弦外之音,能做复杂的逻辑推演,甚至能陪你探讨人生哲学。虽然最底层的原理依旧是概率计算和文字接龙,但表现出来的惊艳效果,已经让我们觉得它充满了智慧。

圈内代表作有谁?
这个大家肯定耳熟能详了:目前最顶级的 OpenAI 的 GPT-4、Anthropic 的 Claude 3.5,Meta 开源的 Llama 3,以及国内的通义千问、Kimi、文心一言等等。这些全都是大语言模型。


最后,我们用一句话做个总结:

生成式模型决定了AI能不能“无中生有”搞创作;语言模型决定了AI懂不懂人类的“语言规律”;而当你把它俩强强联合,再喂给它全人类几十兆的数据和恐怖的算力,把它生生撑成一个巨无霸,**大语言模型(LLM)**就降生了。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐