BERT

BERT 代表 Transformers 的双向编码器表示。它是 Google 开发的预训练语言模型,于 2018 年 10 月推出。它基于 Transformer 架构。(如果您读到这里,您就会知道我做了什么。)

Devlin、Ming-Wei、Lee 和 Toutanova 的论文摘要题为“BERT:用于语言理解的深度双向 Transformer 的预训练”,内容如下:

“我们引入了一种新的语言表示模型,称为 BERT,代表来自 Transformers 的双向编码器表示。与最近的语言表示模型不同, BERT 旨在通过联合调节所有层的左右上下文来预训练来自未标记文本的深度双向表示。因此, 只需一个额外的输出层即可对预训练的 BERT 模型进行微调,以创建用于各种任务(例如问答和语言推理)的最先进的模型,而无需对特定于任务的架构进行大量修改。”(Devlin、Ming-Wei、Lee 和 Toutanova,2018 年)。

图片来源:Devlin, Ming-Wei, Lee & Toutanova,2018 年

需要注意两点:(1)BERT 是双向的,也就是说它可以同时从左向右移动。(2)回答问题和语言推理是它的主要任务。

BERT 的一些应用包括ClinicalBERT 和 BioBERT

GPT

GPT 代表生成式预训练 Transformer。它指的是 OpenAI 创建的大型语言模型 (LLM) 系列,以生成类似人类的文本的能力而闻名。GPT模型可以创建新的文本内容,如诗歌、代码、脚本、音乐作品等。它们经过预先训练,并在其核心架构中使用 Transformer 模型。

再说一遍,你看到我做了什么吗?

Radford、Narasimhan、Salimans 和 Sutskever 在发布 GPT 的论文《通过生成式预训练提高语言理解能力》中摘要道:

“自然语言理解包括多种多样的任务,例如文本蕴涵、问答、语义相似性评估和文档分类。尽管大量未标记的文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过判别性训练的模型难以充分发挥作用。我们证明,通过在多样化的未标记文本语料库上对语言模型进行生成性预训练,然后对每个特定任务进行判别性微调,可以在这些任务上实现巨大收益。”(Radford、Narasimhan、Salimans 和 Sutskever,2016 年)。

图片来源:Radford、Narasimhan、Salimans 和 Sutskever,2016 年

需要注意两点:(1)GPT 主要具有生成性。(2)GPT 是单向的。

GPT 已经历了多次迭代,其中 GPT-4o是最新、最先进的。

BERT 和 GPT 之间的主要区别

首先,让我们注意一下BERT 和 GPT 之间的主要相似之处

  1. 两者都基于 Transformer 架构。
  2. 两者都是来自大量文本的预训练模型。
  3. 两者均针对各种功能进行了微调。

   AI科技智库👉️👉️👉️www.aigchouse.com,一站式AI工具、资料、课程资源学习平台,每日持续更新。通过分享最新AI工具、AI资源等,帮助更多人了解使用AI,提升工作和学习效率。这里有海量AI工具整合包、AI学习资料、AI免费课程和AI咨询服务,AI之路不迷路,2024我们一起变强。

GitHub 加速计划 / be / bert
8
2
下载
TensorFlow code and pre-trained models for BERT
最近提交(Master分支:3 个月前 )
eedf5716 Add links to 24 smaller BERT models. 4 年前
8028c045 - 4 年前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐