使用BERT来进行作文自动评分：多规模文本表示的联合学习

bert

TensorFlow code and pre-trained models for BERT

项目地址：https://gitcode.com/gh_mirrors/be/bert

免费下载资源

沐兮Krystal

2601人浏览 · 2022-11-08 20:10:47

沐兮Krystal · 2022-11-08 20:10:47 发布

摘要

在AES领域，预训练的语言模型没有被很适合地应用，来超过比如LSTM之类的深度学习方法。
本文介绍了一个新的基于BERT的多规模的文本表示模型，它能够被联合学习。我们也应用了多损失和来自其他领域文章的迁移学习来进一步提升性能。
本文的方法在ASAP数据集上取得了state-of-the-art的结果，并且提出的多规模文本表示在CRP数据集上的泛化结果也很好。

研究动机

当老师对一篇文章进行打分时，分数会受到多粒度级别的信号的影响，比如词级、句级和段落级等。
本文主要贡献如下：

方法

任务公式

AES任务被定义如下：
给出一个有 $n$ 个词的文本，我们需要输出一个分数 $y$ 作为衡量这篇文章等级的结果。QWK指标通常被用来评估AES系统，它衡量了两个打分者之间的认同度。

多规模文本表示

我们从三个规模获得多规模的文本表示：token规模，分段规模（segment）和文档规模。
Token规模和文档规模的输入：应用了一个预训练的BERT模型来得到token-scale和document-scale的文本表示。BERT标注器被用来将一篇文章分割成token序列 $T_1=[t_1,t_2,......,t_n]$ ，token都指的是词片（WordPiece），它是由BERT使用的一个子词标注算法来获得的。我们从序列 $T_1$ 构建了一个新的序列 $T_2$ ：

最终的输入表示是以下3个嵌入的和：token嵌入，segmentation嵌入，position嵌入。
Token级别和文档级别的表示：
分段级别的表示：

模型整体架构

在这里插入图片描述

损失函数

一个老师在打分时，考虑到所有学生的整体水平的分布。根据这一直觉，本文引入 SIM 损失到 AES 任务中。
在每个训练步骤中，我们将batch中的文章被预测的分数作为一个预测向量 $y$ ，SIM 损失奖励相似的向量对，来使得模型考虑到文章batch之间的相互关系。
MR度量了batch中每个文章对的排序顺序。我们直觉上引入MR损失，因为文章之间的排序属性是一个打分的关键因素。
对于文章的每个batch，我们首先枚举了所有的文章对，之后计算MR向下面这样计算MR损失，ME损失尝试使得模型惩罚错误的顺序。

GitHub 加速计划 / be / bert

16

2

下载

TensorFlow code and pre-trained models for BERT

最近提交(Master分支：4 个月前 )

eedf5716 Add links to 24 smaller BERT models. 5 年前

8028c045 - 5 年前

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

用 Rust 打造二维码艺术大师：从想法到实现

AtomGit开源社区

cover

手把手教你用Rust实现一个现代化的命令行十六进制查看器

AtomGit开源社区

cover

Rust 实战项目：TODO 管理器

AtomGit开源社区

所有评论(0)

查看更多评论

沐兮Krystal

已为社区贡献1条内容