基于bert的中文语义匹配模型,判断两句话是不是同一个意思

bert

TensorFlow code and pre-trained models for BERT

项目地址：https://gitcode.com/gh_mirrors/be/bert

免费下载资源

datayx

5400人浏览 · 2019-07-28 19:57:51

datayx · 2019-07-28 19:57:51 发布

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

日趋增多的网络信息使用户很难迅速从搜索引擎返回的大量信息中找到所需内容。自动问答系统为人们提供了以自然语言提问的交流方式，为用户直接返回所需的答案而不是相关的网页，具有方便、快捷、高效等特点。

本文的核心是句子相似度的计算，可以使用TF-IDF和word2vec两种方法对问句进行向量化，并在此基础上使用进行句子相似度的计算。

也可以利用深度学习模型做句子配对，即给定用户描述的两句话，用算法来判断是否表示了相同的语义。若语义相同则判断为1，不相同则为0.

了解更多

https://blog.csdn.net/fkyyly/article/details/86016703

640?wx_fmt=png

如果能够找到相应的问题，就可以直接将问题所对应的答案返回给用户，而不需要经过问题理解、信息检索、答案抽取等许多复杂的处理过程，提高了效率。FAQ(Frequently Asked Questions)系统在根据用户问题建立候选问题集的基础上，建立常问问题集的倒排索引，提高了系统的检索效率，同时，与传统的基于关键词的方法相比，用基于语义的方法计算相似度提高了问题的匹配精度。

FAQ问答系统是一种已有的“问题-答案”对集合中找到与用户提问相匹配的问句，并将其对应的答案返回给用户的问答式检索系统。由于FAQ问答系统免去了重新组织答案的过程，可以提高系统的效率，还可以提高答案的准确性。这其中要解决的一个关键问题是用户问句与“问题-答案”对集合中问句的相似度比较，并把最佳结果返回给用户。

利用预训练的中文模型实现基于bert的语义匹配模型

数据集为LCQMC官方数据、代码下载地址

关注微信公众号 datayx 然后回复文本相似即可获取。

AI项目体验地址 https://loveai.tech

训练脚本 train.sh

批量测试脚本 predict.sh

利用模型进行单条语句测试 intent.py

chinese_L-12_H-768_A-12为预训练的相关模型和词典

下载地址

https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

下载后解压，放在项目根目录

data文件夹中为训练语料，验证语料，测试语料数据集为LCQMC官方数据

参数说明：max_seq_length sentence的最大长度（字） train_batch_size batch_size的大小

max_seq_length = 50

eval_accuracy = 0.87207

test_accuracy = 0.86272

max_seq_length = 40

eval_accuracy = 0.88093615

test_accuracy = 0.86256

训练过程

640?wx_fmt=png

阅读过本文的人还看了以下：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

640?wx_fmt=jpeg

长按图片，识别二维码，点关注

AI项目体验

https://loveai.tech

640?wx_fmt=png

GitHub 加速计划 / be / bert

37.6 K

9.55 K

下载

TensorFlow code and pre-trained models for BERT

最近提交(Master分支：1 个月前 )

eedf5716 Add links to 24 smaller BERT models. 4 年前

8028c045 - 4 年前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m