SentencePiece的中文测试实践

sparkexpert

4901人浏览 · 2019-07-05 17:10:15

sparkexpert · 2019-07-05 17:10:15 发布

许多自然语言处理程序中都用到了谷歌开源的SentencePiece作为词切分的基础工作之一，于是跟踪学习了下。

1、基本介绍

What is SentencePiece?

SentencePiece is a re-implementation of sub-word units, an effective way to alleviate the open vocabulary problems in neural machine translation. SentencePiece supports two segmentation algorithms, byte-pair-encoding (BPE) [Sennrich et al.] and unigram language model [Kudo.]. Here are the high level differences from other implementations.

从上面的介绍可以看出，这是一种词切分技术，可为NMT翻译提供重要支撑。里面提供了两种切词算法，BPE和unigram词模型。

2、安装

安装在官网上提供了两种，一种是python包，另外一种是c++，由于官网只提供英语和日本语的处理，而为了实现中文处理，需要安装C＋＋版本。

安装步骤如下所示，不过由于只需要用到spm_train，因此不需要make install.

% cd /path/to/sentencepiece
% mkdir build
% cd build
% cmake ..
% make -j $(nproc)
% sudo make install
% sudo ldconfig -v

安装效果图如下所示：

3、分词训练

以某部小说的TXT作为导入开始训练，其训练语句如下所示：

ndscai@ndscaigpu01:~/downloads/201907/sentencepiece-master/build/src$ ./spm_train --input=./bingwang.txt --model_prefix=/home/ndscai/downloads/201907/bw

训练完成后，利用python进行调用，其结果呈现如下：

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

java集合或对象转化为json数组或者对象的方法

JSON-lib这个Java类包用于把bean,map和XML转换成JSON并能够把JSON转回成bean和DynaBean。下载地址:http://json-lib.sourceforge.net/还要需要的第3方包:org.apache.commons(3.2以上版本)org.apache.oronet.sf.ezmorph(ezmorph-1.0.4.jar)nu

GitCode 开源社区

SDL Trados 2019 和 SDL Trados 2021 最新版本的下载地址 (2021年七月更新)

SDL Trados 2019 和 SDL Trados 2021 最新版本的下载地址SDL Trados 2019 CU 8 fix GS and Language Cloud 相关网络问题，正常使用没有必要更新下载地址:https://update.sdl.com/updates/update1/studio15/live/SDLTradosStudio2019_SR2_15.2.8.3007

GitCode 开源社区

Struts.xml配置返回JSON数据

网易编辑器的代码编辑功能不怎么样唉~！测试struts.xml中result参数的不同返回不同的json数据目的是为了比较result中type不同和result中参数的不同所产生的效果如果查询的是所有的数据，在action中定义的类型如下：private List entities;public List getEntities() {return entities;}1．第一种：在xml文件