OCR EAST: An Efficient and Accurate Scene Text Detector 自然场景下的文字识别算法详解

Michaelliu_dev

8880人浏览 · 2018-09-27 17:57:32

Michaelliu_dev · 2018-09-27 17:57:32 发布

最近研究OCR，有篇比较好的算法文章，《EAST: An Efficient and Accurate Scene Text Detector》，该文发表在2017年CVPR上。代码地址：https://github.com/argman/EAST ，这是原作者参与的一份tensorflow版本代码，网上还有其他的实现。

下面根据原文的结构和上述提供的代码详细的解读一下该算法

一、网络架构

文中使用了PVANet和VGG16，下图1是原文的网络结构图(PVANet)
网络输入一张图片，经过四个阶段的卷积层可以得到四张feature map，分别为 $f_{4},f_{3},f_{2},f_{1}$ ，它们相对于输入图片分别缩小 $\frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{32}$ ，之后使用上采样、concat(串联)、卷积操作依次得到 $h_{1},h_{2},h_{3},h_{4}$ ，在得到 $h_{4}$ 这个融合的feature map后，使用大小为 $3\times3$ 通道数为32的卷积核卷积得到最终的feature map。

文中对文本框的定义有两种，一种是旋转矩形(RBOX)，另一种是四边形(QUAD)。因为代码只实现了RBOX，所以下面也只对RBOX框进行分析

得到最终的feature map后，使用一个大小为 $1\times1$ 通道数为1的卷积核得到一张score map用 $F_{s}$ 表示。在feature map上使用一个大小为 $1\times1$ 通道数为4的卷积核得到text boxes，使用一个大小为 $1\times1$ 通道数为1的卷积核得到text rotation angle，这里text boxes和text rotation angle合起来称为geometry map用 $F_{g}$ 表示。

关于上述的 $F_{s},F_{g}$ 要说明几点(如下图2所示)：

$F_{s}$ 大小为原图的 $\frac{1}{4}$ 通道数为1，每个像素表示对应于原图中像素为文字的概率值，所以值在[0,1]范围内。
$F_{g}$ 大小也为原图的 $\frac{1}{4}$ 通道数为5，即4+1(text boxes + text rotation angle)。
text boxes通道数为4，其中text boxes每个像素如果对应原图中该像素为文字，四个通道分别表示该像素点到文本框的四条边的距离，范围定义为输入图像大小，如果输入图像为512，那范围就是[0,512]。下图2d表示
text rotation angle通道数为1，其中text rotation angle每个像素如果对应原图中该像素为文字，该像素所在框的倾斜角度，角度范围定义为[-45,45]度。下图2e表示

在这里插入图片描述

二、关于训练标签的生成

如上可知，训练标签由两个部分组成，一个是score map的标签，一个是geometry map标签。
注意：程序要求输入的四边形标定点是以顺时针方向标定的，这点很重要

1. score map标签的生成方法

首先生成一个与图片大小一样的矩阵，值都为0
根据标定好的四边形框对该四边形框进行缩小，缩小方法下面会详细说明，得到最终结果如上图2a中的绿框
将绿框中的像素赋值1表示正样本的score，其他为负样本的score
最后按照每隔4个像素采样，得到图片 $\frac{1}{4}$ 大小的score map

上述缩小四边形的方法：

首先定义四个顶点 $\{p_{i}|i \epsilon \{1, 2, 3, 4\}\}$ ，这四个顶点按照顺时针方向排列
计算缩小的参考大小如下式所示，下式表示的是选取与顶点相连的两条边中最小的边的大小记为 $r_{i}$
$r_{i}=min(D(p_{i},p_{(i\mod4)+1}),D(p_{i},p_{((i+2)\mod4)+1}))$
其中 $D(p_{i},p_{j})$ 表示点 $p_{i}$ 与 $p_{j}$ 之间的距离
对于边 $p_{i}, p_{(i mod 4)+1}$ ，缩小 $0.3r_{i}$ 与 $0.3r_{(i\mod4)+1}$ 的和的像素大小

2. geometry map标签的生成方法

首先生成一个与图片大小一样的5通道矩阵用来制作text boxes 与 text rotation angle
根据标定的四变形生成一个面积最小的平行四边形，进而得到平行四边形的外界旋转矩形
根据旋转矩形的四个点坐标，可以选择出y值最大的坐标顶点和该顶点逆时针方向的顶点(也可以称该顶点右边的顶点)，根据这两个点的连线可以求出连线与x轴的夹角，这个夹角取值在(0,90)度之间，称这个夹角为angle
当angle<45度时，定义y值最大的点为 $p_{3}$ 点，其它点按顺时针方向依次类推。当angle>45度时，定义y值最大的点为 $p_{2}$ 点，此时angle角变换为 $-(\pi/2 - angle)$ ，这样就保证了angle角度[-45,45]度
上述还有一种特殊情况要考虑，当y值最大的点有两个时，说明矩形与x轴平行，angle定义为0度，这时候将x与y坐标相加最小的点定义为 $p_{0}$ 点，其它点依次类推
根据得到的旋转矩形和angle值将geometry map的五个通道赋值，赋值方法为，对于text boxes的四个通道，每个通道表示图像中的像素点坐标到旋转矩形的四个边的距离顺序为，0通道表示点到 $p_{0}$ 与 $p_{1}$ 边的距离，1通道表示点到 $p_{1}$ 与 $p_{1}$ 边的距离，按照顺时针依次赋值四个通道，也分别称为到top、right、bottom、left边的距离，对于text rotation angle这一个通道，将旋转矩形中所有像素都赋值上述计算出的angle大小
最后得到的五个通道按照每隔4个像素采样，这样就可以得到图片 $\frac{1}{4}$ 大小的geometry map了

三、损失函数的定义

损失函数定义如下
$L_{s} + \lambda_{g}L_{g}$
其中 $L_{s}$ 和 $L_{g}$ 分别表示score map和geometry map的损失， $\lambda_{g}$ 表示两个损失的权重，文章设为1

1. score map的损失计算
这里要说明的是文章采用的是交叉熵计算该损失，但是程序实现没有采用，程序采用的是dice loss

$L_{s}=1-\frac{2y_{s}p_{s}}{y_{s}+p_{s}}$
其中 $y_{s}$ 代表位置敏感图像分割(position-sensitive segmentation)的label， $p_{s}$ 代表预测的分割值

2. geometry map的损失计算
采用IoU loss，计算方法如下
$L_{g} = L_{AABB} + \lambda_{\theta}L_{\theta}$
其中 $\lambda_{\theta}=10$

$L_{AABB}=-logIoU(\hat{R},R)=-log\frac{|\hat{R}\bigcap R^{*}|}{|{\hat{R}\bigcup R^{*}}|}$
其中， $\hat{R}$ 表示预测， $R^{*}$ 表示真实值
$|\hat{R}\bigcap R^{*}|=w_{i}*h_{i}$ 计算可以通过下述方法
$w_{i}=min(\hat{d_{2}}, d^{*}_{2})+min(\hat{d_{4}}, d^{*}_{4})$
$h_{i}=min(\hat{d_{1}}, d^{*}_{1})+min(\hat{d_{3}}, d^{*}_{3})$
其中 $d_{1},d_{2},d_{3},d_{4}$ 表示点到top、right、bottom、left边的距离。
$|{\hat{R}\bigcup R^{*}}|=|\hat{R}|+|R^{*}|-|\hat{R}\bigcap R^{*}|$
$L_{\theta}(\hat{\theta}, \theta^{*})=1-cos(\hat{\theta}-\theta^{*})$ ，其中 $\theta^{*}$ 表示预测值， $\hat{\theta}$ 表示真实值

最后文章还提出了Locality-Aware NMS，感觉就是先合并一次窗口，然后采用标准的NMS去抑制窗口，详细可以看代码实现，采用的是c++实现的

中文本定位与识别的评测方法

欢迎加入OCR交流群：785515057（此群已满）
欢迎加入OCR交流群2：826714963

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m