CTPN¶

模型介绍¶

CTPN(Connectionist Text Proposal Network)^[1]是目标检测算法Faster R-CNN 的改进算法，用于文字检测。CTPN根据文本区域的特点做了专门的优化：

CTPN采用的方法是将文本行分割成一个个小块（长度是固定的），然后去检测这些小块，最后使用一种文本行构造法将所有块连起来，如图1 所示。

图1 CTPN 序列特征

CTPN网络结构如图2 所示：

图2 CTPN网络结构示意图

整个检测分为5步：

1）准备数据集、并获取锚点anchor；

2）输入图片，经过backbone（用VGG16的前5个Conv stage，即Conv5），提取图片feature map。经过VGG16之后得到的特征图长宽是原图的1/16，通道是512。

3）在Conv5得到的feature map上再做卷积核大小为3，步长为1的卷积，进一步提取特征，用于预测当前卷积核所在位置k个anchor对应的类别信息、位置信息。其中，C表示通道数。

4）把每一行的所有窗口对应的3*3*C的特征输入到BiLSTM（双向LSTM）网络中，提取文字的序列特征，这时候得到的特征是图像特征和序列特征的融合。

5）将第三步得到的特征输入到FC全连接层，并将FC层特征输入两个分类或者回归层中。

CTPN任务1的输出是 $$ 2k $$ ，用于预测候选区域box的起始$$y$$坐标和高度$$h$$ ；任务2是用来对前景和背景两个任务的分类评分；任务3是 $$k$$个输出的side-refinement的偏移(offset)预测。

CTPN 的 loss 分为三部分：