摘要:在此解决方案中把表格辨认分成了四个部分:表格结构序列辨认、文字检测、文字辨认、单元格和文字框对齐。其间表格结构序列辨认用到的模型是依据Master修正的,文字检测模型用到的是PSENet,文字辨认用到的是Master模型。
本文分享自华为云社区《论文解读二十八:表格辨认模型TableMaster》,作者: cver。
1. 概述
在表格辨认中,模型一般先回归出单元格的坐标,然后再依据单元格的坐标得到表格的行列信息。关于有表格线的场景,模型能够比较精确地获取单元格坐标,然后能够使用单元格坐标后处理得到行列信息。关于无表格线情况,通常难以直接得到单元格方位或表格线信息,这时通常需要使用模型练习的方法获取文字块的空间布局。例如在图模型中,常见的辨认流程是先由OCR模型获取文字框的坐标和文字内容,然后结合视觉、方位、语义等多模态信息,并使用图网络来猜测文字节点的行列属性,然后恢复出表格的结构。
在安全科技最新发布的表格辨认模型TableMaster中,提出了别的一种解决思路,即同时练习得到单元格内的文字块方位和表格结构。这儿涉及到表格的另一种表达形式,这种形式在网页中经常被用到,也即用超文本符号语言来界说表格(如图1)。
图1 表格的超文本符号符和对应的表格
依据超文本符号语言的语法规矩,表格是由
标签来界说,每个表格均有若干行(由 标签界说),每行被分割为若干单元格(由 ,一个表明空单元格,一个表明非空单元格。符号符中有
、、、等表明表格开端和行的符号符以及空单元格的符号符。这些符号符没有对应的文字块坐标。因此符号符序列长度比实践的单元格序列长。为了使得单元格序列和符号符序列相同长,在单元格序列中,对应于、、、符号的方位会填充为0。而这些方位的坐标在回归单元格坐标时不用于参数的更新,会被一个Mask过滤掉。下图展现了TableMaster辨认的表格结构序列和单元格坐标:
图6 TableMaster猜测的成果。(a)原图;(b)猜测的文字框;(c)猜测的表格结构序列
2.2.3文字框定位和辨认
在文字检测和辨认阶段用到的文字检测模型为经典的PSENet[3]。文字辨认用到的模型便是上文提到的Master。使用PSENet+Master模型组合,文字端到端的辨认精度能够到达0.9885。
2.2.4 复原完整的html
TableMaster网络输出的表格结构序列并不是终究的html序列。为了得到表格终究的html序列还需要在表格结构符号符中填充对应的文字内容,其流程如下:
图7 由辨认成果到终究的html序列。(a)流程图;(b)终究的html序列;(c)html序列可视化
其间重要的一步便是单元格的匹配:依据单元格坐标和文字框坐标,把文字框坐标和单元格坐标进行对齐,然后就能够把对应文字框的辨认内容填充到对应单元格的符号符序列中,然后得到终究的html文本。文字框的对齐主要依据三个规矩:1、中心点规矩,如果文字框的中心点在单元格框内,则把文字框相应的文字内容填充到对应的
中;2、IOU规矩,在第一点不满足的情况下,核算和文字框具有最大IOU的单元格框作为匹配项;3、间隔原则,如果以上两点都不满足,则核算一切单元格和文字框的间隔,选取间隔最小的单元格框作为匹配项。通过序列化模型来进行表格结构的复原是一种有用的表格结构辨认方法,相似的还有百度的RARE。和TableMaster不同的是,RARE把TableMaster中的Transformer换成了GRU。别的,该方法只使用了图画的视觉信息,后续工作中能够结合多模态特征得到更好作用。
文献引证
[1] Jiaquan Ye , Xianbiao Qi , Yelin He , Yihao Chen , DengyiGu , Peng Gao , and Rong Xiao. PingAn-VCGroup’s Solution for ICDAR 2021Competition on Scientific Literature Parsing Task B: Table Recognition to HTML.arXiv:2105.01848, 2021.
[2] Ning Lu, Wenwen Yu, Xianbiao Qi, Yihao Chen, Ping Gong,Rong Xiao, and Xiang Bai. Master: Multi-aspect non-local network for scene textrecognition. Pattern Recognition, 2021.
[3]Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, GangYu, and Shuai Shao. Shape robust text detection with progressive scaleexpansion network. In Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition, pages 9336–9345, 2019.
点击重视,第一时间了解华为云新鲜技术~
标签界说)。从图1能够看出,一个表格被表明成了一段文本字符序列,这样就能够用序列化的模型(seq2seq或transformer)来进行表格结构猜测。
2.TableMaster2.1 表格结构辨认流程TableMaster选用多任务的学习模式,它有两个分支,一个分支进行表格结构序列猜测,一个分支进行单元格方位回归。在TableMaster辨认完毕后,辨认成果通过后处理匹配算法,融合表格结构序列和单元格文本内容,得到表格终究的html(如图2)。
图2 TableMaster表格辨认流程 2.2 TableMaster原理2.2.1 网络架构TableMaster依据Master[2]模型进行了修正。Master是安全自研的文本辨认模型,其网络结构分为编码和解码两个部分。编码的网络结构借鉴ResNet的残差衔接结构。和ResNet不同的是,Master的编码网络在每一个残差衔接块之后接了一个多头通道注意力模块(Multi-Aspect GCAttention):
其间h是多头注意力的个数。 编码阶段是整个Master网络的关键,其把一张图片转换成序列,使得能够用Transformer进行解码。在编码阶段输入的图片维度为:48*160*1,输出的维度为6*40*512,其间512便是模型的序列长度。编码阶段输出的序列特征再通过方位编码,输入到解码阶段。解码部分是由三个惯例的Transformer 解码层组成(如图3)。
图3 Master模型结构,图片来历[2] TableMaster特征提取模型也即编码结构和Master共同,和Master结构不同的地方在解码部分。TableMaster的解码部分相关于Master增加了一个分支:在通过一个Transformer层之后,TableMaster的解码部分分成两个分支。之后每个分支再接两个Transformer层,别离对应两个学习任务:单元格文字框的回归以及表格结构序列的猜测。
图4 TableMaster和Master模型结构比照,图片来历[1] 2.2.2 输入和输出TableMaster特征提取阶段输入图片的维度为480*480*3,输出的维度为7*7*500,然后把输出的序列特征reshape到49*500,输入到解码阶段。其间500是模型的序列长度,49为每个方位序列特征的维度。表格的类别标签有38个(如图5),再加上开端和完毕两个标签,模型中用到的类别标签一共是41个。
图5 Tablemaster模型中表格的38类标签,图片来历[1] 其间有两个 |