别忘记我:通过局部-全局内容建模进行文本擦除方法

本文简要介绍了发表于ECCV 2022的论文“Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context”的相关工作。该论文针对文本擦除中存在的杂乱布景修正的问题,提出了CTRNet,它使用部分和大局的语义建模提高模型的布景还原才能,它规划了Low-level Contextual Guidance(LCG)和High-level Contextual Guidance(HCG)去发掘不同的语义表征,然后经过Local-Global Content Modeling(LGCM)进行部分与大局的特征建模,从而提高文本擦除的才能。

一、研讨布景

文本擦除在近几年得到了越来越多的关注,这项技能在隐私保护、视觉信息翻译和图片内容编辑等方面都有着很重要的作用;而且在教育、办公范畴,文本擦除能够用于文档还原。因而,文字擦除不仅仅是给天然场景中的文字打上马赛克这样简单,而是要考虑在擦掉文字的同时保持文本区域布景的原特征,这就为这个使命带来了应战。现在已有的工作如EraseNet[1],PERT[2], MTRNet++[3]等都是直接经过image-to-image的办法,它们对杂乱文本布景的康复效果并不是非常好,远景与布景常常存在显着的差异。本文受到Image Inainting范畴相关工作[4][5]的启示,提出了一个经过发掘不同语义表征去指引文本擦除的模型CTRNet,它规划了两种不同的语义表征,并经过部分-大局的特征建模提高了模型的性能。

二、办法介绍

本文提出了一个全新的两阶段文本擦除网络CTRNet,它规划了两种不同的语义表征作为擦除指引,其间文本图画的Structure作为Low-level Contextual Guidance,而深层语义特征作为High-level Contextual Guidance;得到两种表征后,再经过Local- Global Content Modeling(LGCM)进行部分与大局的特征建模,终究再经过解码器得到终究的擦除成果。CTRNet的流程图如图1所示。

别忘记我:通过局部-全局内容建模进行文本擦除方法

图1 CTRNet全体结构流程图

别忘记我:通过局部-全局内容建模进行文本擦除方法

图2 数据示意图

2.1 文本感知分支与Soft Mask

CTRNet是一个两阶段的模型,即先进行文本检测得到文本位置,然后再依据检测成果对图片中各个文本进行擦除。该模型使用的是PAN [6]进行文本检测,在实现进程中,PAN会和整个擦除网络一同进行优化。此外,考虑到惯例的0-1 Mask(Hard Mask)会在远景与布景的边界有显着的不连续问题,咱们提出在训练和前向的进程中用Soft Mask替代本来的Hard Mask。示意图如图2(b),(c)所示。

2.2 Low-level Contextual Guidance(LCG)

别忘记我:通过局部-全局内容建模进行文本擦除方法

别忘记我:通过局部-全局内容建模进行文本擦除方法

图3

2.3 High-level Contextual Guidance

除了Low-level的结构语义先验外,咱们还加入了HCG。在图画翻译以及图画修正的使命中,Perceptual/Style Loss验证了高层语义监督的有效性,因而咱们认为这些语义能够作为额外的先验直接用于特征的解码与终究成果的生成,于是便在CTRNet中结合了一个HCG模块去学习并使用高层的语义特征。

别忘记我:通过局部-全局内容建模进行文本擦除方法

2.4 Local-global Content Modeling (LGCM)

当模型进行文本擦除并组成相应布景的时分,除了参考自身的文本区域内容外,还需要使用区域周围以及整图各部分的信息作为参考。结合CNN提取部分特征的才能以及Transformer的大局建模才能,本文规划了LGCM模块,结构如图3(b)所示。其间CNN block进行下采样,然后Transformer-Encoder则是捕获大局像素之间的长距离相关,最终再经过上采样得到终究建模后的特征。此外LGCM模块还经过SPADE操作(图1中的Incor)结合了HCG得到的高层语义特征作为先验。

如图1所示,LGCM是一个迭代式的结构,CTRNet一共级联了8个LGCM模块。终究得到的特征用于解码得到最终的文本擦除成果。

2.5 丢失函数

别忘记我:通过局部-全局内容建模进行文本擦除方法

Perceptual/Style Loss

别忘记我:通过局部-全局内容建模进行文本擦除方法

Adversarial Loss

别忘记我:通过局部-全局内容建模进行文本擦除方法

三、试验

试验主要是在SCUT-EnsText以及SCUT-Syn两个公开数据集上进行。此外本文还采集了一个In-house的试卷数据集进行试验验证CTRNet的泛化性。

A. 关于各模块的融化试验成果如表1所示,可视化比照如图4所示

表1

别忘记我:通过局部-全局内容建模进行文本擦除方法

别忘记我:通过局部-全局内容建模进行文本擦除方法

图4

B. 与之前SOTA办法的比照试验成果如表2与图5所示—SCUT-EnsText

表2

别忘记我:通过局部-全局内容建模进行文本擦除方法

别忘记我:通过局部-全局内容建模进行文本擦除方法

图5

C. 与之前SOTA办法的比照试验成果如表3与图6所示—SCUT-Syn

表3

别忘记我:通过局部-全局内容建模进行文本擦除方法

别忘记我:通过局部-全局内容建模进行文本擦除方法

图6

D. 此外,还进行了与一些Image Inpainting办法的比照,成果如表4和图7所示

表4

别忘记我:通过局部-全局内容建模进行文本擦除方法

别忘记我:通过局部-全局内容建模进行文本擦除方法

图7

E.还在in-house手写试卷数据集上验证了CTRNet的有效性,如图8所示。

别忘记我:通过局部-全局内容建模进行文本擦除方法

图8

四、总结与讨论

本文针对文本擦除中杂乱布景的康复问题提出了CTRNet,经过规划了两种不同方式的监督使得模型能学习到不同的语义表征,然后经过一个LGCM模块进行部分大局的特征建模并有效结合学习到的语义表征,以此在解码的时分能同时使用文本区域和整图其他区域的信息并康复更加天然、合理的文本布景。在各个数据集上的试验也验证了该模型的有效性。

五、相关资源

论文地址:link.springer.com/chapter/10.…

代码地址:github.com/lcy0604/CTR…

六、参考文献

[1] Liu, Chongyu, et al. “EraseNet: End-to-end text removal in the wild.” IEEE Transactions on Image Processing 29 (2020): 8760-8775.

[2] Wang, Yuxin, et al. “PERT: A Progressively Region-based Network for Scene Text Removal.”arXiv preprint arXiv:2106.13029 (2021).

[3] Tursun, Osman, et al. “MTRNet++: One-stage mask-based scene text eraser.”Computer Vision and Image Understanding 201 (2020): 103066.

[4] Liu, Hongyu, et al. “Rethinking image inpainting via a mutual encoder-decoder with feature equalizations.”European Conference on Computer Vision. Springer, Cham, 2020.

[5] Ren, Yurui, et al. “Structureflow: Image inpainting via structure-aware appearance flow.”Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[6] Wang, Wenhai, et al. “Efficient and accurate arbitrary-shaped text detection with pixel aggregation network.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[7] Xu, Li, et al. “Structure extraction from texture via relative total variation.”ACM transactions on graphics (TOG) 31.6 (2012): 1-10.

[8] Zhang, Wendong, et al. “Context-aware image inpainting with learned semantic priors.”Proceedings of the International Joint Conference on Artificial Intelligence, 2021.


原文作者: Chongyu Liu, Lianwen Jin, Yuliang Liu, Canjie Luo, Bangdong Chen, Fengjun Guo, and Kai Ding