智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的首要工作。该论文针对现有的纠正办法只能在严密裁剪的文档图画上获得较为抱负的纠正作用这一缺乏,提出了一个新的纠正办法Marior。Marior采用渐进式的纠正方式来逐步提高纠正功能。具体而言:先使用切割成果进行环境边际去除获得开始纠正成果,再通过猜测偏移场迭代式地优化该开始成果。该办法在公开数据集上获得了SOTA的成果,纠正成果数据已开源。

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

图1 现有纠正办法存在缺乏的状况. (a) 文档图画中存在大的环境鸿沟 (b) 文档图画中不存在环境鸿沟. 赤色虚线高亮杰出显现了部分形变的区域.

一、研究背景

对文档图画进行拍照经常受到透视形变和几何形变的搅扰,这会影响文档图画的可读性和OCR体系的功能。现有根据深度学习的纠正办法首要关注于严密裁剪的文档图画,而忽视存在大环境鸿沟的文档图画和没有环境鸿沟的文档图画(如图1所示),导致无法处理这类图画。最直接的方案是将一切这种状况包括在训练数据里边,但是发现作用并不抱负。另一个处理方案是在纠正之前参加文档图画检测器将文档区域裁剪出来,但是对于没有环境鸿沟的文档图画仍是没办法处理。本文提出Marior用于处理该问题。其包括两个子模块:鸿沟去除模块和迭代式内容纠正模块,鸿沟去除模块先将一切状况的文档图画一致成去除环境鸿沟的图画,内容纠正模块再专心于文档内容的纠正,以此将鸿沟去除和内容纠正解耦开来,然后处理环境鸿沟多样的状况,一起也能减轻网络的学习难度。

二、办法原理简述

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

图2 整体流程图

2.1 鸿沟去除模块(MRM)

Mask猜测:如图3所示。在DeepLabv3+的基础上增加一个边际输出分支更好地指导网络学习。此外,考虑到文档图画的Mask有相对固定的形式(一个完整的连通域,接近四边形,相对直的边际等),本文使用GAN将这种先验引进到模型傍边。

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

图3 (a)Mask猜测网络的结构;(b)引进先验信息的作用,能够看到先验信息的引进能够获得更好的Mask

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

2.2 迭代式内容纠正模块(ICRM)

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

图5 (a)迭代式纠正模块(ICRM)的迭代方式;(b)迭代进程结束后的采样进程. 热力求的值表明偏移场的绝对值,即需求偏移的距离.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

三、首要试验成果及可视化成果

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

表1 Mask猜测模型有效性

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

表2 内容加权的L2 Loss 的有效性

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

表3 在DocUNet数据集上的定量比较. 为公平比较,除Marior外,其他办法在Origin子集(没有经过严密裁剪,仍含有大环境鸿沟的文档图画)上测验时先参加了一个文档检测器进行裁剪.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

表4 在OCR_REAL数据集上的定量比较.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

图7 在DocUNet数据集上的定性比较.由上到下分别为 (a) Input, (b) DocProj, (c) DewarpNet, (d)Method of Xie et al., (e) Marior (ours), and (f) Scanned Ground Truth. 其间1-3列是严密裁剪的文档图画,4-5列是含有大环境鸿沟的文档图画(除Marior外其他办法都先才采用检测器进行裁剪),6-7列是不包括环境鸿沟的文档图画.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

图8 与PiecewiseUnwarp和DocTr在DocUNet数据集上的定性比较. (a)从左到右分别为Input, PiecewiseUnwarp, Marior (ours)和Scanned Ground Truth. (b)从左到右分别为Input, DocTr, Marior (Ours)和Scanned Ground Truth.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

图9 从左到右分别为(a) Input, (b) DocProj, (c) DocTr, and (d) Marior (Ours).

从表1和表2融化试验能够看出Mask猜测网络以及内容加权L2 Loss的有效性。从表3和表4能够看出,随着纠正渐进式地进行,纠正功能不断提高,证明本文办法中鸿沟去除开始纠正、迭代式内容纠正的有效性。从表3、图7和图8能够看出本文办法在严密裁剪图画上与现有SOTA办法获得相当作用的一起,在其他环境鸿沟状况下都能获得更好的作用(且不需求额定的检测器)。从表4和图9能够看到本文办法在获得好的纠正功能的一起在速度上也有优势。

四、总结及讨论

该论文立异性地提出了一种根据边际去除和迭代式内容纠正的复杂文档图画校正,不仅在严密裁剪文档图画上获得SOTA的纠正成果,还能处理含有大环境鸿沟的文档图画以及不含环境鸿沟的文档图画,填补了该范畴在这方面的研究空白。

五、相关资源

Marior: Document Dewarping with Control Points Document Dewarping with Control Points论文地址: arxiv.org/abs/2207.11…

Marior: Document Dewarping with Control Points Document Dewarping with Control Points 项目地址: github.com/ZZZHANG-jx/…