Title:Deep Unrestricted Document Image Rectification
Paper:arxiv.org/pdf/2304.08…
Code:github.com/fh2019ustc/…
Demo:doctrp.docscanner.top/
导读
近年来,随着文档数字化的需求日益添加,文档图画纠正范畴取得了显着进展。但是,现有的基于深度学习的处理方案多仅限于处理限定场景下的文档图画,即输入图画须包含完好的文档。当输入的文档图画仅包含局部区域而不包含完好的文档鸿沟时,纠正质量会遭到显着影响。为了处理这一问题,作者团队提出 DocTr++
,一种面向各类文档图画的无约束统一纠正框架。
引言
如下图展现了三类常见的形变文档图画:(a) 包含完好文档鸿沟, (b) 包含部分文档鸿沟, (c) 不包含文档鸿沟。
现有的纠正办法多是聚集于有鸿沟的文档纠正,即 (a) 对应的图画类型,而关于后两种形变图画的纠正作用欠佳。本办法可以实现对文档鸿沟不全或无鸿沟文档的纠正康复。
作者团队选用了多标准的编码器-解码器结构进行有用的特征编解码,并且重新界说了各类形变文档图画与无形变文档图画之间的逐像素映射关系。此外,作者团队还贡献了一个新的无约束文档图画测验基准及其适用的点评方针,以便研究人员对该办法进行后续的验证和改善。
经过定量试验和定性对比,作者团队验证了 DocTr++ 的功能优势及泛化性,并在现有及所提出的基准测验中改写了多项最佳记录。
办法
作为开端,给出一张框架图,其十分生动形象的展现了本办法的核心思维:
如上图所示,本办法致力于弥补现有的基于深度学习的办法在使用场景上的缺乏。具体地,现有的基于深度学习的办法,大多只能纠正文档完好的图画,即文档的四条边完好地出现在输入图画中。
但是,在实际使用时,用户或许只重视于文档的部分区域或内容。例如,在教育场景中,用户或许只想共享书本中的某一道标题。
为了处理这一局限性,在咱们的办法中,输入包含各类常见的形变文档图画,包含(a)有完好文档鸿沟的图画,(b)有部分文档鸿沟的图画,以及(c)无文档鸿沟的图画。
咱们的办法包含三个主要组件:(a) 畸变特征编码器,(b) 纠正解码器,和 (c) 坐标映射猜测器。
首要, 在畸变特征编码器中,咱们选用自注意力机制捕获形变文档的结构特征,并构建多标准编码器提取和融合这些特征。编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本办法既能编码具有高分辨率纹路细节的特征,又能取得低分辨率具有高层语义信息的特征。
接下来,纠正解码器接纳编码器输出的多标准特征以及可学习的纠正提示向量序列(learnable queries),输出解码后的表征用于后续坐标映射矩阵的猜测。其中,可学习的纠正提示向量序列零初始化,并加上固定的方位编码。试验发现,每一个纠正提示向量会重视输入形变文档图画中的某一特定区域 (如下图所示),这些区域组合起来便覆盖整张输入图画。同样,解码器由三个子模块组成,每个子模块包含两个标准的 Transformer 解码层。
最终,在坐标映射猜测器中,本办法依据解码器输出的特征来猜测纠正图画所需的坐标映射矩阵。依据坐标映射矩阵中每一个坐标,基于双线性插值算法重采样出输入形变图画中对应的像素,填入输出图画中。在对一切映射坐标并行履行此操作后,本办法取得完好的纠正图画。
点评方针
在这篇文章中,作者团队提出了两种新的点评方针 MSSIM-M 和 LD-M,用于通用形变文档图画纠正质量的评价。由于鸿沟不完好的形变文档图画在纠正后或许会出现像素缺失,如上图所示,本文将有用像素区域的掩膜矩阵与方针图画进行矩阵乘法,得到更适宜进行点评的方针图画。如下图所示,与传统的 MSSIM 和 LD 方针比较,改善后的 MSSIM-M 和 LD-M 更为稳健和牢靠。
试验
本文在揭露的有鸿沟形变文档图画测验基准和本文新提出的通用形变文档图画测验基准上都进行了功能评价,在两种数据集上都展现了优异的功能。
可以直观地看出,本办法在有鸿沟和鸿沟不全两种情况下都实现了有用的纠正。
作用展现
下图展现了各类形变文档图画的纠正成果,包含试卷、文本阶段、册页、手写文档等。
作者团队还供给了一个在线Demo供我们自行体会:
doctrp.docscanner.top/
总结
本文介绍了一种全新的通用形变文档图画纠正框架,作者团队的办法突破了现有多数纠正办法的场景局限性,可以康复日常日子中常见的各种形变文档图画。为了实现优异的纠正作用,作者团队选用了一种多标准编解码器结构,构建各类形变文档图画与无形变文档图画之间的逐像素映射关系。此外,该团队还贡献了一个真实场景的测验基准和新的评价方针,以评价各类真实文档图画的纠正质量。
经过在揭露的测验基准和本工作提出的测验基准上进行很多试验,验证了该办法的有用性和鲁棒性。作者团队希望能为未来本范畴研究供给一个强有力的基准办法,为进一步研究和发展通用形变文档图画纠正办法供给基础。
CVHub是一家专注于计算机视觉范畴的高质量常识共享渠道,全站技能文章原创率终年高达99%,每日为您呈献全方位、多范畴、有深度的前沿AI论文处理及配套的职业级使用处理方案,供给科研 | 技能 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/切割/跟踪/姿态/超分/重建等全栈范畴以及最新的AIGC等生成式模型。欢迎重视微信大众号CVHub或添加小编老友:cv_huber,备注“知乎”,参与实时的学术&技能互动沟通,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!