在企业的数字作业流中充满了各种文档,包括信件、发票、表格、陈述、收据等,咱们无法主动提取它们的常识。现在跟着文本、视觉和多模态人工智能的前进,咱们有或许解锁这些常识,这篇文章向你展现了你的团队该怎么运用开源模型来构建免费的定制化处理方案。

Document AI 包括了许多数据科学的使命,包括图画分类、图画转文本 (image to text)、文档答复 (document question answering) 、表格答复 (table question answering) 以及视觉答复 (visual question answering) 。

本文将向咱们介绍 Document AI 中的六种不同运用场景,以及它们的最佳开源模型,之后重点分三个方面介绍了答应、数据预备和建模问题,在文章中,有一些 Web 演示、文档和模型的链接。

六大运用场景

构建 Document AI 处理方案至少有六个运用场景,这些运用场景在文档输入和输出的数据结构上有所不同,在处理详细的企业 Document AI 问题时,往往需求综合各种办法。

1. 光学字符辨认 (OCR)

将打字、手写或打印的文本变成机器编码的文本,这一进程被称为光学字符辨认 (OCR)。这是一个被广泛研讨的问题,有许多老练的开源和商业产品,图中展现了一个将手写文字转换为文本的事例:

加速 Document AI (文档智能) 发展

OCR 是 Document AI 运用场景的支柱,它关于将文本转化为计算机可读的东西至关重要,一些广泛运用的模型是 EasyOCR 或 PaddleOCR ,它们在文档层面上运行。还有一些模型在单行文本图画上运行,比方 TrOCR:基于转化器的光学字符辨认与预练习模型,这个模型与 CRAFT 这样的文本检测模型一同作业,它首要以鸿沟框的形式辨认文档中的单个文本「片断」。

OCR 的相关方针是字符错误率 ( CER ) 和 word-level 精度、召回率和 F1。在这个空间能够看到 CRAFT 和 TrOCR 的演示。

2. 文档图画分类

将文档归入适当的类别,如表格、发票或信件,被称为文档图画分类。

分类的方针能够挑选文档的图画和文本中的一种或两种,最近,呈现了一些更为先进的选用视觉结构和底层文本的多模态模型,它们的参加极大地进步了分类器的功能。

一个根本的办法是在文档图画上应用 OCR,然后运用相似 BERT 的模型进行分类,但是,BERT 模型并不能考虑到任何布局或视觉信息,一同参阅 RVL-CDIP 数据集的图,咱们能够看到不同文档类型的视觉结构是不同的:

加速 Document AI (文档智能) 发展

这就是 LayoutLM 和 Donut 等多模态模型发挥作用的地方,由于一同纳入了文本和视觉信息,这些模型能够极大地进步准确性,在 RVL-CDIP (文档图画分类的一个重要基准数据集) 上:

  • 基于 BERT 的模型仅运用文本,实现了 89% 的准确率;

  • DiT (Document image Transformer) 仅运用视觉,能够到达 92% 的准确率;

  • 而像 LayoutLMv3 和 Donut 这样运用多模态 Transformer 将文本和视觉信息结合起来的模型,能够到达 95% 的准确率,它们正在改动从业者处理 Document AI 问题的办法。

3. 文档布局剖析 (Document layout analysis)

文档布局剖析是确认文档物理结构的使命,即确认构成文档的各个组成部分,如文本段落、标题和表格。

这项使命一般是经过将其作为一个图画切割 (image segmentation) 、物体检测 (object detection) 问题来处理,该模型的输出为一组切割掩码 / 鸿沟框,以及类别称号。

目前最先进的文档布局剖析模型是 LayoutLMv3 和 DiT (Document image Transformer) 。这两种模型都运用经典的 Mask R-CNN 结构作为方针检测的骨架。这个 文档布局剖析空间说明晰 DiT 模型怎么被用来辨认文档中的文本段、标题和表格。这儿展现了一个运用 DiT 检测文档不同部分的比方:

加速 Document AI (文档智能) 发展

用 DiT 进行文档布局剖析

文档布局剖析一般运用 mAP (均匀精度) 方针来评价方针检测模型,运用 PubLayNet 数据集作为重要基准,截至本文写作,最先进的模型是 LayoutLMv3,其总体 mAP 得分为 0.951 (点击检查各模型精度比照) 。

4. 文档解析

比布局剖析更进一步的是文档解析,文档解析的方针是辨认和提取文档中的要害信息,比方辨认发票表格中的称号、项目和总数,点击 LayoutLMv2 Space 能够了解怎么解析文档,辨认问题、答案和标题。

LayoutLM 的第一个版本 (现在称为 LayoutLMv1) 于 2020 年发布,显著进步了其时存在的基准,现在它仍然是 Hugging Face Hub 上最受欢迎的模型之一,用于 Document AI。LayoutLMv2 和 LayoutLMv3 在预练习期间纳入了视觉特征,相比于第一代供给了一个改善。LayoutLM 系列让 Document AI 的功能方面产生了阶梯式的改变。例如,在 FUNSD 基准数据集上,BERT 模型的 F1 方针层面得分是 60%,但运用 LayoutLM,就有或许到达 90%!

LayoutLMv1 现在有许多继承者:

  • Donut 树立在 LayoutLM 的基础上,但能够把图画作为输入,所以它不需求一个独自的 OCR 引擎;
  • ERNIE-Layout 最近被发布了,并取得了令人鼓舞的效果,请看 Space

关于多语言的运用情况,LayoutLM 有一些多语言的变种,比方 LayoutXLM 和 LiLT,这张来自 LayoutLM 论文的图展现了 LayoutLM 对一些不同文档的剖析:

加速 Document AI (文档智能) 发展

尽管数据科学家发现文档布局剖析和提取是企业的要害运用场景,但由于大多数企业数据在内容和结构上的多样性,现有的通用商业处理方案一般无法处理。因此,数据科学团队一般能够微调自己的模型来超越现有的商业东西。

5. 表格检测、内容提取和结构辨认

文档一般包括表格,而大多数 OCR 东西在表格数据上的作业效果并不非常抱负,无法做到开箱即用,这就需求表格的检测,内容提取和结构辨认作业。

检测的使命是辨认表格的位置,提取则是对该信息进行结构化表明,结构辨认是辨认构成表格的各个部分的使命,如行、列和单元。更进一步表格功能剖析 (Functional Analysis) 是辨认表的键 (key) 和值 (value) 的使命,下图 Table transformer 的图说明晰各个子使命之间的差异。

加速 Document AI (文档智能) 发展

表格检测和结构辨认的办法与文档布局剖析相似,运用方针检测模型,输出为一组鸿沟框和相应的类。最新的办法,如 Table Transformer ,能够用同一个模型实现表的检测和表的结构辨认。

Table Transformer 是一个相似 DETR 的方针检测模型,在 PubTables-1M (由一百万张表组成的数据集) 上进行练习。表的检测和辨认的评价一般选用均匀精度 (AP) 方针。据陈述,在 PubTables-1M 数据集上, Table Transformer 的功能在表检测方面的 AP 为 0.966,在表结构辨认 + 功能剖析方面的 AP 为 0.912。

尽管表格检测和提取有了一个令人振奋的办法,但在你的数据上,成果或许是不同的,依据咱们的经历,不同表格的质量和格式差别很大,这会影响模型的体现,所以在一些自定义的数据上进行额外的微调将大大改善功能。

6. 文档答复 (DocVQA)

文档上的问题答复 ( Question Answering) 已经极大地改动了人们与人工智能的交互办法,最近的进展使得要求模型答复关于图画的问题成为或许 —— 这被称为文档视觉答复,或简称 DocVQA 。

在得到一个问题后,模型会剖析图画,并答复一个答案,下图是 DocVQA 数据集 的一个比方:

  • 用户问道:”说到写的邮政编码吗?”

  • 模型答复说:” 是的。

加速 Document AI (文档智能) 发展

在过去,树立一个 DocVQA 系统往往需求多个模型一同作业,比方用独自的模型来剖析文档布局、履行 OCR 、提取实体,然后再运用一个模型答复问题。而最新的 DocVQA 模型能够以端到端的办法进行问题答复,只需求一个 (多模态) 模型。

DocVQA 一般运用均匀归一化列文斯坦相似度 ( ANLS ) 方针进行评价,关于这个方针的更多细节,咱们能够参阅这个攻略:

  • 在 DocVQA 基准上,目前最先进的是 LayoutLMv3,这个模型由 OCR + 多模态 Transformer 组成,它的 ANLS 得分到达了 83.37;

  • 而运用单一的编码器 – 解码器 Transformer 以端到端的办法处理使命的 Donut 模型没有供给最先进的准确性,只是展现了运用相似 T5 的生成模型的端到端办法的巨大潜力;

Impira 开发了一个令人 振奋的 space,说明晰 DocVQA 的 LayoutLM 和 Donut。

尽管视觉答复是是可信的,但若要成功地运用它,有许多留意事项,需求团队具有准确的练习数据、评价方针和后处理进程。

还要留意 DocVQA 的正常作业也或许出问题:在某些情况下,答复或许是不行猜测的,模型或许会呈现 “幻觉”,给出一个不在文档中呈现的答案,以及视觉答复模型能够继承数据中的成见,从而引发品德问题,所以要树立一个成功的 DocVQA 处理方案,保证正确的模型设置和后处理非常必要。

Document AI 中的答应 (License) 问题

工业界和学术界为推动 Document AI 做出了巨大贡献,有各式各样的模型和数据集可供数据科学家运用。但是,关于树立一个企业处理方案来说,答应证或许是一个不小的问题,一些著名的模型会有限制性答应,它们无法商用,比方最值得警惕的:微软的 LayoutLMv2 和 LayoutLMv3 的 checkpoints。

当你开端一个项目时,应该细心评价潜在的模型的答应证情况,在一开端就知道你想运用哪些模型,由于这会影响数据的搜集和注释,本文结尾有一个流行模型的表格,其中有它们的答应授权相关信息。

Document AI 中的数据预备问题

Document AI 的数据预备很要害,并具有必定挑战性,需求有正确注释的数据,以下是咱们在数据预备方面学到的一些经历和办法:

  1. 机器学习取决于你的数据规划和质量,假如你文档里边的图画质量很差,你不能指望人工智能能够奇特地阅览这些文档,同样地,假如你的练习数据很小,且有许多不同数据类型,模型的体现或许会很差,Document AI 就像机器学习中的其他问题相同,数据越大,功能越好。

  2. 在办法上要灵活,你或许需求测试几种不同的办法来找到最佳处理方案。一个很好的比方是 OCR ,你能够运用像 Tesseract 这样的开源产品、像 Cloud Vision API 这样的商业处理方案,或者像 Donut 这样的开源多模态模型内部的 OCR 才能。

  3. 从小处开端,细心评价你的体现。依据咱们的经历,你能够经过几百个文档取得良好的成果,所以先注释少量数据 (annotating data) ,并明智地挑选模型东西。缩小了整体办法,就能够开端扩大数据的规划,最大限度地进步你的猜测准确性。在注释时,记住一些使命,如布局辨认和文档提取,需求辨认文档中的特定区域,要保证注释东西支撑它的鸿沟框 (bounding boxes) 。

Document AI 中的模型构建

构建模型的灵活性为数据科学家带来了许多挑选,咱们强烈主张团队从预练习的开源模型开端,依据你的详细文档微调模型,这一般是取得好模型的最快途径。关于考虑树立自己的预练习模型的团队,请留意这或许涉及到数百万的文档,而且很容易消耗几周的时刻来练习一个模型。树立一个预练习的模型需求很大的努力,不主张大多数数据科学团队运用。

假如挑选从微调一个模型开端,首要要问自己这些问题:

  1. 你想让模型来处理 OCR 吗?例如,Donut 不需求对文档进行 OCR 处理,直接在全分辨率的图画上作业,所以在建模之前不需求 OCR 。当然,依据你的问题设置,独自获取 OCR 或许更简略。

  2. 你应该运用更高分辨率的图画吗?当运用 LayoutLMv2 的图画时,它将图画缩减为 224 乘 224,而 Donut 则运用完好的高分辨率图画。但是,运用完好的高分辨率图画会极大地添加练习和推理所需的内存。

  3. 你是怎么评价这个模型的?留意错位的鸿沟框,保证 OCR 引擎供给的鸿沟框与模型处理器相一致。其次,让你的项目要求辅导你的评价方针。例如,在一些使命中,如符号分类或问题答复,100% 的匹配或许不是最好的衡量标准,像部分匹配这样的方针能够让更多的潜在符号得到考虑,比方 “Acme” 和 “internal Acme” 能够作为匹配。最终,在评价进程中要考虑品德问题,由于这些模型或许是在运用有成见的数据,或供给不稳定的成果,或许对某些人群有成见。

接下来的步骤

你是否看到了 Document AI 的无限或许性?咱们每天都在使用最先进的视觉和语言模型释放有价值的数据协助企业,咱们在这篇文章中包括了各种 demo 的链接,所以能够把它们作为一个起点。这篇文章的最终一节包括了开端编写你自己的模型的资源,例如视觉答复模型,一旦你预备好开端树立你的处理方案,Hugging Face 模型中心 是一个不错的起点,它托管了大量的 Document AI 模型。

假如你想加速 Document AI 作业,Hugging Face 能够协助你:经过咱们的 企业加速方案,咱们与企业合作,为人工智能运用场景供给辅导,关于 Document AI ,咱们会协助您树立一个预练习模型,进步微调使命的准确性,或为你的第一个 Document AI 事例供给总体辅导。咱们还能够供给计算积分,以便您大规划地运用咱们的练习 (AutoTrain) 或推理 (Spaces 或 Inference Endpoints) 产品。

资源

许多 Document AI 模型的笔记本和教程能够在以下网站找到。

  • Niels’ Transformers-Tutorials:
  • Philipp’s Document AI with Hugging Face Transformers

咱们还整理了 Document AI 最流行的开源模型以及其方针和基准数据集,请 点击这儿。

正文部分译者:

丁继峥 Johnson,微信号:ZJUer_0817 拾象 DAO 成员,浙江大学机器人工程专业,主要关注 AI 模型与交互的前沿进展,专用机器人的工业落地,通用机器人的无限或许。

博客原网址:
hf.co/blog/docume…