编者按： 在当今这个由数据主导的年代，咱们被海量多样的信息所盘绕，但大部分数据都以非结构化的办法存在，诸如文档、电子邮件、合平等，这使得从中提取有价值的信息成为一大应战。

走运的是，AI 范畴正在悄然孕育一场革命性变革，它将协助咱们霸占长期以来困扰非结构化数据处理的种种困难。

这篇文章首先解说了文档了解场景面对的首要应战——需要处理文本、图画等多模态信息，并了解它们之间的逻辑相关。接着介绍了 DocLLM 和 DocGraphLM 等立异模型，它们融合了言语模型与图神经网络等技能的优势，能够更好地了解文档的结构和语义信息。根据此，文档剖析的主动化程度将大幅前进，为商业智能（BI）、企业合规管理等范畴带来全新机会。更风趣的是，结合对话体系和面向使命的 Agents，则能完结真实的”端到端”文档处理流程主动化。

作者 |Anthony Alcaraz

编译|岳扬

欢迎小伙伴们参加AI技能软件及技能交流群，追寻前沿热门，共探技能难题~

咱们正站在人工智能新年代的风口上。在曩昔的一年里，生成模型的快速开展令人瞠目结舌。从能够运用DALL-E 3生成极富想象力的图画，到运用 ChatGPT 生成言辞优美、表达流通、赋有感染力的文章，这些模型展示出这段时间人工智能技能获得的巨大前进。

可是，在更专业的人工智能范畴——文档了解，也在悄然产生着相同深化的改变，尽管这种改变并不那么颤动。这一范畴的最新进展有望完结主动推理非结构化企业数据中的许多信息，或将进一步推进人类生产力的开展、提质。

据估计，超越 80%的潜在可用事务信息存储在扫描文档、表格、合同、电子邮件和其他非结构化数据源（unstructured data sources）中。 这是一笔惊人的常识财富。可是，核算机在处理这些信息时，缺乏人类所具有的直觉和对细节的了解才能。

当今最优异的人工智能体系能够以适当高的准确率辨认日期、名称和金额等信息。可是，对于概念之间层次联络的深层语义把握、根据依据进行逻辑推理，以及其他处理非结构化数据时将会面对的复杂情况和难题，现在仍然是一大应战，需要进一步打破。

例如，经过交叉引证买卖截止日期（due date）并将其与单独的付款告诉文件（payment advice documents）相关起来，从发票中推断出付款日期（payment dates），这需要考虑到文档的相关布景，而不仅仅是简略地依据其中的某个信息。解决财政记录中的存在的不一致或对立之处，或针对商业活动或事务运营方面的问题或需求所提出的询问也需要如此。

能够最终破解这些难题的要害立异技能现已问世 —— 这些模型将强壮的处理天然言语的神经网络模型（neural language foundations）与运用 Graphical and spatial encoding（译者注：这种办法用于将文档结构和内容以图形化或空间化的办法编码成核算机能够了解和处理的办法。）了解文档结构的才能相结合。

言语模型对文本媒介（textual mediums）的掌握，再与处理图画和音频的架构前进相结合，为文档剖析（document analysis）范畴的打破性运用奠定了根底，这些运用有望极大地前进人类的生产功率。

Generated by Dall-E-3

01 运用技能手段从文档中获取有用的信息或常识

文档了解的首要应战在于，与结构化数据不同，文档中既包括了复杂的视觉元素，如表格、图表等，又包括了天然言语的文字描述，且文字摆放办法灵活天然，不受严厉的结构约束。人类的推理才能能够轻松地处理这些扑朔迷离的信息，但核算机却很难复制人类这种才能。

1.1 了解文档中的视觉元素怎么摆放和安排

与纯文本不同，文档运用诸如表格、图表、页眉和页脚之类的视觉结构来传达信息之间的联络。要推理出这些联络，就需要剖析页面上各元素的positioning（译者注：元素在页面上的方位）、proximity（译者注：元素之间的挨近程度或距离）和bounding boxes（译者注：围绕元素的鸿沟框，用于确认元素在页面上的方位和规模），而不仅仅是单独处理文本。

例如，将数值（values）与表头（table headers）相匹配，将侧边栏中的文本与相关部分链接起来，了解文档中各部分的摆放顺序，以及在多页文档中各部分之间的逻辑联络和信息传递流程。上述应战都需要对文档的全体安排结构和布局格式进行深化剖析。

1.2 了解文件中言语的安排、表达办法

文档中言语表达的自由性和灵活性会给了解和处理文档带来应战。复杂的语法、双重否定、挖苦、零散的文本、范畴术语等都需要依据上下文进行了解。

预练习言语模型现已能够很好地了解言语中存在的细微差别。可是，要可靠地解说合同、财政报告或医疗记录中的共同言语模式，针对特定范畴的文档进行微调是必不可少的。

1.3 将文档中各部分逻辑联络联络起来

最后，在处理许多数据或信息时，进行推理、剖析和判断的进程比较复杂，且极具应战性。这些文件包括一些相互相关但没有明晰联络的信息。剖析财政文件并能够发现潜在的付出欺诈行为，并确认相关的联络，需要从多个来历聚合依据片段建立逻辑头绪。这仍然是一个长期存在的障碍。

02 新一代文档处理人工智能模型的涌现

可供学习的材料：

1.arxiv.org/abs/2401.00…

2.arxiv.org/abs/2401.02…

2.1 具有强壮言语了解和处理才能的根底模型

DocLLM 和 DocGraphLM（来自摩根大通）都建立在先进的神经言语模型之上，运用其丰富的言语常识和文本了解才能。

详细而言，DocLLM经过将文档的空间布局结构信息融入自注意力机制的核算进程中，对根据标准 Transformer 架构的大言语模型进行了扩展和增强。

与此同时，DocGraphLM将图神经网络（graph neural networks）与预练习的言语模型嵌入相融合，完结了对文本语义和结构语义的一致表征和建模。

因而，它们既保留了根底模型的语义剖析优势，同时经过对模型进行增强或改进，使其能够更好地适应文档处理的需求和特点。

2.2 对文档中的安排结构、排版办法、阶段布局等方面进行了解和剖析

这些模型的一个首要区别在于，它们各自采用了不同的技能方案来处理文档中的安排结构、排版布局、阶段安排等视觉结构信息：

DocLLM引进了一种解耦的空间注意力机制（disentangled spatial attention mechanism），答应在 Transformer 框架中对文本内容和文档空间布局结构信息这两种不同的数据模态并行建模。

另一方面，DocGraphLM则以图的办法明晰地表明文档的结构和内容，将文本阶段映射为图的节点，并捕获它们之间的空间联络。

因而，一个模型采用了 Transformer 办法，另一个模型运用了图形化办法来表明或呈现语义信息——两种办法都被证明是有效的。

2.3 进行模型预练习时所设定的方针或使命

这两个模型都运用适用于文档的自监督学习方针（Self-supervised objectives）进行预练习：

DocLLM的练习使命包括填充和屏蔽文本块，以便在 generative modeling （生成式模型的构建）进程中处理不规则的文档布局。

DocGraphLM经过学习怎么猜测缺失的衔接以重构完整的图形结构，以将文档结构转换成一个向量或许一种表明办法，以便模型能够更好地了解文档的安排结构和联络。

预练习推进了多模态文档了解才能的开展。

03 文档剖析范畴或许呈现的新机会

言语模型对文本媒介的强壮了解和处理才能，加上多模态了解方面的架构前进，为文档剖析范畴的打破性运用奠定了根底：

3.1 运用主动化技能从文档中提取信息并进行标示

在大多数企业中，经过人力进行信息提取仍然是干流做法。但人工智能有望经过检测文档中的实体、实体之间的联络和文档中或许存在的层次结构（entities, relationships and hierarchies），主动完结高达 50-60%的标示作业。这将极大地提升剖析师的生产力，并推进下游的剖析作业。

3.2 经过引进新技能、办法或数据源等，使得BI体系具有更强壮的功能

将文档了解功能直接嵌入到 BI 体系中，能够使某些信息得以被发现或了解。销售报告能够将买卖记录联络起来，展现的竞争对手情报能够将市场份额的改变与产品发布等联络起来。

3.3 提供东西、流程、辅导或技能解决方案，以保证运营活动合规

剖析法律合同完结合规风险的评估，为财政审计中某个论断或建议提供可信的依据或支撑并协助调查等，这些都是 BI 能够为法律团队和合规团队带来较大协助的范畴。

04 主动化使命或流程之后进行的后续处理步骤

尽管RAG中心体系专注于检索和生成这一机制，但还能够集成额定的后处理模块，以完结主动化使命（automated task）的完结。这有助于 RAG 模型在实际事务作业流程中的运用。

4.1 Conversational Agents

经过将 RAG 体系置于具有对话管理的对话框架（conversational framework）中，它们能够成为企业助手，完结文档了解的主动化。该 Agent 负责处理交互——了解用户的意图、对信息传递进程进行引导或管理，并在整个对话进程中保持上下文（context）。

4.2 面向使命的Agents

除了能够与用户进行对话外，面向使命的对话型 Agents 能够辅导 RAG 体系完结下游使命。例如，Agents 能够将文档了解结果解说为所需的数据格式，当某些条件满足时，体系会主动发送告诉，告诉相关人员进行人工审查或审核，添加新的数据、修改已有的数据或许进行其他类型的更新，或运用 API 集成履行决议计划。

4.3 强化学习

为了优化与 RAG 体系进行交互的主动化 Agents ，能够运用强化学习逐渐改进决议计划战略，以便依据文档了解结果采纳举动。Agents 可学习怎么采纳一系列有效的举动，以到达特定的事务方针或完结某些使命。

05 对人工智能开展的全体趋势和影响进行更深化的考虑和评论The Bigger Picture

跟着人工智能的迅速开展，将非结构化的文本和图画转化为结构化常识，将使其剖析才能在短时间内也会产生巨大的前进。将对文档所提供信息的完整了解与由结构化数据驱动的剖析框架相结合，很或许会产生许多风趣的事情！

它预示着一场经过即时获取信息和运用技能或东西主动履行日常性的智力使命来前进人类生产力的革命即将到来。可是，负责任的开展要求在前进速度加速的同时，也要保证决议计划和行为的公平性、透明度和责任性。

因而，尽管生成模型的前进不断登上媒体头条，但变革性的改变往往在静谧的角落中悄然酝酿，然后迸发出来。而document AI 或许很快就会从那星星之火转变为熊熊烈火，照亮人工智能下一个年代的道路。

Thanks for reading!

————

Anthony Alcaraz

Chief AI Officer&Architect:Builder of Neuro-Symbolic AI Systems@Fribl enhanced GenAI for HR

END

本文经原作者授权，由 Baihai IDP 编译。如需转载译文，请联络获取授权。

原文链接：

ai.plainenglish.io/the-coming-…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

发掘非结构化数据价值：AI 在文档理解领域的现状与未来