大家好,我是哪吒。
最近在学习OCR相关的技能,是指对包含文本材料的图画文件进行剖析辨认处理,获取文字及版面信息的技能。
OCR预处理的终究目的是进步字符辨认的准确性和功率。其中版面剖析技能指的是OCR体系能够忽略图画中的非文本区域,并将文本区域划分为易于处理的行和列,然后减少字符辨认的错误率。
近期在2023年度视觉与学习青年学者研讨会(VALSE)上,作为智能文档处理范畴的代表合合信息关于智能文档处理技能研发与实践作用也进行了分享,使我收获颇丰。
一、智能文字辨认一般包含以下几个进程
1、图画输入
一般在收到一个图画时,往往或许会因为各种要素(手机像素太低、环境太过昏暗、间隔较远等),图片拍摄的不怎么清晰或是歪斜的、或是布景图片过于杂乱。
假如图片是歪斜的,能够经过OpenCV和Python进行文本歪斜校正,再辅助直线检测得到图画对应的正方向; 假如亮度不一致,能够用二值化办法 + 投影处理;
感觉自己能够担任OCR的任何工作了,可是,假如收到的是一个很杂乱的图画,又该怎么处理呢?怎么做版面剖析?
太难了。
2、图画预处理
常见的文档剖析及预处理首要包含曲折纠正、阴影、去摩尔纹、不清晰等。
(1)曲折纠正体系pipeline
曲折纠正体系是一种图画预处理办法,用于处理拍摄的文档图画中或许存在的几许形变,包含曲折、褶皱、折叠等要素导致的畸变。
曲折纠正体系选用依据位移场网络学习办法的体系构架,对形变文档进行智能纠正,同时智能定位文档边缘,切除剩余布景。这种办法能够广泛运用于纸质文档、书本、手刺等各类曲折载体的文字辨认使命中,经过曲折纠正技能,可主动“拉平”图画,进步各类非常规载体文字的辨认功率与质量。
(2)摩尔纹去除
图画预处理中的摩尔纹去除是一个赋有挑战性的使命,现在常见的处理办法是在成像前进行预处理,例如在相机镜头前放置抗混叠滤波器,对彩色滤波阵列(CFA)的输出运用准确插值算法。此外,在专业摄影范畴,最有用的去摩尔纹办法是凭借专业图画处理软件的后处理办法,如Adobe Photoshop。这个办法首要分为两步,即摩尔条纹去除和色调映射。还有近年来的深度学习,如解码器网络,也能够有用地去除摩尔纹。
3、版面剖析
将文本区域切割成行、列或单词。版面剖析办法一般分为两种:规矩办法和计算办法。规矩办法依据文本的几许特征(如巨细、形状、方向等)来切割文本区域,而计算办规律运用概率计算办法来辨认文本区域。
4、字符切开
OCR预处理中的字符切开是将接连的字符切割成若干个独立的字符区域的进程。
这个进程关于OCR辨认准确率至关重要。
5、字符辨认
OCR预处理中的字符辨认是将每个字符翻译成计算机文字的进程。
在OCR预处理中,字符辨认是至关重要的一步。经过字符辨认,OCR体系能够将图画中的文本转化为计算机文字,然后完成文本信息的主动化处理。
6、版面康复
OCR预处理中的版面康复是将原本不规矩排版的文本区域康复成规矩的版面布局的进程。这个进程关于OCR辨认准确率至关重要。
7、后处理、核对
OCR预处理的后处理和核对是指在OCR辨认成果的基础上,进行进一步的校对和批改,以进步OCR辨认的准确率。
下面详细说一下里面看似“冷门”但比较重要的技能点——版面剖析,版面剖析包含物理版面和逻辑版面。
二、物理版面版面剖析
物理版面版面剖析是为了将文本区域切割成行、列或单词,然后减少字符辨认的错误率。
版面剖析一般分为两个进程:图画处理和版面剖析。
图画处理经过各种技能(如去噪、二值化、滤波等)将原始图画转化为适合OCR处理的格局。
版面剖析办法一般分为两种:规矩办法和计算办法。
规矩办法依据文本的几许特征(如巨细、形状、方向等)来切割文本区域,而计算办规律运用概率计算办法来辨认文本区域,终究目的是进步字符辨认的准确性和功率。
三、逻辑版面版面剖析
逻辑版面版面剖析是指对文档的逻辑结构进行剖析,以确定文档中的文本区域、图画、表格等元素的方位和联系。
这种剖析关于OCR辨认和文档处理非常重要,因为它能够协助咱们了解文档中的信息分布和安排办法,然后更好地进行信息提取和收拾。
逻辑版面版面剖析一般包含以下进程:
- 文本行切割:将文档中的文本切割成行;
- 阶段辨认:将文档中的文本切割成阶段;
- 表格辨认:将文档中的表格提取出来,并进行适当的表格转化;
- 文本区域切割:将文档中的文本切割成区域,以便于后续的信息提取和收拾;
- 图画辨认:辨认文档中的图画,并进行适当的图画处理;
- 页面剖析:对整个文档页面进行布局剖析,以便于后续的排版和打印等操作。
经过逻辑版面版面剖析,咱们能够得到文档的逻辑结构信息,然后更好地进行信息提取和收拾。这种剖析在OCR辨认和文档处理中广泛运用,能够协助咱们进步辨认和处理的准确率和功率。
四、OCR 文档复原
OCR 文档复原(OCR Document Restoration)是指将扫描或图片格局的文档转化为可修改的文本格局,方便后续的修改和处理。OCR技能常用于文档数字化和信息提取。
1、下面是经过合合信息技能完成的版面复原
2、以下是一些OCR文档复原的进程:
- 图画预处理:对原始文档图画进行预处理,如去噪、二值化、图画增强等,以进步OCR辨认的准确率和稳定性;
- 版面剖析:对文档进行逻辑版面剖析,将其切割成不同的区域,如文本区域、图画区域、表格区域等;
- OCR辨认:对切割后的区域进行OCR辨认,将其转化为文本格局;
- 后处理和核对:对OCR辨认成果进行后处理和核对,如语法校正、拼写查看、词性标注等,以进步复原文本的质量;
- 输出:将复原后的文本输出到修改器或文档处理软件中,进行后续的修改和处理。
OCR文档复原体系架构包含Web Service、使命调度程序和证件辨认服务器等组件。Web Service担任接收客户端上传的需要做辨认的证件图片,并将辨认恳求转发给使命调度程序。使命调度程序再把辨认恳求分发给空闲的证件辨认服务器,得到辨认成果后再顺次返回,最后由Web Service将成果返回到客户端。
3、经过合合信息技能完成的作用展现:
五、版面元素检测和辨认
1、版面元素检测和辨认
版面元素检测和辨认是指对文档图画中的版面元素进行主动检测和分类的进程,是OCR文档复原和版面剖析的关键进程之一。
版面元素包含文本、图画、表格等元素,它们在文档中一般具有一定的规矩和布局。经过对版面元素的检测和辨认,能够获得文档的逻辑结构信息,然后更好地进行信息提取和收拾。
2、版面元素检测和辨认的常用办法包含:
- 依据规矩的办法:依据版面元素的几许特征(如巨细、形状、方向等)和属性(如文本类型、图画类型等),拟定相应的规矩来进行检测和分类;
- 依据机器学习的办法:经过练习机器学习模型(如决策树、支持向量机、神经网络等),对版面元素进行分类和辨认;
- 依据深度学习的办法:使用深度学习模型(如卷积神经网络、循环神经网络等),对版面元素进行端到端的练习和辨认;
- 依据搬迁学习的办法:使用在自然图画中练习的模型,将其搬迁到版面元素检测和辨认使命中,以获得更好的功能。
版面元素检测和辨认的技能不断发展,能够进一步进步OCR文档复原和版面剖析的准确率和功率。
3、下面是合合信息技能进行的版面元素检测和辨认
六、总结
经过版面剖析技能将文字区域和非文字区域进行别离,然后将文字区域中的排版、布局信息提取出来,以便于后续的辨认处理。版面剖析是OCR技能中的一个重要环节,它直接影响到OCR的辨认准确率和功率。
经过对OCR技能的不断专研,我发现,OCR文档复原的质量遭到多种要素的影响,如文档质量、版式杂乱度、字体和字号等。在OCR文档复原进程中,需要依据实际情况进行调整和优化,以进步复原文本的质量和准确性。