一、实况OCR是什么

人工智能发展到今天,OCR(光学字符辨认)技能已然成熟,也广为咱们所知。所谓OCR,就是检测到图片中的文字并辨认出来。

曩昔常见的OCR应用场景是用户拍摄或扫描一张静态图片,输入OCR算法,获得图中的文字方位和内容。这些场景下,自动辨认替代了人工辨认,文字录入的功率得到了极大提高。

那么有没有方法进一步提高文字录入的功率呢?

试想,当你面临一段文字,只要掏出手机、翻开相机、对准文字,这段文字就当即自动躺在了你的输入框中,那该有多便利。

再试想。当你面临一份生疏言语的商品包装,拿出手机对准它,翻译成果就当即显现在眼前,那该有多爽。

有道的实况OCR已经可以将这种想象变为实践。

二、有道实况OCR又准又快

使用OCR功用时,辨认精确率是咱们最重视的方针。
凭借在自研OCR领域多年的积累,有道实况OCR在几类干流语种上都可以做到精确辨认,离线辨认字准率如下表所示

【技术干货】第1篇:有道实况OCR技术

已然名叫实况OCR,那辨认速度天然也是重要的评价方针。在高通骁龙8Gen1平台上,有道实况OCR的端到端耗时只需约300ms

惯例的印刷场景下,有道实况 OCR 和苹果在 iOS 上提供的实况文本功用都能精确辨认,有道的速度技高一筹。但天然场景中,咱们期望辨认的文字还可能更杂乱,有可能有曲折的、有多语种混排的、还有手写的,有道依托多年积累,在这些场景中也能精确辨认。

三、离线技能完结

除了精确率和速度外,数据隐私也被日益重视。 一方面,很多场景下,咱们都期望数据在辨认的全流程中都只存在于移动端本地;另一方面,弱网环境下的可用性也很重要。这就要求OCR算法在又快又准的前提下,能被离线布置。

因此有道经过很多的算法和工程优化,完结了彻底离线的实况OCR及实况翻译算法。

移动端离线硬件算力,是远远弱于服务器硬件算力的。这就要求离线算法模型必须远小于服务端模型。而模型越小,其精确率必然越低。一起离线有限的算力,也对工程方面的优化提出了更高的要求。

这并不是有道初次测验OCR算法的离线化。事实上,有道在离线OCR方面已经有多年的积累。 有道旗下的词典笔、智能护眼灯、AI学习机等硬件,均搭载了天然的离线OCR算法,精确率和速度均属职业领先水平。

然而,手机端的实况OCR并不是简单地把其他硬件上布置过的离线算法照搬过来就大功告成了。相反,手机端面临着更多更大的挑战:场景自由度更高、更杂乱,待辨认文字行数更多,还需求判别用户意图,且在辨认之外还要统筹烘托。

3.1文字检测算法

当时干流的OCR算法由检测和辨认两部分组成。检测算法担任从图片中检测到文本行,辨认模型担任逐行完结文本的辨认。

有道依据多年在OCR实践事务需求场景的积累,在手机摄影这种通用杂乱的场景中 (多方向文本,弯取文本,手写文本,密布文本,艺术字,非文字图标和布景透字的抑制,极大极小文字,摄影含糊等) ,自研了精度高、速度快的离线文本检测算法。

面临手机摄影场景过于杂乱和手机低算力平台的困难,技能团队对文本检测算法进行了一系列的优化,使用模型剪枝、模型蒸馏使得离线模型在杂乱场景下到达挨近服务器大模型的文字检测水准。

为了适配手机低算力平台,团队对模型规划进行了包含算子和结构在内的全面优化,让算法到达高精度的一起,可以适配低算力平台的布置需求(比方模型量化加快),极大地榨出平台算力(在高通8Gen1上,可以做到一张手机摄影图猜测所有文本行,不超过10ms)。

下图是文字检测的模型结构暗示图和算法作用,检测框贴合十分精确。

【技术干货】第1篇:有道实况OCR技术

图注:检测流程暗示图

3.2 文字辨认算法

得到文本检测成果后,需求对每个文本行图画进行字符序列辨认。

一般,为了提高OCR辨认模型的辨认精确率,常选用BiLSTM等时序模型处理图画文本序列特征,结合CTC解码器完结文本辨认,此类计划在资源受限的端侧设备布置存在推理延迟高,内存占用大等问题。

有道技能团队为此规划了端侧硬件布置友好的模型结构,一起结合剪枝、蒸馏及量化布置等技能,辨认模型可以做到辨认精确率高、端侧高效推理、低功耗。有道研制的辨认模型支撑 CPU/NPU/TPU/DSP/APU 等多端侧设备布置。

【技术干货】第1篇:有道实况OCR技术
图注:辨认流程暗示图

模型练习数据方面,除了实在数据,合成数据也发挥着重要作用。经过收集各类素材布景图片、多语种文本语料和字体,使用烘托工具进行数据合成。
输入为文本语料、字体、布景图画,经过设置烘托文字特点、水平/竖直/曲折版式等特点,经过烘托将文本和布景图画叠加得到合成练习样本(文字图画和文本行标签序列对)。进一步经过图画增强变换的方式,结合文字风格搬迁模型,增加样本多样性和传神程度。

Text rendering 为模型练习提供丰富多样的大规模练习数据,特别可以促进多语种辨认及中文生僻字、形近字辨认精确率提高。

【技术干货】第1篇:有道实况OCR技术
图注:辨认模型练习样本合成暗示图

此外,团队还规划了半监督模型练习框架,从无标签数据中学习有用的特征表明,增强模型泛化功能。一起,主动学习也被用于进行辨认模型的难例挖掘,提高人工标示功率。

3.3 阶段检测算法

实况OCR场景下,相机画面中方针文字的周边往往会呈现很多的搅扰文字。为了便使用户高效、精确地辨认方针文字,还需求一个精准的阶段检测算法来辅助方针阶段的选取,从而在辨认时屏蔽搅扰文字,既削减了用户不必要的删去操作、又可以削减对无效文本的辨认,下降全体耗时和功耗。

【技术干货】第1篇:有道实况OCR技术
图注:如图红框所示,方针阶段周围有搅扰文字时,有道可以精确去除搅扰,而苹果不能有用去除;图中红色下划线标示辨认错误的字

阶段检测的成果被用于断定相机画面是否安稳,只有安稳时才会触发OCR检测与辨认。削减不必要的推理和核算,下降功耗。一起阶段密布、曲折时,也要可以精准区分隔相邻阶段,最好还能区分阶段的内容类别特点,因而有道团队将阶段检测也建模为实例切割问题。

【技术干货】第1篇:有道实况OCR技术

图注:阶段切割作用,完结切割的一起可以对不同阶段进行分类,如标题、诗歌、竖排阶段等

为了统筹作用和速度,技能团队规划了两阶段计划:一阶段是单阶段的方针检测模型,二阶段结合动态参数生成阶段切割成果。依据动态参数的切割方式,相比于 RoIAlign,可谓又快速又强壮又灵敏。

快速: 方针检测之外只需很少的额定参数量与核算量(2%-5%),模型尺寸与推理时间与检测模型简直一致,而 RoIAlign 则需求更多的额定核算量;

强壮:可以针对恣意形状的阶段,对每个物体动态生成一个全局且高精度的切割图,相比 RoIAlign 的局部 28×28/56×56 猜测有更高的切割精度;

灵敏: 灵敏解码,模型推理与切割解码解耦,依据任务可以只解码方针物体的切割图,而 RoIAlign 一次推理即猜测全部物体的切割图,有很多无效核算;灵敏移植,针对不同算力的硬件可以直接替换不同尺寸的方针检测模型来到达 Speed-Accuracy Trade-off 的意图。

【技术干货】第1篇:有道实况OCR技术
图注:阶段检测模型结构

针对离线设备,规划了更快速的backbone:依据 CSPDarknet,替换部分 CSPLayer 为带有 SELayer 的 FusedMBConv 与 MBConv,可以在检测精度不变的情况下削减20%的模型推理耗时。

练习时也充分使用了无标签数据:首先使用依据比照学习的自监督方法,学到更强的模型特征表明,作为预练习模型得到更好的模型作用。

3.4 工程优化

为了优化功耗和速度,选用int8量化,并针对多平台的 DSP/APU/NPU 进行了适配。目前已适配了高通、联发科、以及瑞芯微的旗舰/次旗舰款芯片。

端到端的流程中,涉及很多图片基本操作,比方缩放、通道转化、高斯含糊等等,这些操作都被尽可能放在合适的核算单元上完结,有用提速的一起,下降了CPU负载和全体功耗。

画面安稳依赖于阶段检测一阶段的bbox,而在实况OCR中,咱们期望画面轻微抖动时高亮区域可以严厉跟手,但不要反复进行辨认。于是工程上经过比阶段检测二阶段解码核算开支更低的 Mask Tracking,以极低的核算价值提供了杰出的视觉体验。

四、相册形式

除了翻开相机对方针文字进行实时辨认,另一个常见的OCR需求是:对相册中的静态图片,挑选性地提取其间的文字。

连实况OCR这种挨近实时的辨认都搞定了,对单张静态图片的迅速辨认天然也不在话下。一起,辨认模型可以同步完结字符内行中的方位检测,使得用户可以精准地挑选方针文字。

【技术干货】第1篇:有道实况OCR技术

图注:相册形式暗示,蓝色区域为被选中文字

五、结语

网易有道一向致力于用AI技能让用户的作业、学习、日子愈加便利,未来咱们会更精益求精,带来更精确、更高效、更易用的各类AI技能,让高效学习从有道开端。