✨专栏介绍: 经过几个月的精心准备,本作者推出全新系列《浅显易懂OCR》专栏,对标最全OCR教程,具体章节如导图所示,将分别从OCR技能开展、方向、概念、算法、论文、数据集等各种视点打开详细介绍。
个人主页: GoAI | 公众号: GoAI的学习小屋 | 沟通群: 704932595 |个人简介 : 签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能范畴博客专家、新星计划核算机视觉方向导师等,专注大数据与人工智能常识共享。
文章目录
《浅显易懂OCR》前言常识(一):机器学习根底总结 (✨文末机器学习总结导图)
《浅显易懂OCR》前言常识(二):深度学习根底总结 (✨文末深度学习总结导图)
《浅显易懂OCR》第一章:OCR技能导论
《浅显易懂OCR》第二章:OCR技能开展与分类
《浅显易懂OCR》第三章:OCR文字检测
《浅显易懂OCR》第四章:OCR文字辨认 (本篇)
本篇导读: 在上一章咱们介绍到OCR文字检测, 本篇为 【《浅显易懂OCR》第四章:OCR文字辨认】,首要对深度学习OCR文字辨认办法进行介绍,自己将从经典算法结构、代码、论文解读等视点打开,合作作者总结的思想导图,浅显易懂OCR常识。
《浅显易懂OCR》第四章:OCR文字辨认
一、OCR文字辨认概念
光学字符辨认(OCR)是一项在核算机视觉中十分重要的运用,它的使命是辨认出图片中的文字内容。一般来说,输入是经过文本检测取得的文本框,然后将图画中的文字区域截取出来。OCR文字辨认的作用十分广泛,它不仅能够将很多非结构化数据转换为结构化数据,也能够将图片中的文本转换为可编辑的文本。它在各种场景中都有广泛的运用,例如文字辨认、文档辨认、车牌辨认等场景。
二、OCR场景分类
首要,自己总结影响文字辨认作用的要素有 1.文字的运用场景、2.文字的构成办法、3.文字的字体。 其次,依据不同OCR场景,这儿我将其分为三类,分别为DAR、STR、HCR。
- DAR(Document Analysis & Recognition)是针对文档图画分析与辨认。如在咱们日常日子中较为常见打印文件、票据等。一起除文字外,还以有表格、柱状图、饼状图、印章等场景。
- STR (Scene Text Recognition)为场景文字检测与辨认,是咱们看到的在天然场景当中的文字,例如街景,实拍的产品标签等。
- HCR(Online Handwritten Character Recognition)即在线文字辨认,如常见的手写的输入法、手写签名等。
场景文字检测与辨认介绍:
场景文本辨认的方针是从天然图画中提取出文字,并将其转化为数字字符序列。该序列传达了对场景理解至关重要的高级语义,其辨认要点会偏向于带布景的文字图片。
一起,现在的很多文字辨认都带有文本变形,字体,遮挡,混乱的布景,因而,杂乱场景文字辨认使命具有极强的挑战性, 场景文本辨认首要挑战性要素如下:
1.杂乱的布景及与文本相似的布景
2.不规矩的字体、巨细与方向
3.因噪声干扰而失真,例如照明不均匀,分辨率低和运动含糊。
4.随机捕捉的文本难以辨认字符和猜测文本字符串
场景检测与辨认经典论文
手写体辨认办法
三、OCR文字辨认开展趋势
四、OCR文字辨认导图:
OCR在不同辨认场景分为多种办法,大致如下:
- 按办法可分为传统OCR和深度学习OCR。
- 按数据集可分为规矩文本辨认(ctc、attention seq2seq)和不规矩文本辨认(校对、attention、切割、transformer等)。
注:下图现在仅罗列部分算法,并非一切辨认算法,最新算法介绍请看下面对应介绍。
五、深度学习OCR流程
深度学习中卷积神经网络在OCR中发挥重要作用,经过操练很多样本来辨认和理解不同字体和巨细的字符,然后完结高精度的光学字符辨认。本章首要对深度学习OCR技能打开介绍,OCR流程大致如下:
从上图文字辨认流程能够看出,文本辨认的主流算法有两种,分别是依据 CTC (Conectionist Temporal Classification) 的算法和 Sequence2Sequence 算法,差异首要在解码阶段。
(1)依据 CTC 的算法是将编码发生的序列接入 CTC 进行解码;
(2)依据 Sequence2Sequence 的办法则是把序列接入循环神经网络(Recurrent Neural Network, RNN)模块进行循环解码,两种办法都验证有用也是主流的两大做法。
一起,除规矩办法外,针对不规矩文本辨认的办法也逐渐开展完善,其能够分为依据校对纠错的办法、依据切割的办法和依据留意力的编解码器办法。
- 依据校对纠错的办法
依据校对办法是一种在进行文本辨认之前对不规矩的图画进行纠正的办法。它经过一系列依据可学习的TPS(Thin-Plate Spline)改换的技能,如STN(Spatial Transformer Network),RARE(Recognize-And-REctify),ASTER(Attentional Scene Text Recognizer),STAR-NET(Spatial Transformer-based Attention Network for Scene Text Recognition),S-cRN(Sequence-transformer based Cascade Regression Network)等,来完结对图画的校对。
- 依据切割的办法
依据切割办法是一种用于处理不规矩文本布局问题的技能。它经过将每个字符进行独自的切割来避免不规矩布局带来的困扰。例如运用全卷积网络来检测和辨认每个独自的字符,并终究将它们组合在一起。但是,获取字符等级的标注并不容易,这就导致了一个问题。为了处理这个问题,能够选用半监督学习的办法。首要,在组成数据集上进行字符检测的学习,然后将学习到的常识迁移到实在数据集上。
- 依据留意力的编解码器办法
现有大都不规矩文本辨认办法都运用具有留意机制的encode-decode编解码器结构。一起,存在许多变体,比如FAN引进了一个焦点网络来按捺留意力漂移问题。SAR运用2D attention机制。一起还有引进transformer结构来捕获长时上下文,如DAN选用解耦留意力来缓解对齐漂移问题。
六、深度学习OCR算法分类
(1)规矩文本辨认办法
规矩文本辨认的首要深度学习算法一般分为依据CTC和Sequence2Sequence的办法。这两种办法的差异在于解码阶段的处理办法。依据CTC的算法经过将编码生成的序列输入CTC模块进行解码。而Sequence2Sequence算法则将序列输入循环神经网络模块进行逐渐解码。这两种办法的具体比照能够参阅供给的图示。
1.依据CTC代表算法
CTC学习参阅:CTC Algorithm :Training the Network(CTC算法详解之操练篇)
衔接时序分类(CTC)机制一般用于在猜测阶段将卷积神经网络(CNN)或循环神经网络(RNN)输出的特征转换为字符串序列。在文本辨认中,CTC的运用能够处理时序类文本的对齐问题。这意味着它保证了猜测的文本序列与实践的文本序列在顺序和长度上保持一致。
这儿作者总结比较经典的文字辨认算法,如下所示:
CRNN
CRNN(Convolutional Recurrent Neural Network)是主流的文本辨认模型之一,选用CNN+双向LSTM+CTC结构,能够辨认不定长文本序列。如下图所示,首要网络结构包括三个部分,从下到上依次为:
1.卷积层: 运用CNN从输入图画中提取特征序列;
2.循环层: 用BiLSTM将特征向量进行交融以提取字符序列的上下文特征,然后得到每列特征的概率散布;
3.转录层: 运用CTC把从BiLSTM获取的标签散布经过去重整合等操作转换成终究的辨认成果。
参阅学习: zhuanlan.zhihu.com/p/266556888
CTC :blog.csdn.net/u011622208/…
STN-OCR
STN-OCR是一种集成图画文本检测和辨认的可学习模型,完结了端到端的文本处理。该模型的架构如图所示,检测部分运用了一个称为空间改换网络(STN)的组件,用于对原始输入图画进行仿射改换。运用这个空间改换网络,能够对检测到的多个文本块进行旋转、缩放和歪斜等图形纠正操作,然后进步后续文本辨认的精确性。
在操练方面,它选用了半监督学习的办法,只需要供给文本内容的标注,而不需要供给文本定位的信息。作者也指出,从头开始操练模型的收敛速度较慢,因而主张逐渐增加操练的难度。STN-OCR还供给了工程源代码和预操练模型的开放,方便用户进行运用和扩展。
简而言之,STN-OCR是一种图画文本处理模型,经过空间改换网络进行文本检测和校对,能够以较高的精确度辨认不同视点和形状的文本。
ACE
论文地址: Aggregation Cross-Entropy for Sequence Recognition
ACE loss的起点是觉得核算CTC loss的进程核算耗费大, 提出了一种简略的近似算法来优化后验概率矩阵来代替CTC loss。ACE算法只要核算单词呈现频率, 与标签的实在频率求交叉熵丢失, 经过这个去优化概率矩阵. 而且这样的算法, 能够直接用于2D概率矩阵优化, 2D概率矩阵的优点和2D-CTC相似, 更适合含有布景的不规矩图画。
ACE与依据CTC和Attention辨认办法比照:
MORAN
论文地址:A Multi-Object Rectified Attention Network for Scene Text Recognition
Moran的结构结合两个网络。第一个检测网络MORN在第二个检测网络ASRN读取文本之前对文本框进行了批改(与Textsnake一样,但并非一切的检测网络都是这样做的)。
- MORN首要处理输入图画(即文本框),用CNN对图画进行校对。为此,它的输出图为图画的每个对应区域指定在x和y方向(即2个输出映射)上应该移动的像素数,以拉直文本。
- ASRN运用留意力RNN来解码文本。天然图画中很多的噪声常常误导网络集合在图画的差错部分。ASRN经过一种称为分部拾取的正则化办法克服了这个问题。它由随机混合附近输入的留意力权重的分数组成。
MORAN的一个显着特点是它只需求弱标签,即输出文本。事实上,网络是用单一的丢失函数端到端操练的。经过向后传达解码差错,MORN能够学会纠正图画。
SRN
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks
论文地址:arxiv.org/abs/2003.12…
参阅代码:github.com/chenjun2hao…
简介:
由于依据循环神经网络(RNN)的办法存在一些问题,比如解码办法的时间相关性以及语义上下文的单向串行传输,这些问题大大约束了语义信息的运用和核算功率。为了处理这些问题,提出了一种新颖的端到端可操练结构,叫做语义推理网络(SRN),用于精确地辨认场景文本。这个结构引进了大局语义推理模块(GSRM),经过多路并行传达来捕获大局语义上下文。最新的七个公共基准测验成果(包括常规文本、不规矩文本和非拉丁长文本)验证了这种办法的有用性和鲁棒性。此外,与依据RNN的办法比较,SRN的速度也更快,证明了它在实践运用中的价值。
详细介绍:
SRN模型包括以下4个模块:主干网络、并行视觉留意模块(PVAM)、大局语义推理模块(GSRM)、视觉-语义交融解码器(VSFD)。 首要运用主干网络提取二维特征V。然后,运用PVAM生成N个对齐的一维特征G,其中每个特征对应于文本中的一个字符,并捕获对齐的视觉信息。然后将这N个1-d特征G输入GSRM以获取语义信息S,终究将对齐的视觉特征G和语义信息S交融,用VSFD来猜测N个字符。.关于小于N的文本字符串,将填充“EOS”。
主干网络:运用ResNet50+FPN。
PVAM:PVAM输入为二维特征,经过留意力机制,为每个字符输出一个特征图。
GSRM:结构由两个要害部分组成:视觉到语义的嵌入块和语义推理块。GSRM遵从了多路并行传输的思想,然后克服了单向语义上下文传递的缺点。运用与时间无关的e‘来代替e,这样能够进行多路并行传输,e’由视觉到语义的嵌入块生成,如下图所示。
VSFD:图画特征G和语义特征S属于不同的范畴,它们在不同状况下对终究序列辨认的权重应该是不同的。VSFD运用可操练的单元,运用权重来平衡在VSFD中来自不同范畴的特征的奉献。
试验证明,与依据RNN的办法比较,SRN的速度具有显着的优势,证明了其在实践运用中的价值。SRN支撑曲折文本辨认,一起也支撑中文辨认。
参阅学习:zhuanlan.zhihu.com/p/138784723
blog.csdn.net/lucifer_24/…
GTC:
论文地址: GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text Recognition
blog.csdn.net/u011622208/…
首要思路: 将attention和ctc两种办法进行交融,运用attention对ctc的对齐进行监督和引导,一起,在ctc分支中参加GCN图卷积神经网络进步模型表达能力。
简介:为了克服CTC的局限性,咱们必须两个动机:(1)学习更好的特征表明从更有用的引导和(2)建立label和局部特征的联络。
模型结构
总结
- 运用attention分支对纠正网络和特征提取网络进行一定的监督作用
- 在crrn分支中参加GCN,加强序列特征局部的学习。
SVTR
论文地址: SVTR: Scene Text Recognition with a Single Visual Model
参阅代码: github.com/PaddlePaddl…
SVTR是一种在2022年提出的端到端文字辨认模型,它经过一个单一的视觉模型来一起完结特征提取和文本转录两个使命。这证实了单一的视觉模型在文字辨认使命中比运用视觉-语言模型更有用,而且能够保证更快的推理速度。这种改善的模型版本也被运用于PaddleOCRV3中,进一步提升了文字辨认的性能和功率。
- 特征提取模块:选用单视觉模型(相似ViT),依据patch-wise image tokenization结构,引进Mixing Block获取多粒度特征
SVTR的全体架构如上图所示,首要由三阶段图画高度逐级递减的的Mixing Block组成。首要,输入一个尺寸为 H∗W∗3 的图画,经过一个Patch Embedding打成 H4∗W4 的patches,这儿的Patch Embedding在ViT的根底上进行了改善,经过两个Conv+BN的操作来取得递进式的一种overlapping的作用。
参阅学习:zhuanlan.zhihu.com/p/530670563
2.依据(seqence2sequence结构)
Sequence2Sequence 算法首要选用编码-解码网络结构,该模型由编码器Encoder 把一切的输入序列都编码成一个统一的语义向量,解码器 Decoder 解码的进程中,不断将前一个时间的输出作为后一个时间的输入。其首要输入图画经过卷积神经网络,用循环神经网络进行序列处理。
总结:以上两种算法在规矩文本上都有很不错的作用,但由于网络规划的局限性,这类办法很难处理曲折和旋转的不规矩文本辨认使命。为了处理这类问题,部分算法研究人员在以上两类算法的根底上提出一系列改善算法,提出不规矩文本是被办法。
(2)不规矩文本辨认办法
不规矩文本指的是文本往往不在水平方位,且存在曲折、遮挡、含糊等问题。因而,不规矩文本场景辨认具有很大的挑战性,也是现在文本辨认范畴的首要研究方 向。不规矩文本辨认算法能够被分为依据 Attention 的办法、依据切割的办法及依据Transformer 的办法。
3. 依据Attention留意力机制办法
依据Attention的办法中,编码器的输出由一个不定长序列组成。一般会与循环神经网络(RNN)结合作为猜测模块。这种办法经过给方针数据和相关数据赋予更大的权重,使得解码器能够将留意力更集中地放在方针数据上,并取得更多的细节信息。一起,它能够学习到对较长的输入序列进行合理的向量表明。
以下为参阅开源资料的依据Attention留意力机制办法总结:
RARE
论文地址:Robust Scene Text Recognition with Automatic Rectification
- 首要结构为:空间改换网络STN和Seq2seq网络字组成,其中,STN网络用于校对曲折、透射改换的文本,能够处理不规矩文本。
RARE(Robust text renognizer with Automatic Rectification)在辨认变形的图画文本时作用很好。网络流程如下图所示,针对输入图画,模型首要对其进行空间改换网络处理达到纠正的目的,随后将纠正过的图画送入序列辨认网络中得到文本猜测成果。
其中,空间改换网络结构如下图所示。空间改换网络是一个包括定位网络、网格生成器和采样器的结构,用于动态生成空间改换网格,并在原始图画中采样取得一个矩形的文本图画。经过操练后,它能够依据输入图画的特征图自动生成适应性的改换网格。在RARE中,支撑一种称为TPS(thin-plate splines)的空间改换办法,它能够比较精确地辨认透视改换过的文本,包括曲折的文本。
ASTER
RobustScanner
论文地址:arxiv.org/abs/2007.07…
代码参阅:aistudio.baidu.com/aistudio/pr…
RobRobstScanner是一个具有留意力机制的编解码器结构,在研究了编码器-解码器解码办法后发现,在解码进程中除了依托语义信息外,还需要依托方位信息。现有的办法大多过于依托语义信息,在处理没有或许弱语义信息的文本时作用不佳,会呈现严重的留意力偏移问题。因而,作者认为在处理缺少语义信息的文本时,增加方位信息能够进步字符定位的精确性。该论文经过规矩和不规矩文本辨认基准测验,取得了其时最先进的成果,而且在无上下文基准测验中没有显着性能下降,证明了其在上下文和无上下文运用场景中的鲁棒性。其网络结构如下图所示。
SAR
SAR是一个seq2seq模型, 不同于R^2AM直接用CNN抽取图画的一维特征, SAR先用CNN抽取一个feature map, 再将feature map一列一列送入LSTM encoder,能够看作引进了文本横向阅读的先验常识, 而且feature map保留了图画的空间信息。留意力更合理,终究得到一维特征再进行解码, 解码进程依托本来的feature map做attention。
MASTER
论文地址:Multi-Aspect Non-local Network for Scene Text Recognition
参阅代码:github.com/wenwenyu/MA…
github.com/jiangxiluni…
简介:
-
提出Global Context(GC)block,Multi-Aspect GCAttention两个模块。
-
推理阶段提出依据缓存(memery-cache)的解码战略对解码进程加速。
-
在正常文本,曲折文本上都取得了最好的作用。
从上述结构网络全体结构能够看出,全体分为Encoding部分,Decoder部分。
-
Encoding部分由4个block的残差模块组成。网络输入图片巨细为481601(实践图片的狂傲比大于160/48,就直接resize为48160,其他状况,将高度resize为48,等比例缩放宽度,然后再补边),Encoding部分输出特征为640*512。
-
transformer的解码与lstm的解码相似,用encoder部分的输出核算留意力权重,并对输入向量重新分配,取得当时时间的输入。在解码阶段首要用multi-head attention核算当时时间的输入编码,得到tmp_feature,相当于LSTM中将时间t-1的输出输入到模型中,随后获取encoder部分的输出,分别作为Key和quary,核算取得留意力权重,并运用该权重对tmp_feature(value)重新分配,得到当时时间的特征成果。
网络参数配置如下:
参阅链接:文本辨认之MASTER
4.依据切割办法
Mask TextSpotter
TextScanner
Reading Characters in Order for Robust Scene Text Recognition
论文地址:arxiv.org/pdf/1912.12…
这篇文章选用切割的思路,运用像素等级和多通道的切割图来猜测类别,方位和顺序。然后运用rnn进行解码。
5.依据Transformers
Text Spotting Transformers
文章地址:Text Spotting Transformers CVPR2022
代码地址:github.com/mlpc-ucsd/T…
Text Spotting Transformers是受DETR系列模型启示提出的,TESTR由一个编码器和两个解码器构成,用于文本框控制点回归和字符辨认,其是一个端到端模型,避免许多现有文本检测办法中所需的启示式规划和中间阶段。
在TESTR中首要有三个创新点:
-
将Multi-Scale Deformable Attention引进text spotting,使模型不用运用FPN结构就能捕捉多标准的信息,而且Deformable Attention使得模型并不需要关注全图,操练速度更快;
-
引进组合query的思想,每个文本实例对应一个控制点query,一个字符query,控制点query中包括N个subquery用于猜测N个控制点,字符query中包括M个subquery用于猜测M个字符,一起运用factorized self-attention交融组内和组间信息,能够降低模型杂乱度;
-
引进由粗到精的边界框回归进程,首要生成粗的矩形框,然后将矩形框的极点当作Multi-Scale Deformable Attention的参阅点,用bounding box的信息辅导多视点的检测,终究猜测出控制点的坐标。
参阅:zhuanlan.zhihu.com/p/561376987
七、文本辨认论文代码下载:
Conf. | Date | Title | Highlight | code | ||
---|---|---|---|---|---|---|
AAAI | 2022 | Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution | Attention | *CODE | ||
AAAI | 2022 | Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition | Language Model | *CODE | ||
TRIG | arXiv | 2021/12/16 | TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance | Attention | No | |
VST | 解说 | arXiv | 2021/12/1 | Visual-Semantic Transformer for Scene Text Recognition | Language Model | No |
MATRN多模态 | 解说 | arXiv | 2021/11/30 | Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features | Language Model | *CODE |
arXiv | 2021/11/17 | TextAdaIN: Paying Attention to Shortcut Learning in Text Recognizers | Data Augmentation | No | ||
PP-OCRv2 | arXiv | 2021/9/7 | PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System | Lightweight Model with Better Accuracy | *CODE | |
ABINet | CVPR | 2021 | Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition | Language Model | *CODE | |
CVPR | 2021 | Primitive Representation Learning for Scene Text Recognition | Representation Learning | No | ||
CVPR | 2021 | What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels | Few-shot Learning | No | ||
CVPR | 2021 | Sequence-to-Sequence Contrastive Learning for Text Recognition | Contrastive Learning | No | ||
ICCV | 2021 | From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network | Language Model | *CODE | ||
ICCV | 2021 | Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition | Language Model | No | ||
ICCV | 2021 | Towards the Unseen: Iterative Text Recognition by Distilling from Errors | Others | No | ||
ICCV Workshop | 2021 | Meta Self-Learning for Multi-Source Domain Adaptation: A Benchmark | Others | *CODE | ||
SPIN | AAAI | 2021 | SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition | Others | *CODE | |
ICDAR | 2021 | RF-Learning: Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene Text Recognition | Others | *CODE | ||
SCATTER | CVPR | 2020 | SCATTER: selective context attentional scene text recognizer | Attention | No | |
SRN | CVPR | 2020 | Towards accurate scene text recognition with semantic reasoning networks | Language Model | No | |
Seed | CVPR | 2020 | Seed: Semantics enhanced encoder-decoder framework for scene text recognition | Language Model | *CODE | |
数据集 | CVPR | 2020 | UnrealText: Synthesizing realistic scene text images from the unreal world | Dataset | *CODE | |
CVPR | 2020 | Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition | Data Augmentation | *CODE | ||
CVPR | 2020 | What Machines See Is Not What They Get: Fooling Scene Text Recognition Models with Adversarial Text Images | Others | No | ||
CVPR | 2020 | On Vocabulary Reliance in Scene Text Recognition | Others | No | ||
SATRN | CVPR Workshop | 2020 | On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention | Attention | *CODE | |
Robustscanner | ECCV | 2020 | Robustscanner: Dynamically enhancing positional clues for robust text recognition | Attention | CODEPytorch | |
Var-ctc | ECCV | 2020 | Variational Connectionist Temporal Classification | CTC | No | |
GTC | AAAI | 2020 | GTC: Guided Training of CTC towards Efficient and Accurate Scene Text Recognition | CTC | No | |
Textscanner | AAAI | 2020 | Textscanner: Reading characters in order for robust scene text recognition | Attention | No | |
DAN | AAAI | 2020 | Decoupled attention network for text recognition | Attention | *CODE | |
CTC改善 | PR | 2020 | Reinterpreting CTC training as iterative fitting | CTC | *CODE | |
AEG | Neural Computing | 2020 | Adaptive embedding gate for attention-based scene text recognition | Others | No | |
ESIR | CVPR | 2019 | ESIR: End-to-end scene text recognition via iterative image rectification | Rectification Model | No | |
CVPR | 2019 | Sequence-to-sequence domain adaptation network for robust text image recognition | Others | No | ||
ACE | CVPR | 2019 | Aggregation Cross-Entropy for Sequence Recognition | Others | *CODE | |
STR总述 | ICCV | 2019 | What is wrong with scene text recognition model comparisons? dataset and model analysis | Attention | *CODE | |
ICCV | 2019 | Symmetry-constrained Rectification Network for Scene Text Recognition | Rectification Model | No | ||
AAAI | 2019 | Show, attend and read: A simple and strong baseline for irregular text recognition | Rectification Model | *CODE | ||
NRTR | ICDAR | 2019 | NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition | Attention | CODEPytorch | |
IEEE Access | 2019 | Natural Scene Text Recognition Based on Encoder-Decoder Framework | CTC | No | ||
CVPR | 2018 | Edit probability for scene text recognition | Attention | No | ||
AON | CVPR | 2018 | AON: Towards arbitrarily-oriented text recognition | Attention | No | |
ECCV | 2018 | Synthetically supervised feature learning for scene text recognition | CTC | No | ||
Char-Net | AAAI | 2018 | Char-Net: A character-aware neural network for distorted scene text recognition | Attention | No | |
SEE | AAAI | 2018 | SEE: Towards Semi-Supervised End-to-End Scene Text Recognition | Attention | *CODE | |
EnCTC | NIPS | 2018 | Connectionist Temporal Classification with Maximum Entropy Regularization | CTC | *CODE | |
ACM MM | 2018 | Attention and language ensemble for scene text recognition with convolutional sequence modeling | Attention | *CODE | ||
ASTER | TPRMI | 2018 | ASTER: An Attentional Scene Text Recognizer with Flexible Rectification | Attention | *CODE CODEPytorch | |
MORAN | PR | 2018 | MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition | Attention | *CODE | |
Neural Computing | 2018 | Reading scene text with fully convolutional sequence modeling | Attention | No | ||
ICCV | 2017 | Focusing attention: Towards accurate text recognition in natural images | Attention | No | ||
NIPS | 2017 | Gated recurrent convolution neural network for OCR | CTC | *CODE | ||
IJCAI | 2017 | Learning to read irregular text with attention mechanisms | Attention | No | ||
PR | 2017 | Accurate recognition of words in scenes without character segmentation using recurrent neural network | CTC | No | ||
CVPR | 2016 | Recursive recurrent nets with attention modeling for OCR in the wild | Attention | No | ||
CVPR | 2016 | Robust Scene Text Recognition With Automatic Rectification | Attention | No | ||
数据集 | CVPR | 2016 | Synthetic data for text localisation in natural images | Dataset | *CODE | |
CRNN | TPAMI | 2016 | An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition | CTC | *CODE CODEPytorch CODETF | |
STAR-Net | BMVC | 2016 | STAR-Net: A spatial attention residue network for scene text recognition | Attention | No | |
数据集 | NIPS | 2014 | Synthetic data and artificial neural networks for natural scene text recognition | Dataset | No |
八、OCR辨认论文总结:
本篇文章终究,免费共享博主自己参阅开源资料收拾的OCR相关论文汇总,将其按年份、数据集、所属办法及代码等信息进行全面分类总结,最近几年论文正在收拾中,欢迎大家继续关注和学习沟通!另外,文中如有错误,欢迎纠正!
九、总结
本篇为 【《浅显易懂OCR》第四章:OCR文字辨认】,首要对深度学习OCR文字辨认办法进行介绍,自己将从经典算法结构、代码、论文解读等视点打开,合作作者总结的思想导图,浅显易懂OCR常识,下一篇将对OCR文字辨认技能进行实战解说。