⚠️本文为稀土技能社区首发签约文章,30天内制止转载,30天后未获授权制止转载,侵权必究!

《深入浅出OCR》前言知识:机器学习基础(一)

专栏介绍: 经过几个月的精心准备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,详细章节如导图所示,将分别从OCR技能发展、方向、概念、算法、论文、数据集等各种视点打开详细介绍,本篇为前语常识部分分为多个章节,首要介绍机器学习根底,方便小白或者AI爱好者快速学习根底常识,详细内容可能未能含概一切常识点,其他内容能够访问自己主页其他文章或个人博客,因自己水平有限,文中如有过错恳请指出,欢迎互相学习交流!

个人主页: GoAI | 公众号: GoAI的学习小屋 | 交流群: 704932595 |个人简介 : 签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划核算机视觉方向导师等,专心大数据与人工智能常识共享。

文章目录

《深入浅出OCR》前语常识:机器学习根底(一)(本篇)

《深入浅出OCR》前语常识:机器学习根底(二)


《深入浅出OCR》前语常识:机器学习根底(一)

一、机器学习概念

《深入浅出OCR》前言知识:机器学习基础(一)

机器学习(Machine Learning, ML),顾名思义,让机器去学习。这里,机器指的是核算机,是算法运转的物理载体,你也能够把各种算法本身当做一个有输入和输出的机器。关于一个使命及其表现的衡量办法,规划一种算法,让算法能够提取中数据所蕴含的规矩,这就叫机器学习。假如输入机器的数据是带有标签的,就称作有监督学习。假如数据是无标签的,便是无监督学习。

1.1什么是机器学习?

机器学习=寻觅一种函数

1.2如何寻觅这个函数?

①定一个函数集合

②判断函数的好坏

③挑选最好的函数

1.3机器学习三板斧

①规划模型model

②判断模型的好坏

③挑选最好的函数,优化模型

二、常见机器学习算法:

2.1 机器学习算法分类简略介绍:

1、监督学习(SupervisedLearning):有类别标签的学习,依据练习样本的输入、输出练习得到最优模型,再运用该模型猜测新输入的输出;

代表算法:决议计划树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法;

2、半监督学习(Semi-supervisedLearning):一起运用很多的未符号数据和符号数据,进行方式辨认作业;

代表算法:self-training(自练习算法)、generative models生成模型、SVMs半监督支撑向量机、graph-basedmethods图论办法、 multiviewlearing多视角算法等;

3、无监督学习(UnsupervisedLearning):无类别标签的学习,只给定样本的输入,自动从中寻觅潜在的类别规矩;

代表算法:主成分剖析办法PCA等,等距映射办法、部分线性嵌入办法、拉普拉斯特征映射办法、黑塞部分线性嵌入办法、部分切空间排列办法等;

4、HOG特征:全称Histogram of Oriented Gradient(方向梯度直方图),由图画的部分区域梯度方向直方图构成特征;

5、LBP特征:全称Local Binary Pattern(部分二值方式),经过比较中心与邻域像素灰度值构成图画部分纹理特征;

6、Haar特征:描绘图画的灰度改变,由各模块的像素差值构成特征;

7、核函数(Kernels):从低维空间到高维空间的映射,把低维空间中线性不可分的两类点变成线性可分的;

8、SVM:全称Support Vector Machine(支撑向量机),在特征空间上找到最佳的超平面使练习集正负样本的距离最大;是处理二分类问题的有监督学习算法,引进核办法后也可用来处理非线性问题;

9、Adaboost:全称Adaptive Boosting(自适应增强),对同一个练习集练习不同的弱分类器,把这些弱分类器集合起来,构成一个更强的强分类器;

10、决议计划树算法(Decision Tree):处理练习数据,构建决议计划树模型,再对新数据进行分类;

11、随机森林算法(Random Forest):运用基本单元(决议计划树),经过集成学习将多棵树集成;

12、朴素贝叶斯(Naive Bayes):依据事情的先验常识描绘事情的概率,对联合概率建模来获得方针概率值;

13、神经网络(Neural Networks):仿照动物神经网络行为特征,将许多个单一“神经元”联结在一起,经过调整内部很多节点之间相互连接的联系,进行散布式并行信息处理。

2.2常见名词常识介绍

首要术语(基本)

首要包含标签、特征、样本、练习、模型、回归模型、分类模型、泛化、过拟合、猜测、平稳性、练习集、验证集、测验集。

标签(label) 标签是咱们要猜测的事物,在分类使命中的类别,比方是猫或狗;简略线性回归中的y变量;。标签能够是小麦未来的价格、图片中显示的动物品种、音频剪辑的意义或任何实物。在监督学习中,标签值是样本的“答案”或“成果”部分。

特征(feature) 在进行猜测时运用的输入变量。

特征是输入变量,即简略线性回归中的x变量;在分类使命中的输入图画特征。

简略的机器学习项目可能会运用单个特征,而比较复杂的机器学习项目可能会运用数百万个特征,按如下办法制定:​

在垃圾邮箱检测器示例中,特征可能包含:

电子邮件文件中的字词 发件人的地址 发送电子邮件的时段 电子邮箱包含“一些敏感词” 样本(example) 数据集的一行。在监督学习的样本中,一个样本既有特征,也有标签。在无监督学习的样本中,一个样本只有特征。

误差

误差衡量了模型的希望猜测与实在成果的违背程度, 即刻画了学习算法本身的拟合才能。误差则表现为在特定散布上的适应才能,误差越大越违背实在值。

方差

方差衡量了相同巨细的练习集的改变所导致的学习功能的改变, 即刻画了数据扰动所造成的影响。方差越大,阐明数据散布越涣散。

误差、方差、模型复杂度三者之间的联系运用下图表明会更简略了解:

《深入浅出OCR》前言知识:机器学习基础(一)

当模型复杂度上升的时候,误差会逐步变小,而方差会逐步变大。

其他概念请参阅自己这篇: 机器学习与深度学习根底概念

三、机器学习模型详细分类

从机器学习概念视点出发,将其按照模型类型分为监督学习模型、无监督学习模型和概率模型三大类:

《深入浅出OCR》前言知识:机器学习基础(一)

(一)有监督学习

《深入浅出OCR》前言知识:机器学习基础(一)

有监督学习通常是运用带有专家标注的标签的练习数据,学习一个从输入变量X到输入变量Y的函数映射。 Y = f (X)

练习数据通常是(nx,y)的方式,其间n代表练习样本的巨细,x和y分别是变量X和Y的样本值。

运用有监督学习处理的问题大致上能够被分为两类:

1.分类问题: 猜测某一样本所属的类别(离散的)。比方给定一个人(从数据的视点来说,是给出一个人的数据结构,包含:身高,年纪,体重等信息),然后判断是性别,或者是否健康。

2.回归问题: 猜测某一样本的所对应的实数输出(接连的)。比方猜测某一地区人的均匀身高。

线性回归,逻辑回归,分类回归树,朴素贝叶斯,K最近邻算法均是有监督学习的比如。

除此之外,集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的猜测组合起来,用来猜测新的样本。随机森林和XGBoost算法是集成技能的比如。

3.1 分类算法

​ 分类算法和回归算法是对实在国际不同建模的办法。分类模型是以为模型的输出是离散的,例如大自然的生物被划分为不同的品种,是离散的。回归模型的输出是接连的,例如人的身高改变进程是一个接连进程,而不是离散的。

3.1.1 常用分类算法的优缺陷

算法 长处 缺陷
Bayes 贝叶斯分类法 1)所需估量的参数少,关于缺失数据不敏感。
2)有着坚实的数学根底,以及稳定的分类效率。
1)需求假定特点之间相互独立,这往往并不建立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。
2)需求知道先验概率。
3)分类决议计划存在过错率。
Decision Tree决议计划树 1)不需求任何领域常识或参数假定。
2)适合高维数据。
3)简略易于了解。
4)短时刻内处理很多数据,得到可行且效果较好的成果。
5)能够一起处理数据型和惯例性特点。
1)关于各类别样本数量不一致数据,信息增益倾向于那些具有更多数值的特征。
2)易于过拟合。
3)忽略特点之间的相关性。
4)不支撑在线学习。
SVM支撑向量机 1)能够处理小样本下机器学习的问题。
2)提高泛化功能。
3)能够处理高维、非线性问题。超高维文本分类仍受欢迎。
4)避免神经网络结构挑选和部分极小的问题。
1)对缺失数据敏感。
2)内存耗费大,难以解说。
3)运转和调参略烦人。
KNN K近邻 1)思想简略,理论老练,既能够用来做分类也能够用来做回归;
2)可用于非线性分类;
3)练习时刻复杂度为O(n);
4)准确度高,对数据没有假定,对outlier不敏感;
1)核算量太大。
2)关于样本分类不均衡的问题,会发生误判。
3)需求很多的内存。
4)输出的可解说性不强。
Logistic Regression逻辑回归 1)速度快。
2)简略易于了解,直接看到各个特征的权重。
3)能简略地更新模型吸收新的数据。
4)假如想要一个概率结构,动态调整分类阀值。
特征处理复杂。需求归一化和较多的特征工程。
Neural Network 神经网络 1)分类准确率高。
2)并行处理才能强。
3)散布式存储和学习才能强。
4)鲁棒性较强,不易受噪声影响。
1)需求很多参数(网络拓扑、阀值、阈值)。
2)成果难以解说。
3)练习时刻过长。
Adaboosting 1)adaboost是一种有很高精度的分类器。
2)能够运用各种办法构建子分类器,Adaboost算法提供的是结构。
3)当运用简略分类器时,核算出的成果是能够了解的。而且弱分类器构造极端简略。
4)简略,不用做特征挑选。
5)不用忧虑overfitting。
对outlier比较敏感

3.1.2 分类算法的点评办法

​ 分类点评办法首要功能是用来点评分类算法的好坏,而点评一个分类器算法的好坏又包含许多项方针。了解各种点评办法,在实践使用中挑选正确的点评办法是十分重要的。

  • 常用术语 ​ 这里首要介绍几个常见的模型点评术语,现在假定咱们的分类方针只有两类,为正例(positive)和负例(negative)分别是:

    1. True positives(TP): 被正确地划分为正例个数,即实践为正例且被分类器划分为正例实例数;
    2. False positives(FP): 被过错地划分为正例个数,即实践为负例但被分类器划分为正例实例数;
    3. False negatives(FN):被过错地划分为负例个数,即实践为正例但被分类器划分为负例实例数;
    4. True negatives(TN): 被正确地划分为负例个数,即实践为负例且被分类器划分为负例实例数。 

《深入浅出OCR》前言知识:机器学习基础(一)

接下来针对上述四种术语的混淆矩阵,做以下阐明:

1)P=TP+FN表明实践为正例的样本个数。

2)True、False描绘的是分类器是否判断正确。

3)Positive、Negative是分类器分类成果,假如正例计为1、负例计为-1,即positive=1、negative=-1。用1表明True,-1表明False,那实践类标=TF*PN,TF为true或false,PN为positive或negative。

4)如True positives(TP)的实践类标=1*1=1为正例,False positives(FP)的实践类标=(-1)*1=-1为负例,False negatives(FN)的实践类标=(-1)*(-1)=1为正例,True negatives(TN)的实践类标=1*(-1)=-1为负例。

3.1.3常用分类使命点评方针

  1. 正确率(accuracy) 正确率是咱们最常见的点评方针,accuracy = (TP+TN)/(P+N),正确率是被分对的样本数在一切样本数中的占比,通常来说,正确率越高,分类器越好。

  2. 过错率(error rate) 过错率则与正确率相反,描绘被分类器错分的份额,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事情,所以accuracy =1 – error rate。

  3. 灵敏度(sensitivity) sensitivity = TP/P,表明的是一切正例中被分对的份额,衡量了分类器对正例的辨认才能。

  4. 特异性(specificity) specificity = TN/N,表明的是一切负例中被分对的份额,衡量了分类器对负例的辨认才能。

  5. 精度(查准率)(precision) precision=TP/(TP+FP),精度是精确性的衡量,表明被分为正例的示例中实践为正例的份额。

  6. 召回率(查全率)(recall) 召回率是掩盖面的衡量,衡量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitivity,能够看到召回率与灵敏度是一样的。

  7. 其他点评方针

    核算速度:分类器练习和猜测需求的时刻;

    鲁棒性:处理缺失值和异常值的才能;

    可扩展性:处理大数据集的才能;

    可解说性:分类器的猜测规范的可了解性,像决议计划树发生的规矩便是很简略了解的,而神经网络的一堆参数就不好了解,咱们只好把它看成一个黑盒子。

  8. F1值

精度和召回率反映了分类器分类功能的两个方面。假如归纳考虑查准率与查全率,能够得到新的点评方针F1-score,也称为归纳分类率:F1=2precisionrecallprecision+recallF1=\frac{2 \times precision \times recall}{precision + recall}

多分类使命点评方针:

为归纳多个类别的分类情况,评测系统全体功能,经常采用还有微均匀F1(micro-averaging)和宏均匀F1(macro-averaging )两种方针。

(1)宏均匀F1与微均匀F1是以两种不同的均匀办法求的全局F1方针。

(2)宏均匀F1的核算办法先对每个类别独自核算F1值,再取这些F1值的算术均匀值作为全局方针。

(3)微均匀F1的核算办法是先累加核算各个类别的a、b、c、d的值,再由这些值求出F1值。

(4)由两种均匀F1的核算办法不难看出,宏均匀F1相等对待每一个类别,所以它的值首要遭到稀有类别的影响,而微均匀F1相等考虑文档会集的每一个文档,所以它的值遭到常见类别的影响比较大。

ROC曲线和PR曲线

如下图所示,ROC曲线是(Receiver Operating Characteristic Curve,受试者作业特征曲线)的简称,是以灵敏度(真阳性率)为纵坐标,以1减去特异性(假阳性率)为横坐标制作的功能点评曲线。能够将不同模型对同一数据集的ROC曲线制作在同一笛卡尔坐标系中,ROC曲线越接近左上角,阐明其对应模型越牢靠。也能够经过ROC曲线下面的面积(Area Under Curve, AUC)来点评模型,AUC越大,模型越牢靠。

《深入浅出OCR》前言知识:机器学习基础(一)

PR曲线

Recall召回率(查全率):Recall=TPTP+FNRecall=\frac{TP}{TP+FN}

意义:TP除以榜首列,即猜测为1实践为1的样本在一切实在为1类别中的占比。等价于真阳率。

Precision精准率(查准率):Precision=TPTP+FPPrecision=\frac{TP}{TP+FP}

意义:FP除以榜首行,即猜测为1实践为1的样本在一切猜测为1类别中的占比。

PR曲线是Precision Recall Curve的简称,描绘的是precision和recall之间的联系,以recall为横坐标,precision为纵坐标制作的曲线。该曲线的所对应的面积AUC实践上是方针检测中常用的点评方针均匀精度(Average Precision, AP)。AP越高,阐明模型功能越好。

《深入浅出OCR》前言知识:机器学习基础(一)

分类使命点评方针参阅学习:blog.csdn.net/u013250861/…

四、机器学习导图总结共享

以下是作者自己整理的机器学习笔记思想导图,这里免费共享供我们学习,导图和笔记后续会持续更新。

链接:app.yinxiang.com/fx/339fe142…

《深入浅出OCR》前言知识:机器学习基础(一)