⚠️本文为稀土技能社区首发签约文章,30天内制止转载,30天后未获授权制止转载,侵权必究!
✨专栏介绍: 经过几个月的精心准备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,详细章节如导图所示,将分别从OCR技能发展、方向、概念、算法、论文、数据集等各种视点打开详细介绍,本篇为前语常识部分分为多个章节,首要介绍机器学习根底,方便小白或者AI爱好者快速学习根底常识,详细内容可能未能含概一切常识点,其他内容能够访问自己主页其他文章或个人博客,因自己水平有限,文中如有过错恳请指出,欢迎互相学习交流!
个人主页: GoAI | 公众号: GoAI的学习小屋 | 交流群: 704932595 |个人简介 : 签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划核算机视觉方向导师等,专心大数据与人工智能常识共享。
✨文章目录
《深入浅出OCR》前语常识:机器学习根底(一)(本篇)
《深入浅出OCR》前语常识:机器学习根底(二)
《深入浅出OCR》前语常识:机器学习根底(一)
一、机器学习概念
机器学习(Machine Learning, ML),顾名思义,让机器去学习。这里,机器指的是核算机,是算法运转的物理载体,你也能够把各种算法本身当做一个有输入和输出的机器。关于一个使命及其表现的衡量办法,规划一种算法,让算法能够提取中数据所蕴含的规矩,这就叫机器学习。假如输入机器的数据是带有标签的,就称作有监督学习。假如数据是无标签的,便是无监督学习。
1.1什么是机器学习?
机器学习=寻觅一种函数
1.2如何寻觅这个函数?
①定一个函数集合
②判断函数的好坏
③挑选最好的函数
1.3机器学习三板斧
①规划模型model
②判断模型的好坏
③挑选最好的函数,优化模型
二、常见机器学习算法:
2.1 机器学习算法分类简略介绍:
1、监督学习(SupervisedLearning):有类别标签的学习,依据练习样本的输入、输出练习得到最优模型,再运用该模型猜测新输入的输出;
代表算法:决议计划树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法;
2、半监督学习(Semi-supervisedLearning):一起运用很多的未符号数据和符号数据,进行方式辨认作业;
代表算法:self-training(自练习算法)、generative models生成模型、SVMs半监督支撑向量机、graph-basedmethods图论办法、 multiviewlearing多视角算法等;
3、无监督学习(UnsupervisedLearning):无类别标签的学习,只给定样本的输入,自动从中寻觅潜在的类别规矩;
代表算法:主成分剖析办法PCA等,等距映射办法、部分线性嵌入办法、拉普拉斯特征映射办法、黑塞部分线性嵌入办法、部分切空间排列办法等;
4、HOG特征:全称Histogram of Oriented Gradient(方向梯度直方图),由图画的部分区域梯度方向直方图构成特征;
5、LBP特征:全称Local Binary Pattern(部分二值方式),经过比较中心与邻域像素灰度值构成图画部分纹理特征;
6、Haar特征:描绘图画的灰度改变,由各模块的像素差值构成特征;
7、核函数(Kernels):从低维空间到高维空间的映射,把低维空间中线性不可分的两类点变成线性可分的;
8、SVM:全称Support Vector Machine(支撑向量机),在特征空间上找到最佳的超平面使练习集正负样本的距离最大;是处理二分类问题的有监督学习算法,引进核办法后也可用来处理非线性问题;
9、Adaboost:全称Adaptive Boosting(自适应增强),对同一个练习集练习不同的弱分类器,把这些弱分类器集合起来,构成一个更强的强分类器;
10、决议计划树算法(Decision Tree):处理练习数据,构建决议计划树模型,再对新数据进行分类;
11、随机森林算法(Random Forest):运用基本单元(决议计划树),经过集成学习将多棵树集成;
12、朴素贝叶斯(Naive Bayes):依据事情的先验常识描绘事情的概率,对联合概率建模来获得方针概率值;
13、神经网络(Neural Networks):仿照动物神经网络行为特征,将许多个单一“神经元”联结在一起,经过调整内部很多节点之间相互连接的联系,进行散布式并行信息处理。
2.2常见名词常识介绍
首要术语(基本)
首要包含标签、特征、样本、练习、模型、回归模型、分类模型、泛化、过拟合、猜测、平稳性、练习集、验证集、测验集。
标签(label) 标签是咱们要猜测的事物,在分类使命中的类别,比方是猫或狗;简略线性回归中的y变量;。标签能够是小麦未来的价格、图片中显示的动物品种、音频剪辑的意义或任何实物。在监督学习中,标签值是样本的“答案”或“成果”部分。
特征(feature) 在进行猜测时运用的输入变量。
特征是输入变量,即简略线性回归中的x变量;在分类使命中的输入图画特征。
简略的机器学习项目可能会运用单个特征,而比较复杂的机器学习项目可能会运用数百万个特征,按如下办法制定:
在垃圾邮箱检测器示例中,特征可能包含:
电子邮件文件中的字词 发件人的地址 发送电子邮件的时段 电子邮箱包含“一些敏感词” 样本(example) 数据集的一行。在监督学习的样本中,一个样本既有特征,也有标签。在无监督学习的样本中,一个样本只有特征。
误差
误差衡量了模型的希望猜测与实在成果的违背程度, 即刻画了学习算法本身的拟合才能。误差则表现为在特定散布上的适应才能,误差越大越违背实在值。
方差
方差衡量了相同巨细的练习集的改变所导致的学习功能的改变, 即刻画了数据扰动所造成的影响。方差越大,阐明数据散布越涣散。
误差、方差、模型复杂度三者之间的联系运用下图表明会更简略了解:
当模型复杂度上升的时候,误差会逐步变小,而方差会逐步变大。
其他概念请参阅自己这篇: 机器学习与深度学习根底概念
三、机器学习模型详细分类
从机器学习概念视点出发,将其按照模型类型分为监督学习模型、无监督学习模型和概率模型三大类:
(一)有监督学习
有监督学习通常是运用带有专家标注的标签的练习数据,学习一个从输入变量X到输入变量Y的函数映射。 Y = f (X)
练习数据通常是(nx,y)的方式,其间n代表练习样本的巨细,x和y分别是变量X和Y的样本值。
运用有监督学习处理的问题大致上能够被分为两类:
1.分类问题: 猜测某一样本所属的类别(离散的)。比方给定一个人(从数据的视点来说,是给出一个人的数据结构,包含:身高,年纪,体重等信息),然后判断是性别,或者是否健康。
2.回归问题: 猜测某一样本的所对应的实数输出(接连的)。比方猜测某一地区人的均匀身高。
线性回归,逻辑回归,分类回归树,朴素贝叶斯,K最近邻算法均是有监督学习的比如。
除此之外,集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的猜测组合起来,用来猜测新的样本。随机森林和XGBoost算法是集成技能的比如。
3.1 分类算法
分类算法和回归算法是对实在国际不同建模的办法。分类模型是以为模型的输出是离散的,例如大自然的生物被划分为不同的品种,是离散的。回归模型的输出是接连的,例如人的身高改变进程是一个接连进程,而不是离散的。
3.1.1 常用分类算法的优缺陷
算法 | 长处 | 缺陷 |
---|---|---|
Bayes 贝叶斯分类法 | 1)所需估量的参数少,关于缺失数据不敏感。 2)有着坚实的数学根底,以及稳定的分类效率。 |
1)需求假定特点之间相互独立,这往往并不建立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。 2)需求知道先验概率。 3)分类决议计划存在过错率。 |
Decision Tree决议计划树 | 1)不需求任何领域常识或参数假定。 2)适合高维数据。 3)简略易于了解。 4)短时刻内处理很多数据,得到可行且效果较好的成果。 5)能够一起处理数据型和惯例性特点。 |
1)关于各类别样本数量不一致数据,信息增益倾向于那些具有更多数值的特征。 2)易于过拟合。 3)忽略特点之间的相关性。 4)不支撑在线学习。 |
SVM支撑向量机 | 1)能够处理小样本下机器学习的问题。 2)提高泛化功能。 3)能够处理高维、非线性问题。超高维文本分类仍受欢迎。 4)避免神经网络结构挑选和部分极小的问题。 |
1)对缺失数据敏感。 2)内存耗费大,难以解说。 3)运转和调参略烦人。 |
KNN K近邻 | 1)思想简略,理论老练,既能够用来做分类也能够用来做回归; 2)可用于非线性分类; 3)练习时刻复杂度为O(n); 4)准确度高,对数据没有假定,对outlier不敏感; |
1)核算量太大。 2)关于样本分类不均衡的问题,会发生误判。 3)需求很多的内存。 4)输出的可解说性不强。 |
Logistic Regression逻辑回归 | 1)速度快。 2)简略易于了解,直接看到各个特征的权重。 3)能简略地更新模型吸收新的数据。 4)假如想要一个概率结构,动态调整分类阀值。 |
特征处理复杂。需求归一化和较多的特征工程。 |
Neural Network 神经网络 | 1)分类准确率高。 2)并行处理才能强。 3)散布式存储和学习才能强。 4)鲁棒性较强,不易受噪声影响。 |
1)需求很多参数(网络拓扑、阀值、阈值)。 2)成果难以解说。 3)练习时刻过长。 |
Adaboosting | 1)adaboost是一种有很高精度的分类器。 2)能够运用各种办法构建子分类器,Adaboost算法提供的是结构。 3)当运用简略分类器时,核算出的成果是能够了解的。而且弱分类器构造极端简略。 4)简略,不用做特征挑选。 5)不用忧虑overfitting。 |
对outlier比较敏感 |
3.1.2 分类算法的点评办法
分类点评办法首要功能是用来点评分类算法的好坏,而点评一个分类器算法的好坏又包含许多项方针。了解各种点评办法,在实践使用中挑选正确的点评办法是十分重要的。
-
常用术语 这里首要介绍几个常见的模型点评术语,现在假定咱们的分类方针只有两类,为正例(positive)和负例(negative)分别是:
- True positives(TP): 被正确地划分为正例个数,即实践为正例且被分类器划分为正例实例数;
- False positives(FP): 被过错地划分为正例个数,即实践为负例但被分类器划分为正例实例数;
- False negatives(FN):被过错地划分为负例个数,即实践为正例但被分类器划分为负例实例数;
- True negatives(TN): 被正确地划分为负例个数,即实践为负例且被分类器划分为负例实例数。
接下来针对上述四种术语的混淆矩阵,做以下阐明:
1)P=TP+FN表明实践为正例的样本个数。
2)True、False描绘的是分类器是否判断正确。
3)Positive、Negative是分类器分类成果,假如正例计为1、负例计为-1,即positive=1、negative=-1。用1表明True,-1表明False,那实践类标=TF*PN,TF为true或false,PN为positive或negative。
4)如True positives(TP)的实践类标=1*1=1为正例,False positives(FP)的实践类标=(-1)*1=-1为负例,False negatives(FN)的实践类标=(-1)*(-1)=1为正例,True negatives(TN)的实践类标=1*(-1)=-1为负例。
3.1.3常用分类使命点评方针
-
正确率(accuracy) 正确率是咱们最常见的点评方针,accuracy = (TP+TN)/(P+N),正确率是被分对的样本数在一切样本数中的占比,通常来说,正确率越高,分类器越好。
-
过错率(error rate) 过错率则与正确率相反,描绘被分类器错分的份额,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事情,所以accuracy =1 – error rate。
-
灵敏度(sensitivity) sensitivity = TP/P,表明的是一切正例中被分对的份额,衡量了分类器对正例的辨认才能。
-
特异性(specificity) specificity = TN/N,表明的是一切负例中被分对的份额,衡量了分类器对负例的辨认才能。
-
精度(查准率)(precision) precision=TP/(TP+FP),精度是精确性的衡量,表明被分为正例的示例中实践为正例的份额。
-
召回率(查全率)(recall) 召回率是掩盖面的衡量,衡量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitivity,能够看到召回率与灵敏度是一样的。
-
其他点评方针
核算速度:分类器练习和猜测需求的时刻;
鲁棒性:处理缺失值和异常值的才能;
可扩展性:处理大数据集的才能;
可解说性:分类器的猜测规范的可了解性,像决议计划树发生的规矩便是很简略了解的,而神经网络的一堆参数就不好了解,咱们只好把它看成一个黑盒子。
-
F1值
精度和召回率反映了分类器分类功能的两个方面。假如归纳考虑查准率与查全率,能够得到新的点评方针F1-score,也称为归纳分类率:F1=2precisionrecallprecision+recallF1=\frac{2 \times precision \times recall}{precision + recall}。
多分类使命点评方针:
为归纳多个类别的分类情况,评测系统全体功能,经常采用还有微均匀F1(micro-averaging)和宏均匀F1(macro-averaging )两种方针。
(1)宏均匀F1与微均匀F1是以两种不同的均匀办法求的全局F1方针。
(2)宏均匀F1的核算办法先对每个类别独自核算F1值,再取这些F1值的算术均匀值作为全局方针。
(3)微均匀F1的核算办法是先累加核算各个类别的a、b、c、d的值,再由这些值求出F1值。
(4)由两种均匀F1的核算办法不难看出,宏均匀F1相等对待每一个类别,所以它的值首要遭到稀有类别的影响,而微均匀F1相等考虑文档会集的每一个文档,所以它的值遭到常见类别的影响比较大。
ROC曲线和PR曲线
如下图所示,ROC曲线是(Receiver Operating Characteristic Curve,受试者作业特征曲线)的简称,是以灵敏度(真阳性率)为纵坐标,以1减去特异性(假阳性率)为横坐标制作的功能点评曲线。能够将不同模型对同一数据集的ROC曲线制作在同一笛卡尔坐标系中,ROC曲线越接近左上角,阐明其对应模型越牢靠。也能够经过ROC曲线下面的面积(Area Under Curve, AUC)来点评模型,AUC越大,模型越牢靠。
PR曲线
Recall召回率(查全率): Recall=TPTP+FNRecall=\frac{TP}{TP+FN}
意义:TP除以榜首列,即猜测为1实践为1的样本在一切实在为1类别中的占比。等价于真阳率。
Precision精准率(查准率): Precision=TPTP+FPPrecision=\frac{TP}{TP+FP}
意义:FP除以榜首行,即猜测为1实践为1的样本在一切猜测为1类别中的占比。
PR曲线是Precision Recall Curve的简称,描绘的是precision和recall之间的联系,以recall为横坐标,precision为纵坐标制作的曲线。该曲线的所对应的面积AUC实践上是方针检测中常用的点评方针均匀精度(Average Precision, AP)。AP越高,阐明模型功能越好。
分类使命点评方针参阅学习:blog.csdn.net/u013250861/…
四、机器学习导图总结共享
以下是作者自己整理的机器学习笔记思想导图,这里免费共享供我们学习,导图和笔记后续会持续更新。
链接:app.yinxiang.com/fx/339fe142…