持续创作,加快成长!这是我参与「日新计划 10 月更文应战」的第10天,点击检查活动详情
导读
为什么半监督学习是机器学习的未来。
监督学习是人工智能范畴的第一种学习类型。从它的概念开始,无数的算法,从简略的逻辑回归到大规模的神经网络,都现已被研讨用来提高精确度和猜测才能。
但是,一个重大突破揭示了增加“无监督数据”能够提高模型泛化和性能。事实上,在十分多的场景中,带有标签的数据并不容易获得。半监督学习能够在规范的使命中实现SOTA的作用,只需要一小部分的有符号数据 —— 数百个练习样本。
在这个我们对半监督学习的探究中,我们会有:
- 半监督学习简介。什么是半监督学习,它与其他学习办法比较如何,半监督学习算法的结构/思维进程是什么?
- 算法:Semi-Supervised GANs。与传统GANs的比较,进程的解说,半监督GANs的性能。
- 用例和机器学习的未来。为什么半监督学习会有如此大的需求,哪里能够应用。
半监督学习介绍
半监督学习算法代表了监督和非监督算法的中间地带。虽然没有正式界说为机器学习的“第四个”元素(监督、无监督、强化),但它将前两个方面结合成一种自己的办法。
这些算法操作的数据有一些标签,但大部分是没有标签的。传统上,人们要么挑选有监督学习的方式,只对带有标签的数据进行操作,这将极大地减小数据集的规模,要么,就会挑选无监督学习的方式,丢弃标签保留数据集的其余部分,然后做比方聚类之类的工作。
这在实际世界中是很常见的。因为标示是很贵重的,特别是大规模数据集,特别是企业用途的,或许只有几个标签。例如,考虑确认用户活动是否具有欺诈性。在100万用户中,该公司知道有1万用户是这样的,但其他9万用户或许是恶意的,也或许是良性的。半监督学习答应我们操作这些类型的数据集,而不用在挑选监督学习或非监督学习时做出权衡。
一般来说,半监督学习算法在这个结构上运行:
- 半监督机器学习算法运用有限的符号样本数据集来练习自己,从而形成一个“部分练习”的模型。
- 部分练习的模型对未符号的数据进行符号。因为样本符号数据集有许多严重的约束(例如,在实际数据中的挑选偏差),符号的成果被认为是“伪标签”数据。
- 结合符号和伪标签数据集,创立一个独特的算法,结合描绘和猜测方面的监督和非监督学习。
半监督学习运用分类进程来辨认数据资产,运用聚类进程将其分成不同的部分。
算法:Semi-Supervised GAN
半监督的GAN,简称为SGAN,是[生成对立网络](medium.com/analytics-v… -an-直觉解说-革新概念-2f962c858b95)架构的一个变体,用于处理半监督学习问题。
在传统的GAN中,判别器被练习来猜测由生成器模型生成的图画是实在的仍是假的,答应它从图画中学习判别特征,即使没有标签。虽然大多数人通常在GANs中运用练习很好的生成器,能够生成和数据集中类似的图画,判别器仍是能够经过以转移学习作为起点在相同的数据集上建立分类器,答应监督使命从无监督练习中获益。因为大部分的图画特征现已被学习,因而进行分类的练习时刻和准确率会更好。
但是,在SGAN中,判别器一起承受两种模式的练习:无监督和监督。
- 在无监督模式中,需要区分实在图画和生成的图画,就像在传统的GAN中一样。
- 在监督模式中,需要将一幅图画分类为几个类,就像在规范的神经网络分类器中一样。
为了一起练习这两种模式,判别器有必要输出1 +n个节点的值,其间1表示“真或假”节点,n是猜测使命中的类数。
在半监督GAN中,对判别器模型进行更新,猜测K+1个类,其间K为猜测问题中的类数,并为一个新的“假”类增加额外的类标签。它涉及到一起练习无监督分类使命和有监督分类使命的判别器模型。整个数据集都能够经过SGAN进行传递 —— 当一个练习样本有标签时,判别器的权值将被调整,否则,分类使命将被疏忽,判别器将调整权值以更好地区分实在的图画和生成的图画。
虽然答应SGAN进行无监督练习,答应模型从一个十分大的未符号数据集中学习十分有用的特征提取,但有监督学习答应模型运用提取的特征并将其用于分类使命。其成果是一个分类器能够在像MNIST这样的规范问题上获得令人难以置信的成果,即使是在十分十分少的符号样本(数十到数百个)上进行练习。
SGAN巧妙地结合了无监督和监督学习的方面,强强联合,以最小的标签量,产生难以置信的成果。
用例和机器学习的未来
在一个可用数据量呈指数级增加的年代,无监督数据根本不能停下来等待标示。无数实在世界的数据场景会像这样呈现 —— 例如,YouTube视频或网站内容。从爬虫引擎和内容聚合体系到图画和语音辨认,半监督学习被广泛应用。
半监督学习将监督学习和非监督学习的过拟合和“不拟合”倾向(别离)结合起来的才能,创立了一个模型,在给出最小数量的符号数据和很多的未符号数据的情况下,能够出色地执行分类使命。除了分类使命,半监督算法还有许多其他用途,如增强聚类和异常检测。虽然这一范畴本身相对较新,但因为在当今的数字范畴中发现了巨大的需求,算法一直在不断地被发明和完善。
半监督学习确实是机器学习的未来。
英文原文:towardsdatascience.com/supervised-…