持续创作,加快成长!这是我参与「日新计划 10 月更文挑战」的第27天,点击检查活动详情

导读

最根底的半监督学习的概念,给大家一个感性的知道。

半监督学习入门基础(一)

半监督学习(SSL)是一种机器学习技能,其中使命是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的方针是要比单独运用有符号数据练习的监督学习技能得到更好的成果。这是半监督学习系列文章的第1部分,对这个机器学习的重要子范畴进行了简要的介绍。

区别半监督学习,监督学习和无监督学习

整个数据会集可用于练习的有符号数据的范围区别了机器学习的这三个相关范畴。

监督学习是机器学习中最流行的形式,在这种形式中,能够经过标签的形式取得完好的监督。整个数据集都有符号,即一个标签与练习数据会集的每个样本相关联。机器学习模型运用这个标签数据集练习,并希望对新的样本猜测一个标签。监督学习首要包括两类使命:分类和回归。分类问题要求算法猜测一个离散值,而回归使命是需要从输入变量(X)逼近一个映射函数(f)到连续输出变量(y)。

手写数字识别运用(MNIST)数据集。每个样本都有一个图画和对应的数字作为标签。使命是学习从图画中猜测标签(即数字)。

半监督学习入门基础(一)

另一个例子是情感分类,运用IMDB数据集。每条记录都包括一个谈论和一个相应的标签(正面的或负面的)。这儿的使命是猜测给定谈论的情绪。

房价猜测是一个回归使命,其中标签(房价)是一个连续变量。

无监督学习中,没有符号数据可用。练习数据集包括样本,但没有特定的希望成果或标签。机器学习模型企图经过提取有用的特征并对其进行分析来自动地在数据中找到结构。像聚类、异常检测、关联等使命属于无监督学习。

聚类是将数据集划分为多个簇,使同一簇中的数据点与同一簇中的其他数据点更类似,与其他簇中的数据点不类似。例如,下图(左)中的数据点能够分成3个簇,如图(右)所示。留意,簇能够是任何形状。

半监督学习入门基础(一)

半监督式学习(SSL) ,正如其称号所示,介于两个极端之间(监督式是指整个数据集被符号,而非监督式是指没有符号)。半监督学习使命具有一个符号和一个未符号的数据集。它运用未符号的数据来取得对数据结构的更多理解。通常,SSL运用小的带标签数据集和较大的未带标签数据集来进行学习。

咱们的方针是学习一个猜测器来猜测未来的测试数据,这个猜测器比单独从有符号的练习数据中学习的猜测器更好。

半监督学习入门基础(一)

监督学习,半监督学习,无监督学习在符号数据上的不同可视化

为什么要关注半监督学习

在许多实际运用中,收集大的有标签数据集太昂贵或者不可行,但是有很多的无标签数据可用。关于这种状况,半监督学习是一个完美的方案。SSL技能能够运用带标签的数据,也能够从未带标签的数据派生结构,然后更好地解决总体使命。

典型的监督学习算法在符号数据集较小的状况下,简单呈现过拟合问题。SSL经过在练习过程中理解未符号数据的结构来缓解这个问题。

此外,这种学习技能减轻了构建很多符号数据集来学习使命的负担。SSL方法更接近咱们人类的学习方法。

让咱们举个例子来直观地看看半监督学习的作用。鄙人面的图中,当只对符号数据(大的黑点和白点)进行练习(即对符号数据进行监督学习)时,决议计划鸿沟(虚线)并不遵从数据“流形”的概括,这能够由额定的未符号数据(小灰点)来表明。

因而,SSL的方针是运用未符号数据来生成决议计划鸿沟,然后更好地反映数据的底层结构。

半监督学习入门基础(一)

由不同的半监督学习方法生成的决议计划鸿沟

半监督学习的使命举例

  1. CIFAR-10— 它是由10个类的3232像素的RGB图画组成的数据集,使命是图画分类。通常运用Tiny Images数据会集的随机图画来构成未符号数据集。
  2. SVHN— 街景门牌号数据集由真实门牌号的3232像素的RGB图画组成,使命是分类最中心的数字。它附带一个“SVHN-extra”数据集,该数据集由531,131个额定的数字图画组成,能够用作未符号数据。
  3. Text-Classification Tasks— 亚马逊谈论数据库,Yelp谈论数据集。

总结

半监督学习是一种有趣的方法,用于解决机器学习中缺少符号数据的问题。SSL算法还运用未符号数据来提高监督学习算法的性能。SSL算法通常提供了一种从无标签示例中了解数据结构的方法,减轻了对标签的需求。

本系列的第2部分会介绍了一些详细的SSL技能,未完待续。