继续创造,加速生长!这是我参加「日新方案 10 月更文挑战」的第28天,点击检查活动概况
聚类(Clustering)
是按照某个特定规范(如间隔)把一个数据集分割成不同的类或簇,使得同一个簇内的数据方针的相似性尽可能大,一起不在同一个簇中的数据方针的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
聚类概述
聚类分析在机器学习和数据挖掘中起着不可或缺的效果。学习一个好的数据表明办法关于聚类算法是至关重要的。近年来,使用深度神经网络学习聚类友好表明的深度聚类现已广泛应用于各种聚类使命中。
咱们从数据源的角度对深度聚类进行分析,
在不同数据源和初始条件下,从办法论、先验常识和体系结构等方面咱们能够将深度聚类办法分为四大类:
- 单视图深度聚类
- 半监督深度聚类
- 深度多视图聚类
- 深度搬运聚类
如下图所示:
Deep single-view clustering
单视图深度聚类
关于传统的集群使命,咱们通常会假定数据具有相同的方式和结构,那么这称为单视图或单模态数据。用深度神经网络(DNNs)提取这些数据的表明方式是深度聚类的一个重要特征。
那么,不同的应用深度学习的技能是与 DNN 的结构高度相关的。依据已有的论文提出的结构,咱们能够将算法具话为为五类:
- 根据 深度自编码器(DAE) 的深度聚类
- 根据 深度神经网络(DNN) 的深度聚类
- 根据 变分自编码器(VAE) 的深度聚类
- 根据 生成对抗网络(GAN) 的深度聚类
- 根据 图神经网络(GNN) 的深度聚类
Deep clustering based on semi-supervised learning
根据半监督学习的深度聚类
当遇到待处理的数据中包含有少量的先验束缚时,传统的聚类办法无法有效的使用这些先验信息,但是半监督聚类是处理这一问题的有效办法。
经过在模型中添加附加信息作为束缚损失,能够使聚类办法成为半监督聚类办法。但是现在深度半监督聚类的研讨还未得到很好的探究。
Deep clustering based on multi-view learning
根据多视图学习的深度聚类
在现实国际中,咱们遇到的数据通常来自不同的特征收集器或具有不同的结构,这些数据被称之为 “多视图数据” 或“多模态数据”,其间每个样本都有多个表明。
根据多视图学习的深度聚类,其目的是使用多视图数据中所包含的一致性和互补性信息来进步聚类性能。
现在深度多视图聚类能够大致归纳为三大类:
- 根据深度嵌入聚类
- 根据子空间聚类
- 根据图神经网络聚类
Deep clustering based on transfer learning
根据搬迁学习的深度聚类
关于实例数量有限且维度较高的使命,有时咱们能够找一个助手来提供额定的信息。
例如,如果 使命A 与另一个 使命B 相似,而 使命B 比 使命A 具有更多的信息用于聚类 (B是有符号的 或 B比A 更容易聚类),那么将信息从 B 搬运到 A 是有用的。
这就是常常遇到的无监督域适应(unsupervised domain adaption, UDA)搬迁学习,这种算法包括两个域:有符号的源域 和 无符号的方针域。
搬迁学习的方针是将从源使命中学到的常识或形式应用到不同但相关的方针使命中,根据搬迁学习的深度聚类办法旨在使用相关使命的信息进步当前聚类使命的性能。
相关函数映射关系
给定一组数据样本XX,咱们的方针是找到一个映射函数 FF,使得能够经过映射函数将 XX 映射到 k个聚类,映射结果用 来表明。
(1)Deep single-view clustering
(2)Deep clustering based on semi-supervised learning
其间,AA 是指 束缚矩阵。
(3)Deep clustering based on multi-view learning
其间,XiX_i 是 XX视图中的第 ii 行。
(4)Deep clustering based on transfer learning
其间,(Xs,Ys)(X^s,Y^s) 是 符号的源域,XtX^t 是未符号的方针域。