作者| Feng
收拾 | 对白的算法屋
编者寄语:
很多小伙伴都了解比照学习,但要说温度系数的效果可能就不太清楚了。
卷友们好,我是对白。
比照学习中的温度系数是一个奥秘的参数,大部分论文都默许选用小的温度系数来进行自监督比照学习(例如0.07,0.2)。然而并没有对选用小温度系数的解说,以及温度系数是怎么影响学习进程的,即温度系数这个角色的含义。
今日给咱们介绍一篇CVPR2021中研究比照丢失(Contrastive Loss)温度系数的论文,由我校出品,解说了温度系数的详细效果,还借此探索了比照学习的学习机制,信任大伙看完今后,在内卷的道路上又能够领先别人一步了(真是太卷了QAQ)。
首要总结下本文的发现:
1.比照丢失函数是一个具备困难负样本自发现性质的丢失函数,这一性质关于学习高质量的自监督表明是至关重要的,不具备这个性质的丢失函数会大大恶化自监督学习的功能。重视困难样本的效果便是:关于那些现已远离的样本,不需要继续让其远离,而首要聚焦在怎么使没有远离的那些的样本远离,从而使得到的表明空间更均匀(uniformity)。
2.温度系数的效果是调理对困难样本的重视程度:越小的温度系数越重视于将本样本和最类似的其他样本分开)。作者对温度系数进行了深化的剖析和实验,并利用温度系数来解说比照学习是怎么学到有用表征的。
3.比照丢失存在一个均匀性-容忍性的Dilemma(Uniformity-Tolerance Dilemma)。小温度系数更重视于将与本样本类似的困难样本分开,因而往往能够得到更均匀的表明。然而困难样本往往是与本样本类似程度较高的,例如同一个类别的不同实例,即有很多困难负样本其实是潜在的正样本。过火强迫与困难样本分开会损坏学到的潜在语义结构。
论文对温度系数的效果进行了理论的剖析和实验的验证。
一、比照丢失更重视困难样本的特性
首要给出自监督学习广泛运用的比照丢失(InfoNCE loss)的方式:
其间是温度系数。直观来说,该丢失函数要求第i个样本和它的另一个augmentation的副本(即正样本)之间的类似度尽可能大,而与其他的实例(负样本)之间的类似度尽可能小。然而,很多的丢失能够到达这个要求,例如下面的最简略的方式:
然而实践练习进程,选用作为丢失函数效果十分欠好,论文给出了运用contrastive loss(Eq1)和简略丢失(Eq2)的功能比照,温度系数选用0.07:
上面的成果显现,在一切数据集上Contrastive Loss要远远好于Simple Loss。作者经过探究发现,不同于Simple Loss,Contrastive Loss是一个困难样本自发现的丢失函数。咱们能够经过公式(2)看到,Simple Loss对一切的负样本类似度给予了相同权重的赏罚( ,丢失函数对一切的负样本类似度的梯度都是相同的)。而Contrastive Loss则更会自动的给间隔更近类似度更高的负样本更多的赏罚。这一点能够经过比照丢失(Eq1 中)对不同负样本的类似度的赏罚梯度的简略计算来调查:
对正样本的梯度:
对负样本的梯度:
其间:
关于一切的负样本比较来说,的分母项都是相同的。那么越大,则的分子项越大,梯度项也越大。也便是说,比照丢失给予了更类似(困难)的负样本更大的远离该样本的梯度。能够把不同的负样本想像成同极点电荷在不同间隔处的受力状况,间隔越近的点电荷受到的库伦斥力更大,而间隔越远的点电荷受到的斥力越小。比照丢失也是这样的。这种性质更有利于构成在超球面均匀散布的特征。
为了验证上面表格中比照丢失和简略丢失的距离的确是因为比照丢失具有困难样本自发现的特性,作者还用了一种显式的困难样本发掘算法用于简略丢失上。即选取最类似的4096个样本作为负样本,并用Eq2的简略丢失作为丢失函数,选用显式困难样本发掘算法的简略丢失函数效果大大提高,远远超过了温度系数取0.07时的比照丢失。成果如下表所示:
二、温度系数的效果
除了上面介绍的困难样本自发现的性质之外,调查Eq3和Eq4,咱们能够简单地发现,丢失函数对正样本的梯度绝对值等于一切对负样本的梯度值绝对值的和,即
给予这个调查,作者定义了对第j个负样本的一个相对赏罚强度:
则关于一切的,构成了一个玻尔兹曼概率散布,该散布的熵跟着温度系数的增大严格增大,即是跟着单调递加的(只需要满意一切的 不相等即可)。至此作者们发现,温度系数决议了此散布的熵。假如咱们将由大到小排序,构成一个顺序统计量,那么熵的大小将决议了散布的峻峭程度,如下图所示,下图是作者演示的负样本赏罚梯度在不同温度系数下与类似度的联系。当温度系数很小时,例如蓝色线0.07,跟着的增大将赏罚梯度剧烈的增大。而当温度系数逐步增大,相对梯度的熵逐步也增大,概率散布逐步挨近均匀散布,例如途中的绿色线。那么对类似度大的负样本的重视度逐步减小。
上面论证了温度系数的效果,即温度系数决议了比照丢失对困难负样本的重视程度,越大的温度系数,往往天公地道,不会过分重视更困难的负样本;而温度系数越小,则越重视与该样本类似度十分大的困难负样本,给予困难负样本更大的梯度与正样本分离。
作者为了更详细的解说温度系数的效果,计算了两种极点状况,即温度系数趋向于0和无量大。
当温度系数趋向于0时:
能够看出,此刻比照丢失退化为只重视最困难的负样本的丢失函数。而当温度系数趋向于无量大时:
此刻比照丢失对一切负样本的权重都相同,都为,即比照丢失失去了困难样本重视的特性。有趣的是,当温度系数趋向于无量时,该丢失便变成了之前介绍的简略丢失。
作者经过上面的两个极限状况也剖析出了比照丢失跟着温度系数的增大而倾向于“天公地道”,跟着温度系数的减少而只重视最困难的负样本,这样的一种调理负样本重视度的效果。
三、均匀性-容忍性窘境
根据对温度系数效果的探索,作者从而指出了比照学习存在的潜在问题,即均匀性-容忍性的窘境。
关于温度系数来说,更小的温度系数更加重视困难样本,因而更简单构成均匀的表明空间,均匀的特征关于表明学习是十分重要的,详细能够见ICML2020的论文 <> 。可是另一方面,由于无监督学习中没有实在的类别标签,比照学习遍及将除本样本以外的一切其他样本作为负样本。
在这种状况下,与正样本类似度极高的负样本往往很可能是潜在的正样本。例如,与当时的苹果图片类似度最高的图片往往是另一个苹果,此刻假如太注重困难负样本则会损坏网络经过一定练习后现已学到的语义信息,这种状况在练习后期特别显着。跟着练习的进行,网络获取到的信息越来越挨近实在语义特性,那么此刻的负样本更有可能是潜在的正样本,因而一个启示是能够跟着迭代的次数增多而增大温度系数,这可能是作者今后的工作。于是作者认为,一个好的温度系数,应该是均匀性和容忍性的折衷。
作者对不同温度系数下的均匀性-容忍性进行了量化并可视化如上图。
四、实验验证
下图是实验对温度系数的验证,赤色的box是正样本的类似度,而横坐标往右依次是与类似度最大的10个样本的类似度散布。能够发现,温度系数越小,正样本和最困难的负样本之间的类似度gap越大,这说明了越小的温度系数越倾向于把最困难的负样本分开。该实验支撑了之前的理论剖析。
另一方面,作者也对不同的数据集的最优温度系数进行了验证,下图绿色的柱子为比照丢失跟着温度系数的功能体现。此外,作者也验证了采取显式困难样本发现的比照丢失,采取了显现的困难样本发掘算法后,功能体现与温度系数的关联弱化,当温度系数高于一个适宜的值时,该丢失发生的模型功能根本保持稳定。
五、总结
在本文中,作者企图了解无监督比照丢失的一些详细的性质和行为。作者们首要剖析出了比照丢失是一种困难样本感知的丢失函数。并且验证了困难样本感知的性质是比照丢失的不可或缺的性质。不具备这种性质的丢失函数,即使负样本十分多,功能还是会退化严重。此外作者们也深化研究了温度系数的效果,发现温度系数操控着对负样本感知程度。并接着提出了Uniformity-Tolerance Dilemma。整体来说,论文提醒了一些比照学习有用的性质和现象,信任本文会启示更多的研究者设计更好的丢失以及算法。
机器学习/深度学习算法沟通群
已建立机器学习/比照学习算法沟通群!想要进沟通群学习的同学,能够直接加我的微信号:duibai996。
加的时分备注一下:昵称+校园/公司。群里聚集了很多学术界和工业界大佬,欢迎一起沟通算法心得,日常还能够唠嗑~
最终欢迎咱们重视我的微信大众号: 对白的算法屋(duibainotes),跟踪NLP、引荐体系和比照学习等机器学习范畴前沿,日常还会分享我的创业心得和人生感悟。想进一步沟通的同学也能够经过大众号加我的微信,和我一同探讨技术问题,谢谢!