继续创造,加快生长!这是我参加「日新方案 10 月更文挑战」的第10天,点击检查活动概况

导读

实在国际的视觉问题的数据往往是长尾散布的敞开数据,长尾敞开辨认是更贴近实践的更全面的试金石

现有的核算机视觉设置 v.s. 实际场景

一天,一位生态学家来找咱们。他想利用现代核算机视觉技能在他的野生动物相机陷阱图画数据会集进行自动动物辨认。咱们十分自傲,因为这听起来就像一个根本的图画分类问题。可是,咱们失利了。他供给的数据集十分长,并且是敞开式的。像往常一样,当咱们没有足够的练习数据时,咱们问询是否有或许为长尾类别供给更多的数据,并且疏忽或许出现在测试数据会集的敞开类。不幸的是,搜集更多的数据并不是可行的。对这些生态学家来说,在野外拍照稀有和荫蔽的动物或许需求十分长的时刻。关于一些濒临灭绝的动物来说,他们甚至要等好几年才能得到一张照片。与此一起,新的动物物种不断进来,旧的动物物种不断离开。在这样一个动态体系中,总类别数从来都不是固定的。此外,珍稀新动物的鉴定比数量多的动物的维护价值更大。假如咱们只能在数量多的类上做得好,那么该办法将永久不会具有实践可用性。咱们尝试了所有咱们能想到的办法(数据增强,采样技能,少样本学习,不平衡分类,等等),但现有的办法都不能一起处理丰厚类、稀缺类和敞开类(图1)。

回到真实世界:大规模长尾开放数据集的识别

图1:在现有的核算机视觉设置和实际国际场景之间存在相当大的差距

从那时起,咱们就一直在考虑,造成现有核算机视觉办法和实际场景之间差距的最大原因是什么?类似的情况不仅仅产生在野生动物图画数据中,它们在实在国际的场景中一次又一次地产生(无论是在行业仍是在学术界)。假如卷积神经网络能够很好地从海量的ImageNet数据会集对图画进行分类,为什么在敞开的国际中图画分类仍然是一个未处理的问题呢?视觉辨认范畴提出的简直每一个任务(如少样本学习和敞开集辨认)都有成功的办法,但似乎没有人试图把这些问题作为一个全体来看待。当涉及到实在的应用时,分类任务(无论是头类仍是尾类)有时并不是独自出现的。因而,咱们以为这种差距或许来自于视觉辨认本身的问题设置。

敞开长尾辨认

在现有的视觉辨认设置中,练习数据和测试数据都是在一个关闭国际中平衡设置的,例如ImageNet数据集。可是,这个设置并不能很好地代表实际场景。例如,生态学家永久不或许搜集平衡的野生动物数据集,因为动物的散布是不平衡的。同样,人们也会为各种数据集(大街标志、时尚品牌、面孔、天气状况、大街状况等)的不平衡和敞开式散布而烦恼。为了忠实地反映这些方面,咱们正式研究了天然数据设置中出现的“敞开长尾辨认”(OLTR)。一个有用的体系应该能够在几个常见的和许多稀有的类别中进行分类,从几个已知的实例中归纳出一个单一类其他概念,并在一个从未见过的类其他实例中知道新颖性。咱们将OLTR定义为从长尾和敞开散布数据中学习,并在包含头、尾和敞开类的接连散布中通过平衡测试集点评分类精度(图2)。

回到真实世界:大规模长尾开放数据集的识别

图2:咱们的敞开长尾辨认任务有必要从敞开国际中散布的长尾练习数据中学习,处理不平衡分类、少样本学习和全散布的敞开集辨认

虽然OLTR在文献中没有被定义,但有三个紧密相关的任务常常被独自研究:不平衡分类、少样本学习和敞开集辨认。图3总结了它们的区别。新提出的敞开长尾辨认(OLTR)为点评视觉辨认体系供给了一个更全面、更实际的试金石。

回到真实世界:大规模长尾开放数据集的识别

图3:不平衡分类、少样本学习、敞开集辨认和敞开长尾辨认(OLTR)的区别

注意力 & 回忆的重要性

咱们建议将一个图画映射到一个特征空间,这样视觉概念能够很容易地相互相关,基于一个学习的衡量,尊重关闭国际的分类,一起承认敞开国际的新颖性。咱们提出的动态元嵌入结合了直接图画特征和相关回忆特征,特征范数表示对已知类的了解程度,如图4所示。

首先,咱们将头类和尾类的常识进行聚类,获得视觉回忆。然后将存储在回忆中的视觉概念作为相关回忆特征注入回忆,增强原始的直接回忆特征。它能够理解为利用诱导常识(即回忆特征)辅佐直接观察(即直接特征)。咱们进一步学习一个概念选择器来操控数量和类型的回忆特征被注入。因为head类已经有了大量的直接观察,所以只为它们注入了少量的回忆特性。相反,tail类很少被观察到,相关的视觉概念在回忆特征中是十分有利的。最终,咱们通过核算敞开类的可达性来校准所获得的视觉回忆的置信度。

回到真实世界:大规模长尾开放数据集的识别

图4:对咱们办法的直观解说。咱们提出的动态元嵌入结合了直接图画特征和相关回忆特征,特征范数表示对已知类的了解程度

全面的提高

如图5所示,咱们的办法对所有多、中、少样本类以及敞开类都进行了全面的处理,在各方面都取得了实质性的改善。

回到真实世界:大规模长尾开放数据集的识别

图5:咱们的办法在普通模型上的绝对F1得分。咱们的成果在所有方面都有所提高,无论是多/中/少类别仍是敞开类别

学习动态的可视化

在这里,咱们检查的视觉概念,回忆特征已注入可视化其顶部激活神经元,如图6所示。具体来说,关于每个输入图画,咱们辨认出其回忆特征中的前3个搬迁神经元。而在整个练习集上,每个神经元都被一组激活程度最高的图画块所显现。例如,在对左上方归于“公鸡”的尾类图画进行分类时,咱们的办法已经学会了别离搬迁代表“鸟头”、“圆形”和“纹路点”的视觉概念。通过特征灌注后,动态元嵌入的信息量和辨别性增强。

回到真实世界:大规模长尾开放数据集的识别

图6:来自回忆特征的前3个注入的可视化概念示例。除了右下角的失利事例(红色符号),其他三个输入图画都是plain模型分类错误,而咱们的模型分类正确。例如,在对左上方归于尾部类“公鸡”的图画进行分类时,咱们的办法已经学会了别离转化代表“鸟头”、“圆形”和“纹路点”的视觉概念。

回到实际国际

现在咱们回到实在的国际,将咱们提出的办法应用到第一部分说到的生态学家供给的野生动物数据上。走运的是,咱们的新框架在没有献身大量类的情况下对稀缺类进行了实质性的改善。更具体地说,关于少于40张图片的类,咱们能够获得大约40%的功能提高(从25%到66%)。咱们还获得了超过15%的敞开类检测功能提高。

咱们以为,在敞开长尾辨认设置下开发的核算办法最终能够满足天然散布数据集的需求。综上所述,敞开长尾辨认(Open Long-Tailed Recognition, OLTR)是点评视觉辨认体系的一个更全面、更实际的试金石,它能够进一步扩展到检测、分割和强化学习等范畴。

英文原文:bair.berkeley.edu/blog/2019/0…