大规模食品图像识别：T-PAMI 2023论文解读-六虎

美团根底研制渠道视觉智能部与中科院核算所展开科研课题协作，一起构建大规划数据集Food2K，并提出渐进式区域增强网络用于食物图画辨认，相关研讨成果已发表于T-PAMI 2023。本文首要介绍了数据集特色、办法规划、功能比照，以及根据该数据集的搬迁试验等方面的内容，并对Food2K未来的作业进行了展望。期望能为从事相关作业的同学带来一些帮助或者启发。

1 引言

视觉智能部与中科院核算所于2020-2021年度展开了《细粒度菜品图画辨认和检索》科研课题协作，本文系两边联合在IEEE T-PAMI2023发布论文《Large Scale Visual Food Recognition》 (Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*) 的解读。IEEE T-PAMI全称为IEEE Transactions on Pattern Analysis and Machine Intelligence，是形式辨认、核算机视觉及机器学习范畴的世界顶级期刊，2022年公布的影响因子为24.314。

食物核算^[1]因能够支撑许多食物相关的运用得到越来越广泛的重视。食物图画辨认作为食物核算的一项基本使命，在人们经过辨认食物进而满足他们日子需求方面发挥着重要作用，如食物养分了解^[2,3]和饮食办理^[4]等。此外，食物图画辨认是细粒度视觉辨认的一个重要分支，具有重要的理论研讨意义。

现有的作业首要是运用中小规划的图画数据集进行食物图画辨认，如ETH Food-101^[5]、Vireo Food-172^[6]和ISIA Food- 500^[7]，可是它们的数据规划不足以支撑更杂乱更先进的食物核算模型的树立。考虑到大规划数据集已成为许多惯例图画分类和了解使命开展的要害推进要素，食物核算范畴也迫切需求一个大规划的食物图画数据集来进一步支撑各种食物核算使命，如跨模态食谱检索和生成^[8,9]。因而咱们构建了一个新的大规划基准数据集Food2K。该数据集包括1,036,564张食物图画和2,000类食物，涉及12个超类（如蔬菜、肉类、烧烤和油炸食物等）和26个子类别。与现有的数据集比较，Food2K在类别和图画数量均超越其一个数量级。除了规划之外，咱们还进行了严厉的数据整理、迭代标示和多项专业检查，以保证其数据的质量。

在此根底上，咱们进一步提出了一个面向食物图画辨认的深度渐进式区域增强网络。该网络首要由渐进式部分特征学习模块和区域特征增强模块组成。前者经过改善的渐进式练习办法学习多样互补的部分细粒度判别性特征（如食材相关区域特征），后者运用自注意力机制将多标准的丰厚上下文信息融入到部分特征中，进一步增强特征标明。本文在Food2K进步行的大量试验证明了所提出办法的有效性，并且在Food2K上练习的网络能够改善各种食物核算视觉使命的功能，如食物图画辨认、食物图画检索、跨模态菜谱-食物图画检索、食物检测和切割等。咱们期待 Food2K及在Food2K上的练习模型能够支撑研讨者探求更多的食物核算新使命。本论文相关的数据集、代码和模型可从网站下载：http://123.57.42.89/FoodProject.html。

2 Food2K数据集

Food2K一起包括西方菜和东方菜，在食物专家的帮助下，咱们结合现有的食物分类办法树立了一个食物拓扑体系。Food2K包括12个超类（如“面包”和“肉”），每个超类都有一些子类别（如“肉”中的“牛肉”和“猪肉”），每种食物类别包括许多菜肴（如“牛肉”中的“咖喱牛肉”和“小牛排”），如下图2所示：

下图3展现了每个食物类其他图画数量，Food2K中每个类其他图画数量散布在[153,1999]之间不等，呈现出显着的长尾散布现象，与类别不平衡性。

下图4展现了Food2K与现有食物图画辨认数据集的图画数量比照，能够看到Food2K在类别和图画数量上都远超越它们。

除此之外，Food2K还具有以下特征：

1）Food2K涵盖了更多样化的视觉外观和形式。不同食材组合、不同配饰、不同摆放等都会导致同一类其他视觉差异。举例来说，新鲜生果沙拉因其不同的生果成分混合而呈现出不同的视觉外观。这些食物的共同特征导致了更高的类内差异，使大规划的食物图画辨认变得愈加困难。

2）Food2K包括更细粒度的类别标示。以“Pizza”为例，一些经典的食物数据集，如Food-101，只要较粗粒度的披萨类。而Food2K中的披萨类则进一步分为更多的类别。不同披萨图画之间的纤细视觉差异首要是由共同的食材或同一食材的粒度不同引起的，这也导致了辨认的困难。一切这些要素使Food2K成为一个新的更具挑战性的大规划食物图画辨认基准，能够视为食物核算范畴的“ImageNet”。

3 办法

食物图画辨认需求发掘食物图画的自身特色，并一起考虑不同粒度的图画特征进行辨认。经过观察咱们发现，食物图画有着显着的大局特征和部分特征。

首要，食物图画显着有着大局的外观、形状和其他结构方面的特征，且该特征存在较大的类内差异。如下图5的“奶油核桃饼”显着有着改变不一的形状，炒面有着丰厚多样的纹理。虽然当时现已有许多办法来处理这一问题，但大多数办法首要会集在提取某种类型的特征，而疏忽了其他类型的特征。

其次，食物图画中有纤细差其他细节信息，部分细节信息是其要害的部分特征。在许多情况下，现有的神经网络无法很好地发掘那些具有判别性的细节特征。如图5中第3栏所示，仅仅依靠大局特征是不足以区分“玉米羹”和“鸡蛋羹”，必须进一步发掘其食材信息的不同（图中黄色框内）。因而，怎么更好地发掘食物图画的大局特征和部分特征，关于进步食物图画特征表达才能来说尤为重要。

第三，如下图6所示，不同的食材在不同的食物类别中所占的权重也是不一样的。“香菜”在“香菜”拌牛肉中是一个要害性食材，必不可少，可是在“老醋海蜇”这道菜中仅仅是一个配料，并不总是出现在该类其他一切图画中。因而需求发掘部分特征之间的联系，突出重点部分特征。进而进步食物辨认的准确率。

针对上述这些特色，本文规划了深度渐进式区域特征增强网络，它能够一起学习多样化且互补的部分和大局特征。该网络结构如下图7所示，该网络首要由三部分组成：大局特征学习模块、渐进式部分特征学习模块和区域特征增强模块。

其间，渐进式部分特征学习首要采用渐进式练习战略来学习互补的多标准细粒度的部分特征，例如不同的食材相关信息。区域特征增强运用自注意力机模块，将更丰厚的多标准上下文信息合并到部分特中，以增强部分特征标明。然后，咱们经过特征交融层将增强的部分特征和来自大局特征学习模块的大局特征交融到统一的特征中。

此外，在模型练习时，本文逐步渐进式地练习网络的不同阶段，最后将练习整个网络，并在此进程中引进 $K L$ 散度以添加各个阶段之间的差异性，以捕获更丰厚多样化的部分信息。在推理阶段，考虑到每个阶段的输出特征和交融后的特征之间的互补性，咱们将它们的猜测成果结合起来得到最终分类得分。接下来，本文将具体介绍各个模块的核算原理。

大局-部分特征学习

食物辨认能够看作是一个层次化的使命，在不同超类下的食物图画有着显着可分的视觉差异，因而能够根据他们的大局特征进行辨认。

可是在同一超类下，不同子类的食物图画之间的差异却十分小。因而食物辨认需求一起学习食物图画的大局特征和部分特征。因而，咱们提取并交融了这两个特征，此进程能够运用两个子网络别离提取食物图画的大局和部分特征。这两个子网络能够是两个独立的网络，可是这部分作业为了进步功率并减小模型参数，本文中两个子网络共享根底网络的大部分层。

大局特征学习

渐进式部分特征学习

部分特征子网络旨在学习食物的区分性细粒度特征。因为食材和烹饪风格的多样性，食物图画的要害判别部分是多标准和不规则的。作为本办法第一个创新点，咱们提出了渐进式练习战略来处理这个问题。在这种战略中，咱们首要练习具有较小感受野的网络较低阶段（能够了解为模型中较低的层），然后逐步扩展该部分区域范围，并引进新的层参加练习。

这种练习战略将迫使咱们的模型提取更精细的判别性部分特征，例如与食材相关的特征。在此进程之后，咱们从不同层提取特征以取得多标准的特征标明。

因而，该战略能够首要在网络较浅的层中学习更安稳的细粒度信息，然后跟着练习的进行逐步将注意力转移到在较深的层中学习粗粒度信息。具体来说，当具有不同粒度的特征被送入网络时，它能够提取出有判别性的部分细粒度特征，例如食材成分信息。但是，简略地运用渐进式练习战略不会得到多样化的细粒度特征，因为经过渐进式练习学习到的多标准特征信息或许会集在食物图画中类似的区域。

而作为本办法第二个创新点，咱们引进KL散度对来自不同阶段的特征进行离散化，以添加它们之间的差异性。咱们经过最大化不同阶段特征之间的KL散度值，能够迫使网络模型在不同阶段重视不同区域的多标准特征，这有助于网络捕获尽或许多的细节信息。

区域特征增强

不同于一般的细粒度使命中的辨认方针，食物图画没有固定的语义信息。现有的大部分食物辨认办法直接发掘这些判别性部分特征，疏忽了部分特征之间的联系。因而，咱们采用自注意力机制来学习不同部分特征之间的联系。该战略旨在捕获特征图中一起出现的食物特征。

练习和猜测

在网络优化进程中，咱们迭代更新网络的参数。首要，咱们运用各 $U$ 个阶段的穿插熵丢失，来反向传播以更新相应网络的参数。在此进程中，当时阶段的一切网络参数都将被优化，即使它们在之前的阶段现已被更新过。然后在特征交融阶段，咱们运用另一个穿插熵丢失函数来更新整个网络的参数。

此外，咱们的网络以端到端的办法进行练习。在渐进式练习进程中，关于每个阶段的输出，咱们采用以下穿插熵丢失：

4 试验

首要，咱们在Food2K上对现有的食物辨认办法和咱们提出的办法进行了比较。然后，咱们研讨Food2K在食物辨认、食物图画检索、跨模态菜谱-食物图画检索、食物检测和食物切割五个食物核算使命上的泛化才能。

办法验证与剖析

本文运用在ImageNet上预练习的ResNet^[10]作为根底网络。关于试验功能点评，运用Top-1准确率（Top-1）和Top-5准确率（Top-5）对食物类别辨认进行点评。

在Food2K上的功能试验

表1展现了在Food2K上现有的食物辨认办法和所提办法的功能比较。从表中能够看出，咱们的办法在Top-1和Top-5准确率上别离高出骨干网络（ResNet）2.24%和1.4%，以ResNet101为骨干的网络超越了现有的食物辨认办法，取得了较好的辨认功能。一起，这也证明了结合渐进式练习战略和自注意力来增强部分特征标明的优势。

在Food2K上的融化试验

本文在融化试验中首要探讨了以下几个问题：

（1）网络不同组件的有效性：从下图8(a)中能够看出，渐进式战略（PL）的引进能够带来辨认功能增益，且与区域特征增强（RE）相结合后进一步进步了功能。这说明咱们提出的PL+RE的学习战略能够有效地学到更具判别性的部分特征。

（2）渐进式学习阶段的数量U：从下图8(b)中能够看出，当U从1到3时，咱们的办法在Food2K上别离取得了81.45%、82.11%和83.03%的Top-1分类准确率。模型的分类功能接连进步了0.66%和0.92%。但是，当U = 4时，精度开始下降，或许的原因是浅层网络首要重视类别无关的特征。

（3）不同学习阶段的作用：为了更好地验证每个学习阶段和最终的连接阶段的奉献，咱们还经过别离运用每个阶段的猜测分数来进行点评。从下图8(c)中能够看出，比较于运用单一阶段进行猜测，联合每个阶段的得分进行猜测能够带来功能进步。此外，咱们的办法将每个阶段的猜测分数和联合特征的猜测分数进行组合，能够实现最佳的辨认功能。

（4）平衡参数和：咱们还研讨了公式 $L= Lcon+ L_{KL}$ 中平衡参数对功能的影响。咱们发现，当 $= 0 ， = 1$ 时，即总丢失仅包括 $K L$ 散度时，此时模型无法收敛。当 $= 1 ， = 0$ 时，即仅运用穿插熵丢失进行优化，模型的功能显着下降。当 $= 0.8 ， = 0.2$ 时，模型取得了最佳的辨认功能，这说明联合渐进式练习和KL散度的战略能够进步多样化部分细节特征的学习才能。

可视化

咱们运用Grad-CAM来进行可视化剖析。如下图9所示，以“Wasabi Octopus”为例，基线办法仅能取得有限的信息，不同的特征图倾向于重视类似的区域。比较之下，咱们的办法在第一阶段更重视“Vegetable Leaf”，而第二阶段首要重视“Octopus”。而在第三阶段，咱们的办法能够捕获该食物的总体特征，所以大局和部分特征都能被用于辨认。

根据Food2k的泛化试验

食物图画辨认

咱们点评了在Food2K上预练习过的模型在ETH Food-101、Vireo Food-172和ISIA Food-500上的泛化才能。从表2中咱们能够看出，运用Food2K进行预练习后一切办法都取得了必定程度的功能进步，这说明咱们的数据集在食物图画辨认使命上具有良好的泛化才能。

食物检测

咱们点评了Food2K数据集对食物检测使命的泛化才能，点评使命为检测食物托盘中的食物。为了进行比较，咱们还对在ETH Food-101进步行预练习的模型进行了点评。从表3中能够看出，运用Food-101和Food2K能够进步一切办法的mAP和AP75方针，且Food2K所带来的功能增益要超越Food-101。这说明咱们的办法在食物检测使命上表现出良好的泛化功能。

食物切割

咱们还点评了Food2K在食物切割使命上的功能。从表4中能够看出，关于一切运用Food2K进行预练习的模型均能带来功能的进步。这也证明了咱们的数据集在切割使命上具有良好的泛化表现。

食物图画检索

咱们进一步在食物图画检索使命上验证Food-2K的泛化才能。具体来说，咱们在ETH Food-101、Vireo Food-172和ISIA Food-500数据集上试验，并运用与前文相同的数据集划分办法。测验集的每张图片依次作为查询项，其他的图片作为检索库。咱们别离运用穿插熵丢失函数和以Contrastive loss和Triplet loss为代表的度量学习丢失函数来微调ResNet101网络，并运用mAP和Recall@1方针点评办法的功能。

表5的成果展现了在Food-2K数据集上预练习后微调的网络取得了不同程度的功能增益。具体来说，在Vireo Food-172数据集上取得了最优功能，并在三个数据集上别离取得了4.04%, 5.28% 和4.16%的功能增益。值得注意的是，当运用额外的ETH Food-101数据集预练习，以及在度量学习丢失函数办法上微调的办法并没有取得功能增益，但运用Food2K数据集预练习依然取得了功能增益，这是因为食物图画检索使命对方针数据集之间的差异较为敏感（ETH Food-101和Vireo Food-172），并直接标明来自Food2K的图画类别和标准的多样性进步了食物图画检索使命的泛化性。

跨模态菜谱-食物图画检索

咱们还在跨模态菜谱-食物图画检索使命进步一步验证Food2K的泛化才能。具体来说，咱们在Recipe1M^[11]数据集上验证办法的功能，并运用与之相同的数据集划分办法。与此一起，咱们运用MedR和Recall@K方针来点评。表6展现了咱们运用不同的网络骨干，并别离经过ImageNet、ETH Food-101和Food2K数据集预练习的成果。成果发现运用ETH Food-101和Food2K数据集预练习后在方针数据集上微调都取得了功能的增益，运用咱们的Food-2K数据集取得了更大的功能增益。

5 未来作业

本文全面的试验证明了Food2K关于各种视觉和多模态使命具有较好的泛化才能。根据Food2K的一些潜在研讨问题和方向如下。

（1）大规划鲁棒的食物图画辨认：尽管一些细粒度辨认办法（如PMG^[12，22]）在惯例细粒度辨认数据会集取得了最佳功能，但它们在Food2K上表现欠佳。虽然也有一些食物图画辨认办法（如PAR-Net^[13]）在中小规划食物数据集上取得了较好的功能，但它们在Food2K大规划食物图画辨认数据集上也并不能取得更好的功能。

咱们估测，跟着食物数据的多样性和规划的添加，不同食材、配饰和摆放等要素产生了更杂乱的视觉形式，曾经的办法不再适用。因而，根据Food2K有更多的办法值得进一步探求。例如Transformers^[14，23]在细粒度图画辨认方面产生了巨大的影响，其在大规划数据集上的功能高于CNNs。Food2K能够供给足够的练习数据来开发根据Transformers的食物图画辨认办法来进步功能。

（2）食物图画辨认的人类视觉点评：与人类视觉对一般物体辨认的研讨比较，对食物图画辨认进行点评或许愈加困难。例如，食物具有较强的地域和文明特征，因而来自不同区域的人对食物图画辨认会有不同的成见。最近的一项研讨^[15]给出了人类视觉体系和CNN在食物图画辨认使命中的比较。为了避免信息负担过重，需求学习的菜肴数量被限制在16种不同类型的食物中。更风趣的问题，值得进一步的探求。

（3）跨模态搬迁学习的食物图画辨认：咱们现已验证了Food2K在各种视觉和多模态使命中的推广。未来咱们能够从更多的方面来研讨搬迁学习。例如，食物有共同的地理和文明特点，能够进行跨菜系的搬迁学习。这意味着咱们能够运用来自东方菜系的练习模型对西方菜系进行功能剖析，反之亦然。经过更细粒度的场景标示，如区域级乃至餐厅级标示，咱们能够进行跨场景搬迁学习来进行食物图画辨认。此外，咱们还能够研讨跨超类别搬迁学习的食物图画辨认。例如，咱们能够运用来自海鲜超类的练习模型来对肉类超类进行功能剖析。这些风趣的问题也都值得深化探求。

（4）大规划小样本食物图画辨认：最近，有一些根据中小型食物类其他小样本食物图画辨认办法^[16,17]研讨。LS-FSFR^[18]是一项更实际的使命，它旨在辨认数百种新的类别而不忘记曾经的类别，且这些数百种新的食物类其他样本数很少。Food2K供给了大规划的食物数据集测验基准来支撑这项使命。

（5）更多根据Food2K的运用：本文验证了Food2K在食物图画辨认、食物图画检索、跨模态菜谱-食物图画检索、食物检测和切割等各种使命中具有更好的泛化才能。Food2K还能够支撑更多新颖的运用。食物图画生成是一种新颖而风趣的运用，它能够经过生成对抗网络（GANs）^[19]组成与实际场景类似的新的食物图画。例如，Zhu等人^[20]能够从给定的食材和指令中生成高度实在和语义共同的图画。不同的GANs，如轻量级的GAN ^[21]，也能够用于生成根据Food2K的食物图画。

(6) 面向更多使命的Food2K扩展：根据练习的Food2K模型能够运用于更多与食物核算使命中。另外，考虑到一些作业^[6]现已标明食材能够进步辨认功能，咱们计划扩展Food2K来供给更丰厚的特点标示以支撑不同语义级其他食物图画辨认。咱们还能够在Food2K进步行区域级和像素级标示使其运用范围更广。咱们还能够开展一些新的使命，如经过在Food2K上标示美学特点信息，对食物图画进行美学点评。

6 总结及展望

在本文中，咱们提出了具有更多数据量、更大类别覆盖率和更高多样性的Food2K，它能够作为一个新的大规划食物图画辨认基准。Food2K适用于各种视觉和多模态使命，包括食物图画辨认、食物图画检索、检测、切割和跨模态菜谱-食物图画检索。

在此根底上，咱们进一步提出了一个面向食物图画辨认的深度渐进式区域增强网络。该网络首要由渐进式部分特征学习模块和区域特征增强模块组成。渐进式部分特征学习模块经过改善的渐进式练习办法学习多样互补的部分细粒度判别性特征，区域特征增强模块运用自注意力机制将多标准的丰厚上下文信息融入到部分特征中以进一步增强特征标明。在Food2K进步行的大量试验证明了该办法的有效性。

美团自身有着丰厚的食物数据及事务运用场景，怎么运用多元化数据进行食物图画细粒度剖析了解，处理事务痛点问题是咱们继续重视的方向。现在，美团视觉智能部继续深耕于食物细粒度辨认技能，并成功将相关技能运用于按搜出图、点评智能推荐、扫一扫发现美食等不同的事务场景中，不只进步了用户体会，还降低了运营成本。

在技能沉积层面，咱们环绕此食物核算技能不断移风易俗，现在申请专利20项，发表CCF-A类会议或期刊论文4篇（如AAAI、TIP、ACM MM等）；咱们还参加了2019年和2022年CVPR FGVC细粒度辨认比赛，并取得了一冠一亚的成绩；一起在ICCV 2021上也成功举办了以LargeFineFoodAI为主题的视觉研讨会，为推进食物核算范畴的开展奉献了一份绵薄之力。

未来，咱们计划进一步环绕这条主线，探求多模态信息融入、多使命学习等技能路线，不断沉积经验教训，并将相关技能推广到更多、更远、更有价值的日子服务场景中，从而更好地服务好社会。

7 参考文献

[1]W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain, “A survey on food computing,” ACM CSUR, vol. 52, no. 5, pp. 1–36, 2019.
[2]A. Meyers, N. Johnston, V. Rathod, A. Korattikara, A. Gorban, N. Silberman, S. Guadarrama, G. Papandreou, J. Huang, and K. P. Murphy, “Im2Calories: towards an automated mobile vision food diary,” in ICCV, 2015, pp. 1233–1241.
[3]Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim, “Nutrition5k: Towards automatic nutritional understanding of generic food,” in CVPR, 2021, pp. 8903–8911.
[4]Y. Lu, T. Stathopoulou, M. F. Vasiloglou, S. Christodoulidis, Z. Stanga, and S. Mougiakakou, “An artificial intelligence-based system to assess nutrient intake for hospitalised patients,” IEEE TMM, pp. 1–1, 2020.
[5] L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101–mining discriminative components with random forests,” in ECCV, 2014, pp. 446–461.
[6]J. Chen and C.-W. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in ACM MM, 2016, pp. 32–41.
[7]W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, and X. Wei, “ISIA Food- 500: A dataset for large-scale food recognition via stacked globallocal attention network,” in ACM MM, 2020, pp. 393–401.
[8]J. Marn, A. Biswas, F. Ofli, N. Hynes, A. Salvador, Y. Aytar, I. Weber, and A. Torralba, “Recipe1M+: A dataset for learning cross-modal embeddings for cooking recipes and food images,” IEEE T-PAMI, vol. 43, no. 1, pp. 187–203, 2021.
[9]H. Wang, G. Lin, S. C. H. Hoi, and C. Miao, “Structure-aware generation network for recipe generation from images,” in ECCV, vol. 12372, 2020, pp. 359–374.
[10]K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016, pp. 770–778.
[11]A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, and A. Torralba, “Learning cross-modal embeddings for cooking recipes and food images,” in CVPR, 2017, pp. 3020–3028.
[12]R. Du, D. Chang, A. K. Bhunia, J. Xie, Z. Ma, Y. Song, and J. Guo, “Fine-grained visual classification via progressive multigranularity training of jigsaw patches,” in ECCV, 2020, pp. 153– 168.
[13]J. Qiu, F. P.-W. Lo, Y. Sun, S. Wang, and B. Lo, “Mining discriminative food regions for accurate food recognition,” in BMVC, 2019.
[14]Dosovitskiy, Alexey, et al. “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale.”In ICLR, 2020.
[15]P. Furtado, M. Caldeira, and P. Martins, “Human visual system vs convolution neural networks in food recognition task: An empirical comparison,” in CVIU, 2020, pp. 102878.
[16]H. Zhao, K.-H. Yap, and A. Chichung Kot, “Fusion learning using semantics and graph convolutional network for visual food recognition,” in WACV, 2021, pp. 1711–1720.
[17]S. Jiang, W. Min, Y. Lyu, and L. Liu, “Few-shot food recognition via multi-view representation learning,” ACM TOMM, vol. 16, no. 3, pp. 87:1–87:20, 2020.
[18]A. Li, T. Luo, Z. Lu, T. Xiang, and L. Wang, “Large-scale few-shot learning: Knowledge transfer with class hierarchy,” in CVPR, 2019, pp. 7212–7220.
[19]I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in NIPS, vol. 27, 2014.
[20]B. Zhu and C. Ngo, “CookGAN: Causality based text-to-image synthesis,” in CVPR, 2020, pp. 5518–5526.
[21]B. Liu, Y. Zhu, K. Song, and A. Elgammal, “Towards faster and stabilized gan training for high-fidelity few-shot image synthesis,” in ICLR, 2020.
[22] Zhu, H., Ke, W., Li, D., Liu, J., Tian, L., & Shan, Y. Dual cross-attention learning for fine-grained visual categorization and object re-identification. In CVPR 2-22(pp. 4692-4702).
[23] He, J., Chen, J. N., Liu, S., Kortylewski, A., Yang, C., Bai, Y., & Wang, C. . Transfg: A transformer architecture for fine-grained recognition. In AAAI 2022 (Vol. 36, No. 1, pp. 852-860).

8 本文作者

致岭、丽萍、君实、晓明等，均来自美团根底研制渠道/视觉智能部。

阅览更多

| 在美团大众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等要害词，可查看美团技能团队历年技能文章合集。

| 本文系美团技能团队出品，著作权归属美团。欢迎出于共享和沟通等非商业目的转载或运用本文内容，敬请注明“内容转载自美团技能团队”。本文未经许可，不得进行商业性转载或者运用。任何商用行为，请发送邮件至tech@meituan.com申请授权。

大规模食品图像识别：T-PAMI 2023论文解读