前语 现有的头部姿态估量首要会集在具有预先检测到的正面头部的单个人,这依赖于独自练习的面部检测器,不能很好地泛化到完整的视点。在本文中,作者重视全规模 MPHPE 问题,并提出了一个名为 DirectMHP 的直接端到端简单基线,经过多头的联合回归位置和方向规划了一种新颖的端到端可练习单级网络架构,以解决 MPHPE 问题。 这种灵活的规划可以承受任意姿态表明,一起可以隐含地从更多环境中获益,以进步 HPE 精度,一起保持头部检测功能。

欢迎重视大众号CV技能攻略,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

核算机视觉入门1v3辅导班

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

论文:arxiv.org/pdf/2301.13…

代码:github.com/hnuzhy/Dire…

论文起点

现在,两个最广泛运用的 HPE 数据集BIWI和300W-LP仅包含窄规模偏航角(-99,99)的头部姿态标签。现有 HPE 办法的功能在这些基准上趋于饱和。然而,掩盖全规模偏航角(−180、180)的 HPE 办法因而相同具有重要的运用价值。

作者认为现在的两阶段 HPE 办法存在以下两个缺点:(1)人脸/头部检测和方向估量的两阶段模型不能端到端地练习,这使得它不紧凑且功率低下;(2) 独自的阶段无法整合和运用整个人体和周围布景的信息,因而这些模型在户外运用时对挑战性条件不稳健。

立异思路

因为多人头部姿态估量 (MPHPE) 使命没有专门的公共数据集。因而,本文首要别离构建两个 2D 全规模 MPHPE 数据集 AGORA-HPE 和 CMUHPE。然后,本文提出了一种新颖的单级端到端网络结构 DirectMHP,它可以直接猜测出现在一张图画中的一切人类头部的全方位姿态。该办法经过同享特征完成联合头部检测和姿态估量。一起,将头部姿态作为相邻特点集成到典型方针猜测中,支撑任意姿态表明,例如欧拉角。

办法

Benchmarks Construction

(1)AGORA-HPE

首要经过关闭形式的解决方案从具有精确正面视图和预界说相机参数Cref的通用头部模型Href核算类似改换矩阵Mc。在Hreal和Href中精心挑选N0对角地标进行对齐。然后,运用Mc松散地围绕每个头部界说一个改换后的3D半球,并经过具有实在相机参数Creal的2D投影生成其鸿沟框,以取得包含布景和整个头部的区域。终究,为了提取头部方向,估量从相机国际Ccam到实际国际Creal的改换矩阵 Mr。Mr核算如下:

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

然后依照数据集300W-LP和BIWI依照俯仰-偏航-滚动次序拆分出三个欧拉角。丢掉掉可能没有至少一个有用头部姿态标签的图画,终究生成的 AGORA-HPE 基准别离包含1,070和14,408个图画用于验证和练习集。

(2)CMU-HPE

CMU Panoptic Dataset由一个大规模的多视图系统收集。它的场景首要会集在半球形设备中的一个人或互动的人身上。其标签包含 31 个同步高清视频流中多人的 3D 身体姿态、手部关键点和面部特征。它还提供来自31个视图的校准相机参数Creal。典型的采样时刻快照如下图所示:

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

类似于构建AGORA-HPE的过程,本文构建了CMU-HPE,它别离有16,216和15,718个图画用于验证和练习集。

如下图,本文构建的两个数据集的俯仰角和横滚角基本上遵守正态分布。

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

提出的两个全规模数据集天然包含比300W-LP&AFLW2000和BIWI更多的人脸隐形头。如下图所示,除了那些独特的头部后仰外,一般的正面脸往往与自遮挡、隐现遮挡或异常视点等复杂情况并存。

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

DirectMHP

在MPHPE办法中,练习了一个密集的检测网络来直接猜测一组头部方针,其间包含头部鸿沟框集和相应的头部姿态一起设置,并联合头部检测和姿态估量之间的内涵相关性。

然后,将头部姿态视为附加的头部特点,并将其与其头部位置连接起来以构建头部方针的联合表明,在一致结构中运用联合猜测将这两个使命集成在一起。

一方面,一个合适的头部鸿沟框具有激烈的部分特征(例如,眼睛、耳朵和下巴)和弱的全局特征(例如周围布景和解剖位置),用于其头部方向估量。因而,本文将两者绑定到一个嵌入中,以使网络可以学习它们的内涵联系。

Network Architecture Design

网络结构如下图所示。采用方针检测架构(YOLOv5)作为backbone,从一张输入图画I中提取特征并生成猜测网格。在练习期间,运用方针网格G来监督丢失函数L。在推理中,运用对猜测的头部方针进行非最大抑制 (NMS)以取得终究鸿沟框集和相关头部姿态集。

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

Multi-Loss Optimization

核算总练习丢失:

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

核算三个丢失分量如下:

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

Splitting: Offline Inference

练习结束后,需要对猜测方针集进行处理。首要,运用非极大值抑制 (NMS) 来过滤掉误报和冗余鸿沟框。经过核算每个猜测方针的置信度,不需要修正取得正头部鸿沟框的常见NMS过程。

成果

DIRECTMHP-M与在300W-LP 数据集上练习的办法的比较(红色表明最好的成果,蓝色表明第二好的成果):

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

同理,在AGORA-HPE 基准验证集的功能比较:

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

类似的,在CMU-HPE 基准验证集的功能比较:

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

来自 COCO val-set 的一些户外图画的可视化如下图所示。第二行和第三行别离是比较6DRepNet和本文办法的例子。运用6DRepNet估量的头部样本有显着的不准确(黄色圈出)。

姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计

欢迎重视大众号CV技能攻略,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

【技能文档】《从零搭建pytorch模型教程》122页PDF下载

QQ沟通群:444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

模型布置沟通群:732145323。用于核算机视觉方面的模型布置、高功能核算、优化加速、技能学习等方面的沟通。

其它文章

深度了解变分自编码器(VAE) | 从入门到精通

核算机视觉入门1v3辅导班

核算机视觉沟通群

用于超大图画的练习策略:Patch Gradient Descent

CV小知识讨论与剖析(5)究竟什么是Latent Space?

【免费送书活动】关于语义切割的亿点思考

新方案:从过错中学习,点云切割中的自我规范化层次语义表明

Transformer沟通群

经典文章:Transformer是如何进军点云学习范畴的?

CVPR 2023 Workshop | 首个大规模视频全景切割竞赛

如何更好地应对下游小样本图画数据?不平衡数据集的建模的技巧和策

U-Net在2022年相关研讨的论文推荐

用少于256KB内存完成边际练习,开支不到PyTorch千分之一

PyTorch 2.0 重磅发布:一行代码提速 30%

Hinton 最新研讨:神经网络的未来是前向-前向算法

聊聊核算机视觉入门

FRNet:上下文感知的特征强化模块

DAMO-YOLO | 逾越一切YOLO,兼顾模型速度与精度

《医学图画切割》总述,详述六大类100多个算法

如何高效完成矩阵乘?万文长字带你从CUDA初学者的视点入门

近似乘法对卷积神经网络的影响

BT-Unet:医学图画切割的自监督学习结构

语义切割该如何走下去?

轻量级模型规划与布置总结

从CVPR22出发,聊聊CAM是如何激活咱们文章的热度!

入门必读系列(十六)经典CNN规划演化的关键总结:从VGGNet到EfficientNet

入门必读系列(十五)神经网络不work的原因总结

入门必读系列(十四)CV论文常见英语单词总结

入门必读系列(十三)高效阅读论文的办法

入门必读系列(十二)池化各要点与各办法总结

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(一)初次介绍TensorRT

TensorRT教程(二)TensorRT进阶介绍