顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

论文标题:Pose-Appearance Relational Modeling for Video Action Recognition
论文链接:ieeexplore.ieee.org/document/99…
代码链接:github.com/Mona9955/PA…
作者单位:中科院自动化所(Liang Wang,IEEE Fellow)

欢迎关注大众号 CV顶刊顶会,仔细且严厉的计算机视觉论文前沿报道~

期刊介绍:IEEE Transactions on Image Processing(IEEE TIP)是图画处理范畴公认的尖端国际期刊,是我国计算机学会(CCF)推荐的A类期刊,代表了图画处理范畴先进的重大进展,要求论文在理论和工程作用上对图画处理及相关范畴具有重要推进作用,其最新的影响因子为15.8。

现阶段,视频行为辨认的最新研究主要能够分为两大类:依据外观建模的办法和依据姿势建模的办法。前者通常不运用光流估量来模仿较大动作的时序动态,而后者则疏忽了当时行为产生场景和物体等视觉上下文信息,这些信息都是动作辨认的重要头绪。依据这样的研究现状,来自我国科学院自动化研究所的研究团队提出一种姿势外观联合联系建模网络 (Pose- Appearance Relational Network,PARNet) 宣布在图画范畴尖端期刊IEEE TIP上。 PARNet奇妙的运用了依据外观和依据姿势两种行为辨认办法的优势,来进步模型对真实国际视频的鲁棒性。PARNet中包含有三个网络流,即姿势流、外观流和联系流。关于姿势流,作者构建了一个时序多姿势 RNN 模块,经过对 2D 姿势的时序改变进行建模取得动态表明。关于外观流,运用空间外观 CNN 模块来提取视频序列的大局外观表明。关于联系流,构建了一个姿势感知 RNN 模块,经过对动作敏感的视觉上下文信息建模来连接姿势和外观流。经过联合优化三个模块,PARNet 在姿势精确行为数据集(KTH、Penn-Action、UCF11)和具有应战性的姿势不精确数据集(UCF101、HMDB51、JHMDB)均达到了SOTA功能。展现了PARNet对复杂环境和喧闹骨架信息的泛化才能,此外,作者在 NTU-RGBD 数据集上,与现在盛行的依据 3D 骨架的办法进行功能比照,PARNet也能取得具有竞争力的辨认作用。

1.导言

为了有用精确地将视频中人体的姿势信息引进到辨认网络中,作者运用预训练的多人场景2D姿势估量器OpenPose[1]进行姿势估量,关于单个人体而言,该姿势估量器能够生成14个要害点(而不是传统办法中运用的 18 个要害点),如下图所示。

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

下图展现了各种行为辨认数据集中的姿势估量示例,其间第一行的估量作用动作明晰、姿势完好。第二行显现了一些困难样本,其间包含拥挤环境、小目标和身体不全导致的失利估量。第三行显现了几个失利案例。不稳定的姿势估量会严重影响依据姿势的行为辨认办法的功能。

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

2.本文办法

为了应对上述应战,本文提出了一种姿势外观联合联系建模网络 PARNet,下图为PARNet的全体框架。PARNet由时序多姿势RNN模块(TMP Module)、空间外观模块(Spatial Appearance,SA)和姿势感知RNN模块(Pose-Aware,PA)构成。三个模块别离针对2D姿势的时序建模、视频帧的空间建模以及这两种模态的联系建模而构建。考虑到现实生活中大量的多人动作场景,例如对抗性或合作性的运动(例如拳击和舞蹈),以及布景中有无关人员的活动(例如跳高和人群拥挤的情况),作者将设计要点放在了检测到的多个人体姿势上。PARNet不单独处理视频中的每个人,也不直接将他们聚合在一起,而是能够一起关注多个目标信息,一起疏忽不相关的人物。PARNet经过 PA 模块对视频中姿势和外观特征的联系进行建模,在每个迭代进程中着重捕获动作敏感的外观信息,生成的姿势感知特征可认为 TMP 模块的动态表明供给上下文信息的弥补。

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

2.1 时序注意力LSTM架构(TA-LSTM)

上文提到,PARNet中共包含三个信息处理流,作者运用经典的RNN结构来捕获其间的时序动态,作者首要介绍了运用的TA-LSTM模块,它是 PARNet 中 RNN 层的根本组件,其构成细节如下图所示。

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

关于时刻步 tt,TA-LSTM承受来自上一个迭代进程的注意力向量 ht−1′h_{t-1}^{\prime} 与当时输入 sts_t 的拼接向量,随后躲藏状况 hth_t 和 状况变量 ctc_t 的计算如下:

xt′=Wi[xt;ht−1′][itftotct]=[tanh⁡]W⋅[xt′;ht−1]ct=ft⊙ct−1+it⊙ctht=ot⊙tanh⁡(ct)\begin{aligned} x_{t}^{\prime} & =W_{i}\left[x_{t} ; h_{t-1}^{\prime}\right] \\ {\left[\begin{array}{c} i_{t} \\ f_{t} \\ o_{t} \\ \hat{c}_{t} \end{array}\right] } & =\left[\begin{array}{c} \sigma \\ \sigma \\ \sigma \\ \tanh \end{array}\right] W \cdot\left[x_{t}^{\prime} ; h_{t-1}\right] \\ c_{t} & =f_{t} \odot c_{t-1}+i_{t} \odot \hat{c}_{t} \\ h_{t} & =o_{t} \odot \tanh \left(c_{t}\right) \end{aligned}

其间 WiW_iWW 为全连接层的模型参数,\sigma⊙\odot 别离为 sigmoid 激活函数和点积函数。

2.2 时序多姿势RNN模块(TMP Module)

关于姿势流,作者设计了一个能够对多人姿势骨架进行建模的编码层,下图展现了编码层结构,给定姿势要害点的二维坐标作为输入,随后编码层依据身体拓扑结构生成高档姿势特征。首要设置每个帧中的最大人数为 NN。随后运用数据裁剪和零填充办法将多个人体姿势调整为固定巨细 NK2N K 2,其间 KK 表明是要害点编号,在本文的办法中为 14,2对应于 (x,y)(x, y) 坐标。关于画面中的每个人,骨架要害点依据语义联系分为五个身体部位,并经过一个多层感知器 (MLP) 进行编码。最终,将编码后的部分特征 le={lei}i=15l_{e}=\left\{l_{e_{i}}\right\}_{i=1}^{5} 拼接起来,经过姿势编码层进行线性变换,得到姿势向量 pm\mathbf{p_m}

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

随后经过Multi-Pose Attention RNN层进行迭代处理,此刻,姿势RNN层作为TA-LSTM的根本单元,在每个迭代进程中,先前的输出 h~t−1p\tilde{h}_{t-1}^{p} 用于对当时多人姿势进行注意力挑选,随后,姿势交融向量 PtP_t 由以下办法生成:

Pt=Attentionp(h~t−1p,Pm,t)P_{t}=\text { Attention }_{p}\left(\tilde{h}_{t-1}^{p}, P_{m, t}\right)

2.3 空间外观模块(Spatial Appearance,SA)

关于外观流,作者运用2D CNN从帧序列中提取空间特征。考虑到效率和准确性,采用了 BN-Inception 架构[2]。因为2D CNN 模型的输出包含具有不同分辨率的两阶段特征图,其间方位靠前的卷积层保留了更丰富的空间信息,因而作者将来自inception-4e层的中级特征序列导出到随后的姿势感知RNN模块中。一起,运用来自最终卷积层的高档特征序列 F5b∈RT771024F_{5 b} \in \mathbb{R}^{T \times 7 \times 7 \times 1024} 经过以下办法生成大局外观特征 FF

F=Avg−pool⁡(Con⁡v(vsTF5b,Wt))F=A v g_{-} \operatorname{pool}\left(\operatorname{Con} v\left(v_{s}^{T} F_{5 b}, W_{t}\right)\right)

2.4 姿势感知RNN模块(Pose-Aware,PA)

PA模块担任对TMP模块和SA模块提取的姿势流和外观流之间的联系进行建模。下图展现了模型再时刻步 tt 时的姿势感知外观注意力挑选进程。

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

其间姿势交融向量 PtP_t 用来引导SA模块中的中级特征图 F4e,tF_{4e,t}。其间的 1 1 卷积用来生成单通道注意力求,然后经过 softmax 操作对其进行归一化。因而,PA模块能够经过对F4e,tF_{4e,t}的元素进行注意力加权求和来取得局部外观特征 ftrf_{t}^{r},最终经过构建联系RNN层来对局部特征序列 Fr=(f1r,⋯ ,fTr)F_{r}=\left(f_{1}^{r}, \cdots, f_{T}^{r}\right) 进行时序演化处理,整个进程能够归纳为:

ftr=Attentionr(Pt,F4e,t)h~tr,Str=TA−LSTM(ftr,St−1r)\begin{aligned} f_{t}^{r} & =\text { Attention }_{r}\left(P_{t}, F_{4 e, t}\right) \\ \tilde{h}_{t}^{r}, S_{t}^{r} & =T A-L S T M\left(f_{t}^{r}, S_{t-1}^{r}\right) \end{aligned}

3.试验作用

本文的试验在7个标准的行为辨认数据集上进行,其间包含 KTH、Penn-Action、UCF11三种姿势完好数据集,还包含 UCF101、HMDB51 和 JHMDB 三个姿势不完好数据集,以及具有深度骨架信息的 NTU-RGBD 数据集

下表展现了本文PARNet在三个姿势完好数据集上的功能比照成果,能够看到,与其他办法相比,PARNet取得了较高的辨认准确率。

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

此外作者对“挥棒球棍”动作进行了可视化剖析,从采样视频中选取了6个具有代表性的帧,其间上部分的帧表明了PARNet的多姿势注意力挑选进程,下部分的帧展现了详细姿势部分的注意力强度

顶刊TIP 2022|双管齐下,中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

4.总结

本文提出了一种姿势外观联系联合建模网络PARNet,用来进行鲁棒的现实场景的行为辨认。PARNet一起获益于视频中人体的姿势信息和外观动作信息,并且经过联系建模机制,完成了姿势流和外观流的相互弥补。因而,PARNet 对正在进行的动作有较为全面的理解,这显着减少了对视频中特定视觉上下文或动态姿势的辨认误差。此外,作者在7个数据集上进行的广泛试验证明了本文办法的有用性。

参阅

[1] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh, “Realtime multi-person 2D pose estimation using part affinity fields,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 7291–7299.

[2] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in Proc. Int. Conf. Mach. Learn., Jul. 2015, pp. 448–456.