AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

论文标题:MGFN : Magnitude-Contrastive Glance-and-Focus Network for Weakly-Supervised Video Anomaly Detection
论文链接:arxiv.org/abs/2211.15…
代码链接:github.com/carolchenyx…
作者单位:香港大学、香港中文大学

会议介绍:AAAI(Association for the Advance of Artificial Intelligence)是由人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的的世界顶级学术会议之一,也是中国计算机学会(CCF)引荐的A类世界学术会议。

弱监督条件下的监控视频中反常行为检测是一项具有挑战性的使命。因为反常事情本身具有罕见性,未知性和无鸿沟性,因而关于反常事情数据的搜集难度非常大。现有的视频数据会集关于反常事情帧的标注不行精密,在练习时,往往只能确认当时整个视频中含有反常事情帧,而反常帧的详细位置并不清楚,因而称为弱监督视频反常检测。现有的办法关于长时段视频序列时,反常定位才能较差。来自香港大学和香港中文大学的研讨团队针对该问题提出了一种扫视-聚焦网络(glance and focus network),以有效地整合视频中的时空信息来完结精确的反常检测,该文现在已被人工智能顶级世界会议AAAI2023接收为Oral论文。此外,作者对现在社区中对反常时刻反常程度计算的办法进行了调查和研讨,发现我们经常运用的特征起伏(feature magnitudes)很容易受详细环境的影响,因而导致因为场景改变导致观察到的反常程度不一致。为了处理这个问题,作者提出了特征放大机制(Feature Amplification Mechanism)和起伏比照丢失(Magnitude Contrastive Loss)来增强检测反常的特征起伏的辨别力。作者在两个大型基准 UCF-Crime 和 XD-Violence 的试验成果证明了本文办法的有效性。

1.导言

现在社区关于监控视频中反常事情的定义依然很模糊,因为“反常”是相关于“正常”定义的相对术语,如下图所示,在没有决定性的“正常性”知识的情况下,仅依据单个或几个附近的帧来猜测反常是不合理的。

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

为了应对上述挑战,现有办法能够大致分为两个分支,一种办法经过构建时空表征架构来学习检测反常。但这类办法因为缺少大局上下文感知和对反常帧的特定关注,它们一般难以处理反常帧仅占一小部分的长视频样本。别的一类办法经过规划特定的丢失函数来学习区分反常和正常。例如,发表在ICCV2021上的论文[1]提出了一种鲁棒的时刻特征量级 (Robust Temporal Feature Magnitude,RTFM) 丢失,以将反常特征量级面向更大和正常的相反方向。 在相同的视频序列或类似的场景中,反常特征可能比正常特征获得更大的起伏。但是,作者经过试验发现,除了反常之外,特征量级还取决于视频的其他特点,如物体运动、场景中物体和画面中呈现人的数量等。如下图(a)所示,当视频画面中有很多物体运动的正常视频(下图)的特征起伏比上图中的反常视频还要大。

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

因而作者判定,仅运用RTFM丢失来简单的将反常特征增强和正常特征起伏缩小是不合理的,会受到场景和方针运动的影响,而影响网络练习,作者进一步发现,即便在相同的视频序列中,如上图(b)所示,经过RTFM学习的一些正常特征(赤色鸿沟框外的绿色点)会达到与反常点(赤色鸿沟框中的绿点)类似乃至更大的特征起伏。图(c)中的t-sne可视化表达的特征别离性也表明RTFM丢失无法有效别离正常和反常特征。

2.本文办法

为了处理上述问题,本文提出了一种用于视频反常检测的起伏比照扫视-聚焦网络 (Magnitude-Contrastive Glance-and-Focus Network,MGFN)。Glance-and-Focus是受人类视觉体系中的大局到部分信息集成机制的启示,MGFN首要会浏览整个视频序列以捕获长时刻上下文信息,然后进一步处理每个特定部分以进行反常检测。下图展示了MGFN的全体结构,首要将带有视频级标注的视频样本 VV 作为输入,其间 Vi∈RNiHW3V_{i} \in \mathbb{R}^{N_{i} \times H \times W \times 3},随后将每个视频序列均匀地分割成个片段,并将来自特征提取器的特征图表明为F={fi,t,wherei∈[1,B],t∈[1,T]}∈RBTPCF=\left\{f^{i, t}, \text { where } i \in[1, B], t \in\right.[1, T]\} \in \mathbb{R}^{B \times T \times P \times C}。随后特征放大机制(Feature Amplification Mechanism,FAM)以特征图FF为输入,显式计算特征范数MM来增强FF。然后经过 Glance Block (GB) 和 Focus Block (FB) 别离提取大局和部分特征。

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

2.1 特征放大机制(FAM)

FAM模块的构成细节如上图(b)所示,首要显式计算出 fi,tf^{i,t} 的特征范数 Mi,tM^{i, t} 如下所示:

Mi,t=(∑c=1C∣fi,t,c∣2)12∈R11P1M^{i, t}=\left(\sum_{c=1}^{C}\left|f^{i, t, c}\right|^{2}\right)^{\frac{1}{2}} \in \mathbb{R}^{1 \times 1 \times P \times 1}

之后,FAM 经过增加一维卷积调制特征范数 Conv1D(Mi,t)\text { Conv1D }\left(M^{i, t}\right)fi,tf^{i, t} 作为残差来导出增强特征FFAM={fFAMi,t}F_{F A M}=\left\{f_{F A M}^{i, t}\right\}如等式(2)所示:

fFAMi,t=fi,t+Conv1D⁡(Mi,t)∈R11PCf_{F A M}^{i, t}=f^{i, t}+\alpha \operatorname{Conv1D}\left(M^{i, t}\right) \in \mathbb{R}^{1 \times 1 \times P \times C}

在不影响特征图维度的情况下,FAM 经过将作为一致反常表明的特征范数显式合并到网络中来放大特征图。

2.2 Glance Block(GB)

Glance Block 的架构如下图(a)所示。为了削减计算负担,作者首要运用卷积将特征图维度降低。并经过short-cut卷积将输出特征图转换为 FScc−GB∈RBTPC/32F_{S c c_{-} G B} \in \mathbb{R}^{B \times T \times P \times C / 32},随后构建了一个视频级Transformer来学习视频片段之间的大局相关性。详细来说,作者计算了一个注意力求 A∈R1TTPA \in \mathbb{R}^{1 \times T \times T \times P} 来明确关联不同的时刻片段。

Ai,t1,t2=∑c=1CQ(Fscc−GBi,t1,c)K(Fscc−GBi,t2,c)A^{i, t_{1}, t_{2}}=\sum_{c=1}^{C} Q\left(F_{s c c_{-} G B}^{i, t_{1}, c}\right) K\left(F_{s c c_{-} G B}^{i, t_{2}, c}\right)

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

Glance Block 包括一个额外的前馈网络 (FFN),两个全连接层和一个 GeLU 非线性函数以进一步提高模型的表明才能,输出特征图FGBF_{G B}j接着被送到Focus Block中提取部分特征。

2.3 Focus Block(FB)

如上图 (b) 所示,Focus Block 由一个short-cut卷积、一个自注意卷积 (self-attentional convolution,SAC) 和一个前馈网络 (FFN) 组成。受自注意机制的启示,作者提出了自注意卷积(SAC)来增强每个视频片段中的特征学习。详细来说,利用 FScc−FBF_{S c c_{-} F B} 作为特征图和卷积核,并将此过程制定为核巨细为5的卷积,详细操作过程如下:

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

其间,

Fsac+FBi,t,k1=∑k1,k2=0C/16Fscc−FBi,tFscc−FBi,t,k2i,R1111P1F_{s a c+F B}^{i, t, k_{1}}=\sum_{k_{1}, k_{2}=0}^{C / 16} F_{s c c_{-} F B^{i, t} F_{s c c_{-} F B}^{i, t, k_{2}}}^{i, \mathbb{R}^{1}} \mathbb{1}^{1 \times 1 \times P \times 1}

2.4 Magnitude Contrastive Loss

因为反常检测本质上是一个二元分类问题,丢失函数形式如下:=−log(,)−(1−)log(1−,) = −log(,)−(1−)log(1−,),其间是视频等级的ground truth(=1=1表明反常),,,是猜测的当时片段的反常概率。为了更好地鼓励特征可别离性,作者提出了一个起伏比照(MC)丢失。

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

3.试验效果

本文的试验在两个标准数据集上进行,别离为UCF-Crime 和 XD-Violence。反常视频包括正常帧和反常帧,正常视频仅包括正常帧。作者选用(AUC)曲线和均匀精度(AP)别离作为UCF-Crime和XD-Violence 的的评估指标。 AUC 和 AP 越大表明模型的功能越好

下表显现了本文办法在 UCF-Crime 数据集的成果。如下表所示,本文的成果优于一切现有的一类基线、无监督工作和弱监督工作。凭借 VideoSwin backbone的强壮特征提取才能,本文的办法乃至超越 SOTA 办法 MSL 1.05% AUC,这已经是弱监督视频反常检测领域的重大改进。

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

下表显现了本文办法在 XD-Violence 数据集的成果。 相同,本文的功能优于一切现有著作的功能,证明了该文提出的弱监督视频反常检测模型的有效性

AAAI 2023|香港大学提出Glance-and-Focus网络,有效提升弱监督视频异常检测性能

4.总结

本文介绍了一种带有 Glance-and-Focus 模块和用于反常检测的起伏比照丢失的新型结构 MGFN。 提出的 MGFN 能够仿照人类的大局到部分视觉体系,包括一个 Glance 和 Focus 机制,能够有效地整合大局上下文和部分特征。此外,还提出了一种特征放大机制(FAM)来增强模型对特征量级的感知才能。此外为了学习场景自适应跨视频特征起伏分布,引入了起伏比照丢失以鼓励正常和反常特征起伏的可别离性。在两个大型数据集 UCF-Crime 和 XD-Voilence 上的试验成果表明了本文办法的有效性。

参考

[1] Tian, Y.; Pang, G.; Chen, Y.; Singh, R.; Verjans, J. W.; and Carneiro, G. 2021. Weakly-Supervised Video Anomaly Detection With Robust Temporal Feature Magnitude Learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 4975–4986.