《Video anomaly detection with spatio-temporal dissociation》


原文链接: tuzhigang.cn/thesis/26_P…

作者: Yunpeng Chang, Zhigang Tu, Wei Xie, Bin Luo, Shifu Zhang, Haigang Sui, Junsong Yuan

作者单位: The State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan, Hubei 430079, China;

The School of Computer, Central China Normal University, LuoyuRoad 152, Wuhan, Hubei, China;

Shenzhen Infinova Company Ltd., Shenzhen, Guangdong 518100, China;

The Computer Science and Engineering department, State University of New York at Buffalo, NY 14260-2500, USA

期刊: Pattern Recognition(SCI一区)

引证格式 Chang Y, Tu Z, Xie W, et al. Video anomaly detection with spatio-temporal dissociation[J]. Pattern Recognition, 2022, 122: 108213.

在线链接: www.sciencedirect.com/science/art…

本文探究了一种新的卷积主动编码器架构,该架构能够别离时空标明以别离捕获空间和时刻信息。作者开发了一个依据方差的重视模块,还提出了一种深度K-means聚类战略。试验证明了作者的办法达到了最先进的功用。

摘要: 与之前运用重建或猜测作为辅助使命来学习时刻规律性的工作不同,在这项工作中,作者探究了一种新的卷积主动编码器架构,该架构能够别离时空标明以别离捕获空间和时刻信息,由于反常事情一般在外观和运动行为上不同于正常。具体而言,空间主动编码器经过学习重构榜首个独自帧(FIF)的输入来对外观特征空间上的常态性进行建模,而时刻部分将前四个接连帧作为输入,将RGB差作为输出,以有用的办法模仿光流的运动。在外观或运动行为上不规则的反常事情会导致较大的重建差错。为了进步对快速移动反常值的检测功用,作者开发了一个依据方差的留意力模块,并将其插入到运动主动编码器中,以杰出显现大的运动区域。此外,提出了一种深度K-means聚类战略,以强制空间和运动编码器提取聚类标明。在一些揭露可用数据集上的很多试验证明了作者的办法的有用性,该办法达到了最先进的功用。

1布景

(1)视频反常检测是一项极具挑战性的使命:首先,实在的视频数据很复杂,一些反常数据点可能靠近正常区域的边界;其次,用于反常检测的标签练习数据是有限的,虽然正常形式一般比较容易收集,而反常样本很少且收集成本高。

(2)最近,许多依据深度学习的办法被提出来经过建模正常形式来处理有限符号数据的问题。这些办法大多学习主动编码器或U-Net来重建正常事情或猜测未来帧,以捕获视频序列背面的正常性。

(3)依据重构的反常检测办法选用手工制造的特征(例如低水平轨道特征)或直接运用视频帧作为输入,并提取高水平特征标明来建模正常性,其间能够经过最小化重构差错来学习正常事情的时刻规律性。

(4)但是,这些办法首要会集于学习运动信息和时刻规律,而疏忽了一个关键因素,即外观反常提示。这使得它们对一些反常对象不敏感,这些反常对象在外观上与正常对象显着不同,但不触及运动反常值。由于反常事情在外观或运动上都可能是不规则的,因而需求将空间和时刻特征结合起来进行反常检测。

2首要贡献

(1)本文提出了一种新的主动编码器架构,以别离时空标明,并学习空间特征空间和运动特征空间中的规律性,以检测视频中的反常事情。

(2)规划了一种高效的运动主动编码器,它以接连视频帧作为输入,以RGB差作为输出以模仿光流的运动。所提出的办法比依据光流的运动标明学习办法快得多,在一个GPU下,其均匀运转时刻为32FPS。

(3)运用方差留意力模块主动为视频片段的运动部分分配重要权重,这有助于进步运动主动编码器的功用。

(4)探究了一种深度K-means聚类战略,以强制主动编码器网络生成紧凑的运动和外观描绘符。由于聚类仅在正常事情上练习,因而聚类与反常标明之间的间隔远高于正常形式之间的间隔。重建差错和聚类间隔一同用于评价反常。

(5)将原始运动主动编码器的多个RGB差分输出替换为榜首个和最终一个独自帧之间的残差,以使运动主动编码器学习输入视频帧内的最长范围时刻信息。试验成果标明,经过学习猜测这种运动头绪能够进步反常检测的功用。

(6)为了学习空间和运动特征空间中的常态性,将从同一空间方位的两个流中提取的这些标明连接起来,并运用早期交融战略联合优化两个流和深度K-means聚类。此外,进行了更多的试验来证明所提出的深度K-means聚类办法的有用性。

(7)修改了反常分数核算方案,以将时空信息与它们在像素级与深度K-means聚类的间隔交融。与从前的帧级交融方案比较,试验成果标明,新架构的功用得到了改进。

3首要内容

A.总结相关工作

(1)运用主动编码器进行反常检测。反常事情检测使命一般在无监督的环境中制定,其间练习集仅包括正常事情;重构办法:运用主动编码器来提取特征标明,并选用依据重构或依据猜测的办法来学习视频序列背面的常态性;未来帧猜测:一种代替的依据深度学习的办法,它将反常视为不符合预期的事情。

(2)运用双流网络的视频使命。为了充分运用视频使命的空间和时刻信息;关于这些办法,获取光流或轨道需求花费时刻。比较之下,本文运用RGB差分战略来代替光流来模仿运动信息,这更有用。

(3)数据标明和数据聚类。依据编码器的办法将特征学习和聚类结合在一同。

B.办法概述

关于反常事情检测使命,练习集仅包括正常事情,因而一个有用的解决方案是运用无监督集学习正常练习视频中的规律性。在作者提出的办法中,运用双流架构别离空间信息和运动信息,并别离将重建和猜测用作空间流和运动流的辅助使命。

如图1所示,结构中有三个首要组件来处理给定的视频片段。将时空信息分解为两个子模块。空间主动编码器Ea和Da用于重建LIF,而时刻主动编码器Em和Dm用于猜测输入接连视频帧的FIF和LIF之间的RGB差。编码器和解码器都由三个ResNet块构成。

【文献笔记】基于时空分离的视频异常检测

图1 视频反常检测架构概述

C.网络结构

(1)空间主动编码器。为了检测具有场景和外观等空间特征的反常对象,将输入视频片段的榜首帧馈入空间主动编码器网络。在模型中,空间编码器用于将输入帧编码为中等等级的外观标明,而且经过最小化输入帧和输出帧之间的重构差错来练习空间主动编码器。图2描绘了空间主动编码器的首要结构。

【文献笔记】基于时空分离的视频异常检测

图2 空间主动编码器的结构以及空间分辨率和特征图的通道数

(2)运动主动编码器。虽然运动特征十分有用,但光学流估量的贵重核算成本阻止了依赖于光流的办法用于许多实时完成。运用一种新的运动标明来模仿光流的运动,该运动直接经过视频帧之间的RGB值的差异取得。如图3所示,能够合理地假设从光流捕获的运动标明能够从RGB差分的简单头绪中学习。因而,构建了一个运动主动编码器,用接连视频帧的输入生成RGB差。经过运用发生的RGB差模仿光流的运动,运动主动编码器能够学习时刻规律,其捕获的特征标明包括基本的运动信息。图4描绘了运动主动编码器的首要结构。

【文献笔记】基于时空分离的视频异常检测

图3 RGB视频帧、RGB差异和光流的一些示例

【文献笔记】基于时空分离的视频异常检测

图4运动主动编码器的结构以及空间分辨率和特征图的通道数

(3)方差留意模块。反常行为更容易发生较大的运动改动,依据这一特性,规划了一种依据方差的时刻主动编码器,以主动将重要性权重分配给视频片段的运动部分。由于运动编码器由三个2D ResNet块组成,因而特征图的每个方位都包括通道上的部分运动信息。它类似于包括沿时刻轴的运动信息的3D卷积,而2D卷积包括特征通道内的这些信息。因而,关于移动较大的区域,这些嵌入的改动也会更大。因而,能够直接核算通道上标明的均匀值,然后核算每个方位的方差。

【文献笔记】基于时空分离的视频异常检测

图5 方差重视模块的结构

(4)聚类。由于仅在正常数据上练习运动主动编码器和空间主动编码器进行反常检测,因而主动编码器也能够在反常事情上推广。因而,有必要推进空间编码器和运动编码器以取得压缩数据标明。本文引进了深度K-means聚类,该聚类将数据标明和聚类中心之间的间隔最小化,以迫使空间编码器和运动编码器网络提取练习集内的公共因子。

(5)练习方针功用。为了学习模型参数,将一切丢失函数组合到方针函数中:空间丢失La束缚模型发生正常的单个帧,运动丢失Lm束缚模型核算输入视频帧和LIF之间的RGB差,而且簇丢失L簇迫使运动和空间主动编码器两者最小化数据标明和簇中心之间的间隔。

【文献笔记】基于时空分离的视频异常检测

(6)反常评分。核算一切像素方位上【文献笔记】基于时空分离的视频异常检测【文献笔记】基于时空分离的视频异常检测之间的欧几里德间隔,以丈量猜测质量。还丈量了相应的串联标明r和簇中心C之间的间隔,由于它们中的每一个都能够被视为正常。

【文献笔记】基于时空分离的视频异常检测

高分标明输入视频剪辑更可能是正常的。在核算每个视频序列在一切空间方位上的得分后,将丢失归一化,以取得每个视频帧在[0,1]范围内的得分S(t):

【文献笔记】基于时空分离的视频异常检测

运用该标准化分数S(t)来评价视频剪辑中包括的反常事情的概率。

4试验验证

A.数据集

在三个揭露可用的数据集上评价了模型:UCSD行人数据集、Avenue数据集和ShanghaiTech数据集。

B.试验细节

(1)将一切输入视频帧调整为256256,并运用Adam优化器在单个NVIDIA GeForce TitanXp GPU上练习网络。

(2)为了初始化运动和空间聚类中心,首先经过在没有聚类束缚的正常数据会集联合练习空间和运动主动编码器。在这一阶段,将学习速率设置为1e-4,并练习UCSD Ped2数据集的空间和运动自编码器为50个周期,Avenue数据集和ShanghaiTech数据集为10个周期。然后,冻住空间和运动自编码器,并经过K-means核算聚类中心,以对级联运动标明和空间标明进行聚类。

(3)初始化后,模型的练习过程履行替换优化。首先经过冻住簇中心并练习主动编码器参数。然后,冻住空间和运动主动编码器并优化簇中心。关于主动编码器部分,将学习速率初始化为1e-4,并在遍历100时将其降至1e-5,并将学习速率设置为1e-5以更新簇中心。此阶段,替换练习网络的不同部分,UCSD Ped2数据集为100个时期,Avenue数据集和ShanghaiTech数据集为200个时期。最终的反常检测成果依据重建丢失直接核算。

C.评价指标

依据从前的工作,经过ROC曲线下面积(AUC)的丈量来评价办法。ROC曲线是经过改动反常分数的阈值而取得的。较高的AUC值意味着更精确的反常检测成果。为了确保不同办法之间的可比性,核算了帧级检测的AUC。

D.试验成果

(1)表1显现了作者提出的办法、人工构建的依据特征的办法和依据深度特征的办法在一切三个基准数据集上的AUC成果。能够看到,本文的办法优于一切办法。在上半部分,与人工制造的依据特征的办法比较,本文的办法在UCSD Ped2数据集上的精确率至少高4.4%。鄙人面的部分中,与依据深度特征的办法比较,本文办法在一切三个数据集上体现最好。另一方面,本文的办法只运用RGB差作为运动头绪,这大大降低了光流估量的核算成本。因而,本文的办法能够更容易地完成实时反常检测。图7显现了本文办法的一些定性示例。能够发现,关于正常帧,重建的未来帧倾向于挨近实践的未来猜测。

【文献笔记】基于时空分离的视频异常检测

图6 榜首行显现了一些正常样本,第二行显现了别离来自UCSD行人数据集、Avenue数据集和ShanghaiTech数据集的一些反常样本,红色框标明反常帧中的反常

【文献笔记】基于时空分离的视频异常检测

图7 本文办法在UCSD行人数据集、Avenue数据集和ShanghaiTech数据集上的时刻规律性得分的一部分

表1 Ped2、Avenue和ShanghaiTech数据集上不同办法的AUC

【文献笔记】基于时空分离的视频异常检测

(2)融化研究。表2验证每个组件的有用性。能够看到,与出现信息比较,时刻规律性关于UCSD Ped2数据集上的视频反常检测更为重要。当将RGB差异(即运动)与空间重构相结合时,功用进步了0.5%。当引进深度K-means聚类束缚时,时空重构的功用能够进一步进步0.7%。为了进一步阐明外观和运动信息的有用性,核算了正常和反常事情在Avenue测验集上的均匀得分(图8)。

表2 在UCSD Ped2数据集上评价本文模型的不同模块

【文献笔记】基于时空分离的视频异常检测

【文献笔记】基于时空分离的视频异常检测

图8 Avenue数据集上的外观和运动头绪的功用

(3)留意力可视化。为了更深化地了解方差衰减模块的作用,将衰减图的运动编码器层可视化。为了进行比较,还显现了输入帧。图9显现了Avenue数据集的两个示例。

【文献笔记】基于时空分离的视频异常检测

图9 榜首行显现了输入视频帧,第二行显现了重建的帧,第三行显现了射流颜色图中留意力求的可视化

(4)簇数的探究。为了评价深度K-means聚类战略在检测视频中反常事情方面的功用,进行了去除深度的K-means聚类并改动其聚类中心的数量。运用UCSD-Ped2数据集进行测验,并在表3中显现AUC成果。不同巨细的聚类中心的AUC成果证明了本文办法的鲁棒性。图10展现了将t-SNE可视化用于级联数据标明,以证明深度K-means聚类战略的有用性。

表3 UCSD Ped2数据集上具有不同聚类数的主张办法的AUC

【文献笔记】基于时空分离的视频异常检测

【文献笔记】基于时空分离的视频异常检测

图10 将t-SNE可视化用于级联数据标明

(5)运转时刻。如图11所示,本文的办法大约比FlowNet2 SD快2.3倍。具体而言,关于一个视频帧,FlowNet2 SD算法花费0.071秒,而本文的RGB差异战略只需求0.031秒。此外,“RGB+RGB差分”的精确率别离比“RGB+FlowNet2 SD”和“RGB+TV-L1”高2.1%和2.6%。本文运用NVIDIA GeForce Titan Xp图形卡完成办法。每视频帧检测反常事情需求0.0312秒,即32FPS,这与现有的依据深度学习的办法相当或更快。

【文献笔记】基于时空分离的视频异常检测

图11 UCSD Ped2数据集上AUC功用(精确性)和运转时刻(功率)的成果

5总结

本文提出了一种新的主动编码器架构,将时空信息分解为两个子模块,以学习空间和时刻特征空间中的规律性,并在正常事情中生成集合的描绘。

具体而言,空间主动编码器对榜首个独自帧(FIF)进行操作,并经过重新结构输入来提取空间中的规则性。时刻主动编码器对接连视频帧进行处理,经过结构RGB差异来学习时刻规律性。依据捕获的时刻规律性和运动一致性,时刻主动编码器能够学习猜测RGB残差,该残差包括用于反常检测的有用运动信息。此外,规划了一个方差重视模块来杰出显现帧的运动部分。此外,为了有用地学习空间和运动特征空间中的常态性,并取得更紧凑的数据标明,作者经过深度K-means聚类办法将连接标明与聚类中心之间的间隔最小化。作者将空间主动编码器和运动主动编码器的成果相结合,以取得最终一个独自帧(LIF)的猜测,并将猜测与像素级的聚类间隔交融,以评价反常。对三个代表性数据集的扩展试验标明,本文的办法达到了最先进的功用。