进步用户体会质量是音视频媒体平台共同面对的关键问题。2022年10月15日“小红书REDtech青年技能沙龙”活动中,咱们有幸上海交通大学电子信息与电气工程学院电子系翟广涛教授带来分享《媒体体会质量点评》,从人眼视觉体系引进,翟教授详细论述了媒体体会质量点评作业的意义,以及详细技能思路。

翟广涛: 研讨范畴为多媒体智能,宣布国际期刊及会议论文四百余篇,被引用1万余次,入选爱思唯尔我国高被引科学家。曾取得全国优博、优青、青年优秀人才、杰青等荣誉,掌管NSFC重点、国家重点研制等项目。获我国电子学会自然科学一等奖、PCS2015和IEEEICME2016最佳学生论文奖、IEEETMM2018最佳论文奖和2021最佳论文提名奖、IEEEMMCWorkshop2019、CVPRDynaVisWorkshop2020、IEEEBMSB2022最佳论文奖等,任Displays(Elsevier)主编、《我国科学:信息科学》编委、IEEECASMSA/SPSIMVSP成员、我国电子学会青年科学家沙龙副主席、我国图象图形学学会理事、上海市图画图形学学会副理事长。

以下内容根据翟教师现场报告整理

1. 人眼视觉体系

人眼是取得信息的来源,可是信息进入人眼之后又经过了十分复杂的处理,才被咱们感知到,一般来说咱们认为信息经过视网膜取得之后,经过视神经到了外膝体,然后到了视觉皮层进行进一步的加工,视觉底层能够分为V1、V2、V3、V4、MT等区域。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

根据核算,人类的脑皮层上超越50%的神经元,都和人类的视觉感知有联系。也便是说视觉感知是十分复杂的进程。咱们看到的东西和咱们在视网膜上取得的视觉影响往往是不一样的。

举个比方,如图1,离屏幕近一点盯着中心的小红点,咱们会发现,盯着小红点稍久一些时周边的蓝色圆圈消失了。这个现象叫做TroxlerFading当周边的视觉给咱们供给的信息十分有限,不再发生改变的时分,人脑就会自动忽略掉 ,让咱们的眼睛“视而不见”。 这个蓝圈在视网膜上一向是成像的,可是咱们的大脑认为它不存在,让咱们看不见它,也便是说人脑对视觉处理的进程是远比视网膜信号要复杂的。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量
Martinez-Conde,S.,Macknik,S.L.&Hubel,D.H.(2004)’TheRoleofFixationalEye-MovementsInVisualPerception’,NatureReviewsNeuroscience,5:229-240;

比方下图,它自身是静止的图片,可是咱们看起来会发生一点旋转。周边视觉会由于眼球震颤等原因会发生上一个时间和下一个时间在视网膜上成像的方位差,这种方位差导致咱们发生图画在转动的幻觉,图画没有动但咱们感觉动了,也阐明许多对外部国际的认知和事实是有间隔的。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

ANDREYKORSHENKOV/SHUTTERSTOC

这儿有一个有意思的图画(如下),咱们先盯着左面图片中心的黑点,持续十秒钟之后再看右边这张图,就会看出一个十分奇特的现象,它第一个时间是彩色的。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量
交大翟广涛教授:眼见不实,怎样评价媒体体验质量

由于咱们在前面几张图画的观看进程傍边人眼,包含人脑,关于某个区域的色彩发生了习惯,和前面讲到的概念有点类似,这儿咱们的感觉仍是色彩习惯现象,所以人脑就会感觉到并不存在的处理进程,在视觉影响上自动减去黄色和蓝色,由于黄色和蓝色是补色,灰色减去黄色等于蓝色,所以咱们看到了蓝色的天空,灰色减去蓝色等于黄色,所以咱们看到了偏蓝绿色的草地,这是为什么咱们会在灰度图上看到色彩。

下图是视觉的对比度灵敏函数CSF&JPEGQ-table,从左往右频率越来越高,从下往上对比度越来越低,能够想像一个动摇信号,从左往右动摇越来越快,从下往上动摇的起伏越来越低,咱们大概就能够在屏幕上看到一个包罗线,大概在中心的方位会高一些,两边的方位会低一些。也便是说咱们在中心频率的时分能够观察到的信号最小改变的值比较小,咱们对中心频率的空间比较灵敏

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

实际上这个特性在咱们看到的所有数字图画和数字视频傍边已经运用了,由于咱们现在看到的图画和视频大部分仍是根据DCT来紧缩,DCT量化表格,无论是MPAC仍是GPAC都考虑到了咱们对不同频率成分的灵敏程度,咱们对低频和高频的量化能够强一些,关于中频的量化是小一些的,更好的维护中心比较灵敏的频率成分。

咱们这张图,里边藏了三个单词,假如说你在现在的间隔上看不清,能够离的远一些,或许说摘掉眼镜,咱们就能够看到了,里边藏着“HIDEANDSEEK”。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

LLLIIIOIIILLL/SHUTTERSTOCK

为什么你在当时间隔看不清,由于在当时间隔上这些小圆点发生的空间频率不灵敏,当你离远了之后空间频率在必定程度上提高了,由于单位的视角之内,圆点的数量增加了,所以你就能够看到隐藏单词了。可是跟着间隔的进一步增加,离两三米以外,由于频率太高了又看不清楚了,所以咱们在一个合适的空间间隔上能够看到信息,阐明咱们对这一空间频率是最灵敏的。

还有许多诸如此类的比方,举这些比方是想阐明一个道理,咱们看到的信号和信号自身会发生十分大的差异。

2. 媒体体会质量点评

由于咱们看到的信号和感知到的信号,落在视网膜上的信号和最终体会到的信号是有差异的,所以咱们要做媒体体会质量点评就面对许多挑战,非轻易之事。

为什么图画的信号质量是不完美的?外部的国际到咱们的眼前,在一个视频通信体系里需要阅历十分多的进程,首先经过摄像机来收集信号,再进行视频处理和编码,在传输进程傍边也会遇到各种失真,然后解码、显现,再经过人眼视觉体系进入咱们的大脑,咱们才能看得到。在整个进程傍边,每一步都或许会发生失真,比方收集的时分由于亮度、间隔等的不合适,或许会发生噪声,由于手抖了,或许会发生含糊,在紧缩进程中或许有一些失帧、丢帧,或许会丢包和卡顿,再比方屏幕亮度不够、屏幕有过反光、视力欠好等等情况。咱们看到的外部国际,实际上质量往往是不完美的,所以咱们要做质量点评。

据核算,人类2022年所拍照的图画几乎到达1.5万亿张,也便是说每秒会有5000多张图片诞生。现在,网络上80%以上的流量是视频,优秀的网站每分钟上传的视频超越300小时,换句话说,现在网络上存在着浩如烟海,你永远不或许看完的图画和视频

可是别的一个核算数据告诉咱们,超越90%,甚至是99%的视频极少被看到,1%的视频占据了99%的观看时间,抢手视频咱们都看,不抢手的视频也许永远不会被看到。当然质量或许包含内容和信号自身,咱们今天首要就信号质量自身来看。十分多的图画和视频由于画质自身不够好,永远不会被人看到,这些图画和视频在网络上占据了大量的存储和带宽资源,造成了巨大的浪费。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

SomeStatistics

咱们再来说质量点评进程,这儿有几幅图画和视频。第一张图画是十分明晰的,第二张过暗,第三张重影,后面是含糊,最终一个出现了卡顿。咱们在判别图画好坏的进程上是人为进行了主观点评和打分。可是这个进程假如靠人完成,每分钟有超越300个小时的视频上传到YouTube,不或许悉数都找人看一遍,因而咱们希望核算机完成客观质量点评,这也是完成海量视频和图画大规模自动化处理的必要条件

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

质量点评的问题能够细分为几个类型,在两个视频之间进行比较,能够运用原始视频和失真视频的悉数信息或部分信息,这两种情况叫做全参阅、半参阅,咱们也能够只经过失真视频来判别质量,这种叫无参阅

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

还有一种情况,咱们除了第一个失真视频之外,还有第二个失真视频,咱们的任务是在没有参阅的情况下,判别两路同样内容,经过不同等级,不同类型的失真之后,其相对质量究竟哪个更好,这是咱们常见的质量点评任务。其间应用最广的便是无参阅的质量点评,由于咱们在网络上看到的视频是没有参阅的,只要在编码端能够考虑参阅问题。

从大的规模来说,图画、视频,或许媒体的感知质量点评实际上是感知信号处理的一个分支,感知信号处理能够追溯到70时代D.Marr对核算视觉和核算神经的开创性作业,在后来1981年D.Hubel和T.Wiesel因对人类视觉体系的信息处理机制研讨取得诺奖,再后来又有许多专家在这一范畴做出了十分多的奉献。

全体来看,视觉感知信号处理包含三部分:

1.树立一个视觉模型,模仿感知进程。

2.做点评算法,来衡量媒体体会媒体感知质量。

3.运用点评成果来进一步提高感知质量。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

这个进程实际上是不简略的,咱们在二十年前就意识到了这个问题,指出了图画质量或许视频质量点评进程傍边面对的几个挑战。

机器来了解人类感受是十分困难的,由于咱们现在对人脑的作业进程,是知之甚少的。大部分情况下面对的任务是无参阅的质量点评,由于没有参阅信息,进程就变得十分困难,不能够经过简略的比较视觉信号和原始信号之间的空间间隔来完成。

有了点评准则之后,把它融入到现有的信息处理体系之中,去提高图画和视频的感知质量,这个进程也并不简略。

咱们在这个方向上有几点奉献:

结构化视觉感知模型

针对视觉感知模型的作业,咱们发现现在的视觉感知模型研讨能够分为两类:一类是生理启发办法,依赖一些生理学模型,复杂度十分高,但功能不高;第二类是横向拟合的办法,不考虑机制,完全用数据驱动的方式,但其泛化才能比较差。所以咱们的思路是以生理心理学为根据,以信息论作为建模手法,提出了像素基元全体的结构化建模办法,从低层视觉、中层视觉,到高层视觉,别离提出了视网膜滤波模型、部分结构描绘模型、自由能感知模型。

这儿以自由能感知模型为例,咱们的思路是把脑科学中的自由能原理引进视觉傍边,并给出了形式化的核算计划,还提出了高效的加快手法,使得模型在质量点评傍边能够被广泛运用。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

无参阅质量点评算法

咱们别离运用能量反演和失实在演的手法,处理了原始信息缺失的难题

能量反演的进程,咱们有失真图画,假如想用自由能模型做质量点评,咱们需要估量原图的自由能信息,这儿咱们提出了图画多尺度自类似的概念。咱们经过失真图画的多尺度自类似去估量原图的自由能信息,然后完成比较高精度的无参阅质量点评。

还有伪参阅的无参阅质量点评,传统的质量点评思路一般是根据质量失真图画估量原始洁净图画信息,这个反演进程比较困难。咱们的思路是不做反演做正演,在失真图画上增加更多失真做伪参阅,此刻图画假如和伪参阅越像,证明质量越差,反之质量越好。由于这个进程比较稳定,所以速度较快,适于大规模应用场景。

举个比方,咱们知道UGC是小红书的特色,UGC视频来源十分广泛,那么来源于实在国际内容拍照环境不受控,质量不能确保,这种情况下怎么处理质量点评问题呢?咱们提出了十分有用的全参阅和无参阅的特征提取办法,由于有了特征之后,咱们总能够经过回归或许池化的方式得到最终分数。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

UGC-VQA视频质量点评

全参阅和无参阅的特征提取方面,咱们有一些小的奉献,模型的详细内容这儿就不再细心介绍了,这个办法效率比较高,现在已经在某些互联网企业的直播和UGC投稿平台傍边取得运用。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

流媒体视频的质量点评也是咱们重要的研讨内容,咱们考虑了视频的卡顿,时序上和画质上的特征,用了CNN,加3DCNN,加GRU这样的形式,这个算法现在也已经在一些互联网企业上线运用了。

3. 音视频质量点评与质量散布研讨

前面提到的媒体首要指的是图画和视频,可是音频没有进行考虑。别的前面评论质量点评的时分,咱们忽略了一些重要问题。

主观质量分数MOS:MeanOpinionScore

质量点评在学术界首要是指评分的均值,可是这个均值代表质量是否合理呢。如下图,咱们能够看到均值差不多,可是方差特别大,此刻假如满足的阈值是48分,蓝色的图画肯定会被所有人满足,可是左面的图画会有适当部分人不满足,所以咱们用传统的思路考虑均值是不够的。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

质量分数散布OSD:OpinionScoreDistribution

在考虑码率或许分辨率成本时,并不是说投入的码率越高,分辨率越高,用户的体会就会一向取得提高,用户的体会有一个饱和效应。 这两种问题就促使咱们要考虑是否能够用简略的平均值来表明质量。咱们做了大规模试验来证明实际上一个视频或许图画的主观分数的散布,并不是简略的散布,或许是长拖尾、左拖尾、或许右拖尾,也有或许发生双峰,所以咱们进一步的作业,便是用Alpha-stable模型来模仿主观分数的散布,然后进一步提出了算法去估量参数化的模型,然后进一步愈加精确猜测图画或许视频的质量。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

*ApproximationwithAlpha-stablemodel*

Audio-VisualPerception

别的,音频和视频的相互作用,也是咱们做媒体的要考虑的重要内容,这块的作业分两方面。咱们做视觉模型的时分考虑的音频特征,能够经过音频和视频的相关性分析来进行音频的显著性交融,当然也能够经过端到端的方式,用深度学习的方式直接做音视频的显著性模型。

交大翟广涛教授:眼见不实,怎样评价媒体体验质量

*Audio-VisualAttentionModel*

音视频联合的质量点评模型,音频的质量下降会带来全体体会的下降,这块咱们较早的树立了大规模的音视频交融体会点评数据库,而且提出了相应的算法。

4. “Q&A”环节

Q:在UGC场景下哪几类的图画或许视频的质量问题处理的比较好,哪几类问题还有比较大的优化空间?

翟广涛:假如把UGC的视频考虑成图画的话,这些常见的图画失真,比方说含糊、噪声、偏暗,处理的十分好。

可是假如把UGC考虑成视频的话,视频自身的质量改变,UGC视频或许这一帧十分好,下一帧变得十分差,这个问题的挑战其实十分大,这便是我比较简略的回答。作为画质好做,可是作为视频全体持续性的改变比较困难。

Q:假如把眼球和视觉皮质都连上EEG设备,然后用深度模型学习模型输出和人脑响应,这样就能够端到端的学到实在的视觉感知,然后把模型作为perceptualloss用于其他视觉任务练习,这个丢失函数能够作为metric,就能够完成质量点评了,教师怎么看这个想象?

翟广涛: EEG自身的问题十分大,由于EEG信号噪声十分强,而且EEG的道数十分少,咱们最常用便是64、128,256以上就十分难了,所以其采样十分稀少的,皮层神经元的数量是百亿级别的,咱们只用几个电极就想来表明皮层的神经活泼程度,这是不太实际的,所以这种方式虽然我也十分希望能完成,可是从本质上来看,由于采样过于稀少了,所以在现在来看不太实际。