跟着5G时代的到来，互联网短视频、电影电视剧、电商直播、游戏直播、视频会议等音视频事务呈井喷式发展。

作为通用云端转码渠道，阿里云视频云的窄带高清需求处理海量、不同质量的视频。关于中高质量的视频，现有的窄带高清1.0就能提供满意的转码作用，并带来达30%的带宽本钱降低；而关于有显着紧缩失真和成像噪声的低质量视频，需求运用性能更好的窄带高清2.0进行去紧缩失真、去噪和增强处理从而得到更好的观看体验。

在2022稀土开发者大会上，阿里云智能视频云技能专家周明才以《阿里云窄带高清的演进突破与场景实战》为主题，深度分享阿里云视频云在窄带高清上的研制考虑与实践。

01 窄带高清的源起

谈及窄带高清之前，先来聊聊一般的云端转码流程。转码本质上是一个先解码再编码的进程。从下图可以看到，一般云端转码是在用户端先形成一个原始视频，经过编码之后以视频流的方法传到服务端，在服务端解码之后做转码，然后再编码经过CDN（内容分发网络）分发出去，此刻一般转码首要的功能便是做视频格式的共同，并在必定程度上降低码率。

未标题-1-05.png

窄带高清是什么？它与一般转码的首要区别是什么？经过窄带高清的字面意思可以了解，“窄带”是指让视频经过窄带高清转码之后，对带宽的需求变得更小。一同，“高清”是指经过转码后的画质仍然可以坚持高清、丰富的视觉体验。

上图的下半部分也便是窄带高清的流程，与一般转码流程不同点在于，在云端做了解码之后，窄带高清还会对视频质量做增强处理，以及运用编码信息来辅助提高视频质量。经过质量提高后，再用针对片面质量做过优化的编码器进行编码，最后进行分发。

总结来说，窄带高清本质上处理的是质量提高和紧缩的问题，其首要方针是寻求质量、码率和本钱的最优均衡。

阿里云早在2015年就现已提出了窄带高清这一概念。在2016年正式推出窄带高清这一技能品牌而且进行了产品化。

未标题-1-06.png

今年，阿里云推出了窄带高清2.0极致修正生成版别。相较于先前版别，最大特点是能生成细节纹路做到极致修正。

窄带高清全景图

窄带高清在做自习惯参数决策时首要考虑三个维度：事务场景、视频热度、视频内容。

由于事务场景的不同，比如电商直播、游戏直播、赛事直播，所需求的视频增强和编码参数不一样；关于一些高热内容，如：在手淘场景中可以用窄带高清2.0发动二次转码来完成质量的进一步提高和码率的节约；在视频内容维度，会针对当时的视频做一些High-level和 Low-level的剖析，High-level包括语义的剖析，特别是ROI的检测，Low-level包括视频紧缩程度、模糊程度、噪声程度的视频质量剖析。

未标题-1-07.png

依据以上这些维度的剖析，可以得到自习惯参数的决策作用。依据此作用，窄带高清再去做相应的视频修正和视频增强。详细来说，视频修正包括强紧缩失真、降噪等，视频增强包括细节增强、色彩增强、对比度增强等。

02 视频内容剖析

ROI

ROI的首要意图是在码率受限或码率共同的情况下，将码率尽或许分配到人眼更重视的区域，比如在电影电视剧中，观众会更多重视主角的脸。

依据ROI的处理和紧缩，有以下两个难点：一是怎么得到低本钱的ROI算法，二是怎么依据ROI进行码控决策，例如：确保ROI区域片面质量提高的一同，非ROI区域的片面质量不会显着下降；一同做到时域连续、不闪耀。

未标题-1-09.png

在低本钱ROI核算方面，阿里云自研了自习惯决策的人脸检测盯梢算法，这是一款低本钱、高精度的算法。在极大部分时刻只需求做核算量极小的人脸盯梢，只有少部分时刻做人脸检测，从而在确保高精度的情况下，完成超低本钱和快速ROI获取。

从下图表格里边可以看到，阿里云自研算法相比开源人脸检测算法，精度和召回基本上没有损失，一同复杂度和核算耗时有显着数量级的下降。

在有了ROI算法之后，需求对场景、视频质量的自习惯码率分配进行决策。针对此难题，首要考虑与编码器结合，在片面和客观之间获得均衡，一同确保时域的共同。

未标题-1-10.png

JND

传统视频紧缩办法首要依据信息理论，从猜测结构的角度减小时域冗余、空间冗余、统计冗余，但这对视觉冗余挖掘是远远不够的。

未标题-1-11.png

在JND算法里，首要选用了两个算法，一个是空域JND算法，一个是时域JND算法，拿到这些JND算法后，咱们再依据MOS的自习惯码控算法，对QP做自习惯的分配，最终完成在通用场景及片面情况下，码率可以节约30%以上。

未标题-1-12.png

03 视频修正增强

细节增强

讲到视频修正增强，提及最多的便是细节增强部分，作用确实会比较显着。

一般的细节增强依据UnSharp Mask的框架。阿里云视频云自研的细节增强算法，有以下三个特点：第一是有更精细的图画纹路细节提取方法，能提取不同尺寸，不同特征的图画纹路结构，增强作用更优；第二，算法可以经过对图画内容纹路结构剖析，依据区域纹路复杂度完成部分区域自习惯增强；第三个特点是算法可以和与编码结合，依据编码器的编码信息反馈来自习惯调整增强战略。

未标题-1-15.png

色彩增强

一般收集的视频资料，由于收集的设备或许光线亮度的原因，导致资料色彩或许看起来会比较昏暗。特别是在短视频场景，这类视频会失掉视觉吸引力，因而需求色彩增强。

未标题-1-16.png

色彩增强存在哪些难点问题？详细怎么做色彩增强？

像Ffmpeg里边有EQ filter，EQ filter会用UV通道去做色彩增强。而在咱们的自研算法里，实际上是在RGB色彩空间去做增强，即会依据当时色彩点的饱和度，去做一些部分的自习惯。一同，也会依据当时画面全体的情况，做一个全体的自习惯。

在肤色维护这块，由于传统的色彩增强完之后，人脸区域会泛红，片面视觉上不自然。为了处理这一问题，咱们选用了肤色维护的办法，对肤色区域做一个额定的维护。

这是一个色彩增强前跟增强后的作用对比。可以看到增强后的绿色的蔬菜、肉，整个的色彩看着会更丰满，关于美食类视频来讲更可以激发起观众的胃口。

未标题-1-17.png

对比度增强

在对比度增强中，运用了经典的CLAHE算法，其思路是对一个视频帧做分块，一般分红8×8个分块，在每一块统计直方图。然后统计直方图的时候，对直方图做一个Clip，便是所谓的对比度受限的直方图均衡，这首要是克服过度扩大噪声的问题。依据CLAHE的视频对比度增强其实有一个难点，便是时域闪耀问题。这在学术界也是一个较难的问题，到目前为止，还没有得到十分彻底的处理。

未标题-1-18.png

降噪

降噪在ffmpeg里边有许多算法，比如像BM3D、BM4D、 NLM，这些算法的去噪作用好，可是复杂度十分高，会导致速度慢本钱高，或许还需求合作噪声估计模块来一同运用。

别的还有一些相对均衡的算法，速度比较快，可是作用不强。假如想要提高它的去噪强度，一般会引入一些伪影或细节丢掉的问题。

未标题-1-19.png

依据这些调研，咱们自研的降噪算法选用依据多分辨率分化在上面做滤波框架。首先是对输入图画会做小波分化，得到高频跟低频信息。关于高频做软阈值处理。关于低频选用双方滤波降噪。经过这种滤波或许软阈值之后，再从头合成回去，就可以到达去噪意图。算法的中心难点在于怎么去做加快，使得本钱和运算速度可以满意转码要求，尤其是实时转码场景，对速度要求是十分高的。

加快

算法团队关于小波变换加快做了包括整形化许多的测验，总是存在一些累积差错。所以咱们最后选用了浮点型加快方法，用avx2浮点加快可以到达大约三倍的提高。

别的是双方滤波这部分的加快，传统的双方滤波依据邻域像素的操作。这种依据邻域的操作其实十分慢的。因而，咱们选用了RBF这个快速算法，把二维的滤波分化成一维的，一同选用递归的方法去从左到右，从右到左，从上到下，从下到上，这样的一维操作，就可以完成类似于原始双方滤波作用。经过选用RBF这个快速算法，咱们可以获得大约13倍的加快。此外咱们还做了这种AVX2汇编的优化，这块可以额定加快十倍左右。

未标题-1-21.png

上图是SDR+的全体作用图，在经过SDR+的处理之后，画面全体的对比度、亮度、明晰度会有很大的提高，以上这些是针对视频增强做的一些作业。

CDEF去振铃

首先是CDEF去振铃，CDEF自身是源自于AV 1的一个技能，在CDEF处理之前，强边际附近会有许多的毛刺和振铃。经过CDEF处理之后，画面中的噪声得到很大的剔除。

CDEF算法的中心进程，其实是一个平滑滤波的进程，只不过它的平滑滤波的权重、误差都做了一些特殊的处理。特别是它的滤波权重，跟当时像素点地点的8×8像素区域的首要方向是有联系，也便是图中左下角这儿展示的，它会去做一个最优方向的一个查找。查找完了之后，依据主方历来确定它的这个滤波器抽头的方向和权重。此外，CDEF有两部分的权重，一个是主方向的WP，另一个是辅助方向WS。然后关于邻域点和当时点的灰度误差做切断，这可以避免过平滑。

未标题-1-23.png

去紧缩失真

除了用CDEF依据传统的图画处理算法做去振铃之外，还做了依据深度学习的去紧缩失真的算法。这个算法是依据多帧的方案，更利于帧间连续性，不易呈现帧间闪耀。“窄带高清”算法分红两大块：一个是质量检测模块，一个是去紧缩模块。质量检测模块可以辨认不同质量视频源的紧缩程度，然后输出QP MAP作为紧缩强度衡量指标。另一个是去紧缩模块，输入多帧视频和对应帧的QP MAP，运用QP MAP进行自习惯去紧缩。

未标题-1-24.png

极致修正生成

极致修正生成首要是针对画质比较差的场景，去除较强的紧缩失真的一同，生成一些因紧缩而丢掉的细节。在极致修正生成研制中，有以下几个关键：一是构建训练数据（在训练数据构建时，参照了Real-ESRGAN的二阶退化思路）；二是对比较灵敏的人脸区域，确保人脸生成稳定性；三是做模型紧缩时，使得模型核算量低的一同坚持良好的作用；四是模型部署。

未标题-1-25.png

极致修正的场景实战

在六月份NBA决赛直播时，百视TV希望经过运用咱们的窄带高清2.0修正生成技能，来提高他们赛事直播的质量。如中间这个截图所示，截图的上半部分是主播直接推过来的视频作用，下半部分是经过极致修正生成之后的作用。

未标题-1-29.png

可以看到修正之后，Youtube这几个字母边际会更明晰、洁净，不再浮躁。其他篮球场景相关的，比如球员身后的数字及球员的身体概括，也会变得特别明晰。别的也有些生成作用，比如地板上有生成一些纹路，使全体的赛事观感大大提高。

除了自研的算法，阿里云也有一些高校合作项目，字幕修正便是其间一个合作项意图作用。可以看图中右下角实际修正字幕例子。该字幕取自一个老片MV，上面一行是原始MV里的字幕，可以看到“话”字的言字旁几条横笔画会有一些粘连，此外文字边际还有许多的噪声。下面一行是经过字幕修正之后的作用，可以看到会变得很洁净、明晰。

未标题-1-30.png

未来，窄带高清技能也将继续晋级，经过算法才能进一步提高修正生成作用、降低码率和优化本钱，经过打通前后端的处理，以及探索落地更多沉浸式场景，如：针对VR范畴的窄带高清。与此一同，该项技能也将应用于更多的尖端赛事活动，在本钱优化谐和之上，完成视效体验的全新晋级。

「视频云技能」你最值得重视的音视频技能大众号，每周推送来自阿里云一线的实践技能文章，在这儿与音视频范畴一流工程师沟通商讨。大众号后台回复【技能】可参加阿里云视频云产品技能沟通群，和业界大咖一同探讨音视频技能，获取更多行业最新信息。

从技术全景到场景实战，透析阿里云视频云「窄带高清」的演进突破

01 窄带高清的源起

窄带高清全景图

02 视频内容剖析

ROI

JND

03 视频修正增强

细节增强

色彩增强

对比度增强

降噪

加快

CDEF去振铃

去紧缩失真

极致修正生成

极致修正的场景实战

作者信息

从技术全景到场景实战，透析阿里云视频云「窄带高清」的演进突破

01 窄带高清的源起

窄带高清全景图

02 视频内容剖析

ROI

JND

03 视频修正增强

细节增强

色彩增强

对比度增强

降噪

加快

CDEF去振铃

去紧缩失真

极致修正生成

极致修正的场景实战

相关文章

AI副业最赚钱的应该就是卖课了吧

经验分享：高德地图如何短时间快速完成春节出行备战工作？

ARMS实践｜日志在可观测场景下的应用

【面试高频】cookie、session、token？看完再也不担心被问了

作者信息