作者:兮墨
阿里云窄带高清本质上是一种转码质量优化技能,是一套以人眼的片面感触最优为基准的视频编码技能,研讨的是在带宽受限的情况下,如何寻求最佳的视觉感触,即人眼感触的片面质量最优。而画面质量提高则是经过运用恰当的画质增强技能以到达。
咱们先来看两个窄带高清画质增强技能提高源视频画质的客户事例:百视 TV APP NBA 直播转码画质增强以及江苏移动 FIFA2022 世界杯直播转码画质增强。
v.youku.com/v_show/id_X…
右侧为窄带高清画质增强输出
视频仅限于演示技能计划作用
v.youku.com/v_show/id_X…
右侧为窄带高清画质增强输出
视频仅限于演示技能计划作用
01 视频高清化已成大趋势
视频是信息出现和传播的主要载体。从前期的 625 线模拟电视信号,到后来的 VCD、DVD、蓝光、超大尺寸电视等,用户对高品质画面无止境的寻求推动着视频技能的不断进步和工业的蓬勃发展。据预测,未来个人顾客网络流量的 80%以上和行业运用流量的 70%以上都将是视频数据。
当下,跟着视频拍照和视频播映显示设备的软/硬件装备和功能不断晋级,顾客关于视频画质的要求越来越高:从 360p 到 720p 再到 1080p,现在正全面跃升至 4K,并且 8K 的脚步正在迫临。在视频文娱场景中,视频画质是影响用户互动体会的关键因素,高清视频往往比低清视频包括更多的细节和信息,给用户的视频互动带来更好的体会,这也促进了用户在视频文娱中对视频画质的要求越来越高。视频顾客一旦适应了高清视频所带来和以往不一样的感触和体会,例如:高清视频能够将光线、质感、人物皮肤、纹路等细节还原得更为真实,关于“渣”画质的容忍度就会越来越低。
作为创新的排头兵,互联网视频网站正拿出各种应对手段满意顾客的需求,提高画质俨然成为视频网站争夺 IP 之外的新战场。当下,国内外干流的视频网站/APP 现已全面普及 1080p,1080p 现已成为一种标配;一些视频途径,例如爱优腾、B 站、YouTube,部分节目内容也供给了 4K 版本。
02 窄带高清云转码助力“终究一公里”的画质优化
视频从收集到终究分发再到终端顾客进行播映观看,中间要阅历杂乱的视频处理和传输链路。完整的处理和传输链路一般包括以下几个环节:
l 收集/编码:内容供给方收集的视频首先会被编码为特定的格局;
l 修改/编排/重编码:对原始资料进行多样化的修改/编排操作,进行二次创造,然后重编码输出;有的事务场景可能会包括多次编排处理;编排/编码完成的视频会被上传至服务端;
l 云服务端转码:视频在上传到云服务器后,为适应不同的网络环境和播映终端一般会在云端进行转码(本文所讨论的窄带高清转码即发生在该环节,以更高的紧缩比出现更高质量的视频);
l 云发布:CDN 内容分发网络
l 播映端:视频经由内容分发网络(CDN)加速分发,经过解码终究在内容消费方的终端设备上完成播映。
l 多途径播映:手机,Pad,OTT,IPTV,Web
图 1 视频处理和传输链路
从视频处理视点来看,窄带高清云转码是视频内容触达终端顾客的终究一个处理环节;从客观现实上来说,是视频内容出产消费全链路的“终究一公里”。
从传输视点来看,在视频出产和消费全链路,各环节之间数据的流转有多种形式:SDI 有线线缆方法、无线蜂窝移动通讯、互联网以及卫星通讯等。不同数据传输计划在传输环境安稳性和带宽存在巨大的差异,因而,为了能在带宽受限的链路上进行安稳的视频传输,必定要对视频信号进行深度编码紧缩,而编码紧缩势必会带来不同程度的画质损害。
举个比如:常见的视频流标准:1080p, 60 fps, YUV 4:2:0, 8-bit,raw data 码率为 192010801.5860 = 1.49Gbps
上述说到的传输方法中,只要 3G-SDI 有线线缆可支撑该码流的实时传输。而视频内容触达终端顾客的方法一般是经由互联网进行分发,码率需要操控在 10Mbps 以下,因而意味要将原始视频紧缩上百倍。
综上所述,从整个视频处理和传输链路来看,视频内容从收集到终端播映,要阅历多个视频修改、处理、重编码的操作。而每一次处理/编码操作或多或少都会对视频的画质产生影响,一般会损害画质。因而,当下即便是运用最新的视频收集设备(能够输出高画质的原始视频信号),终端顾客侧也不必定确保能体会到高画质,原因就在于中间处理环节的画质损耗。
窄带高清云转码作为整个视频处理链路的终究一个处理环节,其输出码流画质作用即为终究分发至终端顾客的画质作用。因而,如果在该环节运用恰当的画质增强技能,能够必定程度上弥补前序视频处理环节所产生的画质损害,起到优化画质的作用。
03 窄带高清画质增强应该优先处理什么问题?
视频画质增强技能大致能够分为三大类:
l 颜色/亮度/对比度维度增强:颜色增强(色域,位深,HDR 高动态范围)、去雾、低光照/暗光增强等;
l 时域维度帧率增强:视频帧率变换/智能插帧;
l 空域维度细节复原/增强:去紧缩失真、分辨率倍增、降噪/去划痕/去亮斑、去闪耀、去含糊、去抖等。
视频增强技能在产品落地层面,现在比较抢手的挑选是做老旧视频资料的高清化,例如年代比较久远的电影、电视剧、动画片和 MV/演唱会视频等。老旧影视资料普遍存在:划痕、噪点/霉斑、闪耀、细节含糊、运动拖尾、颜色暗淡或许只要是非等问题,能够经过去噪、去脏点/划痕/霉斑、去含糊、去闪耀、分辨率/帧率倍增以及颜色增强(是非上色)等处理,这样能够全面提高资料的整体观感。
但是,因为每个老旧资料所面临的画质问题差异很大,且现在的技能水平关于有的画质问题还难以给出令人满意的作用,因而老旧资料高清化处理进程必须引进人工干预。
人工干预体现在两个方面:一是对老旧资料画质问题进行确诊,并装备恰当的处理模型和处理流程;二则是对模型处理成果进行人工审查,并做恰当的精修和微调。
窄带高清画质增强技能落地挑选准则
窄带高清云转码作为一种全自动,无人工干预的视频转码作业,所选用的视频画质增强优化技能也需要做到全自动,无需人工参加。咱们认为在挑选产品化方向时,所集成的视频增强技能应该满意以下几个条件:
l 视频增强技能能够完成全自动,无需人工干预: 老旧资料高清化现在还需要太多的人工干预,不符合该准则;
l 相关技能具有广泛的适用范围: 低光照/暗光增强和视频去抖在部分场景也有需求,但在视频转码场景,有这类画质问题的视频占比非常少;
l 继续的刚需: 该技能可带来顾客可感知的画质提高,且其处理的问题在未来 5-10 年都会继续存在,因而能够构成继续的刚需。
窄带高清画质增强:处理出产链路引进的画质丢掉
依据上述准则,咱们终究挑选在窄带高清转码中集成的画质增强技能为:空间维度细节批改,处理视频出产链路产生的画质丢掉,即多次编码紧缩导致的画质丢掉。
从整个视频处理和传输链路来看,咱们再具体分析一下产生画质丢掉的环节有哪些:
1.信号源本身的画质问题
l 传输链路导致的低码率: 在视频出产流程中,传输链路的带宽一般有必定的限制,为了优先确保流通,不得不选用低码率。典型场景有:跨国境直播流;大型赛事活动现场信号远间隔传输,无专线保证;以及无人机航拍实时信号。典型的码率设置例如 1080p 50fps 4-6M,直播场景一般是硬件编码,输出的码流有显着的编码紧缩丢掉;
l 内容版权/商业形式导致的低码率: 因为视频版权或许商业形式问题,视频版权方给到分发途径只要低码率信号源;
l 原始视频资料阅历过多次编码紧缩,现已有显着的画质丢掉问题。
图 2 低码率信号源画质问题:有显着的编码块效应
2.修改/编排及二次创造引进的画质问题
l 编排软件编码紧缩引进的画质问题。
在 UGC 短视频范畴,咱们一般习气运用手机编排 APP 来进行视频编排,编排 APP 会调用手机硬件编码来做完成烘托视频的编码输出;但手机的视频编码才干比较受限,且不同型号手机的编码紧缩功能差异很大,因而很简略出现编码紧缩后画质欠好的情况,即便输出码率高达 20M@1080p,如下图;
l 推流工具重编码紧缩引进的画质问题。
在一些事务场景,例如网红博主陪你看球,演播室或许解说主播会将原始信号流经过 OBS 拉流到本地,叠加解说,再推流上云;OBS 的重编码会再次损害原始视频的画质。
图 3 UGC 短视频,编排软件输出视频:
码率 20M,分辨率 1920×1080,画面存在显着编码块效应和含糊
图 4 主播解说,OBS 推流:
码率 6M,分辨率 1920×1080,画面存在许多编码紧缩导致的边际锯齿/毛刺,以及含糊
从需求继续时间来看,因为传输带宽的限制,在整个视频生成流程中,视频编码紧缩是一个无法避免的处理操作,而有紧缩就不可避免引进画质损害,因而,面向编码紧缩丢掉的画质提高会是一种继续性的需求。
04 面向编码紧缩丢掉的画质增强技能
从学术的视点来看,处理出产链路引进的画质丢掉,主要研讨的技能包括:去紧缩失真以及超分辨率重建。去紧缩失真主要处理编码紧缩导致的块效应,例如边际毛刺和细节丢掉/含糊问题;超分辨率重建能够消除处理链路中可能引进的空间分辨率降采样,并提高画面整体锐度和明晰度。
学术界对图画超分辨率重建技能的研讨现已继续了几十年。前期的办法大多根据空域/时域重构技能,后来发展到根据样例的学习办法,比较有代表性的计划有:(1)根据图画自相似性的办法;(2)根据范畴嵌入的办法;(3)根据字典学习/稀少表明的办法;(4)根据随机森林等。但直到根据卷积神经网络(CNN)的超分辨率技能鼓起,才让该项技能在处理作用和功能方面到达可商用的水平,然后在工业界得到广泛关注和运用。
第一个将根据 CNN 的图画/视频超分辨率技能进行产品化落地测验的当属一家叫 Magic Pony 的创业公司。该公司在 CVPR 2016 上做了一个其时非常炫酷的 demo – Real-Time Image and Video Super-Resolution on Mobile, Desktop and in the Browser[1, 3]。第一次将根据 CNN 的视频超分辨率技能移植到了移动途径(三星手机和 iPad),能够对游戏直播画面进行实时的超分辨率增强处理,显着提高源流的画质。该项技能很快引起了 Twitter 的关注,并在很短的时间内就完成了对该公司的收购 [2]。
尔后,跟着第一届 NTIRE 超分辨率竞赛 – NTIRE 2017 Challenge on Single Image Super-Resolution [4]的举办,越来越多的公司开端关注根据 CNN 的图画超分辨率技能,从那之后,这方面的落地运用也如漫山遍野般地涌现。
l 惯例 CNN 去紧缩失真处理:这个人脸有点假
虽然根据 CNN 的图画超分辨率技能可取得远超过往技能的处理作用,但其产品化进程仍是存在不少问题。一个典型的问题是:根据 MSE/SSIM 丢掉函数练习得到 CNN 超分辨率模型(也即惯例 CNN 超分辨率模型),重建生成的图画往往会短少高频细节信息,然后显得过滑润,片面感触不佳。
下面三个比如为一个典型的惯例 CNN 超分辨率模型到达的处理作用:
惯例 CNN 超分辨率模型对编码紧缩形成的块效应、边际锯齿、毛刺等 artifacts 有比较好的滑润作用,然后使得整个画面看起来愈加洁净,但画面短少细节和质感,主要体现在人脸区域,有比较显着磨皮效应。因而,在对画面细节有要求的事务场景,例如 PGC 内容出产,用户一般会诉苦:人脸磨皮太显着,有点假。
图 5 惯例 CNN 模型处理作用示范:
处理之后编码 artifacts 被有用去除,画面比较洁净滑润,
但短少细节和质感,例如人像区域的头发/眉毛/胡子/皮肤颗粒感/嘴唇纹路等细节;
地上草地纹路细节以及晚会节目视频中艺人服装、道具细节丢掉
l 根据 GAN 的处理计划
为了处理惯例 CNN 超分辨率模型缺乏细节、过滑润的问题,学术界在 2017 年提出了根据生成对抗网络(GAN)的超分辨率计划:超分辨率生成对抗网络(SRGAN)[5]。SRGAN 在模型练习进程中,额外运用判别器对模型输出成果的纹路真实性进行鉴别,然后使得模型倾向输出具有必定细节纹路的成果。
如下图所示,根据 MSE 的模型倾向输出滑润的成果,而根据 GAN 的模型倾向输出有必定纹路细节的成果。
图 6 根据 GAN 的 SR 计划
图来历:论文 Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
根据 GAN 的超分辨率模型具有“惹是生非”生成细节的才干,因而能够补充原始画面缺失的纹路细节,这对处理惯例 CNN 模型过滑润问题有很大的协助。在 SRGAN 模型之后,学术界有不少工刁难这一技能方向进行不断的完善[6, 7]。
05 窄带高清 GAN 细节生成技能:时域安稳的细节生成才干
但是,想要在实践事务场景中用好 GAN 生成技能,尤其是要在窄带高清全自动转码作业中运用该才干,技能完成层面仍是有不少难点。因为 GAN 的纹路细节是经过许多数据练习之后“脑补”出来的,那么“脑补”生成出来的细节纹路是否天然、与原始画面有没有违和感、相邻帧的生成成果是否具有一致性等,对该项技能能否在实践视频事务中成功运用至关重要。
具体来讲,要在窄带高清全自动转码作业中运用 GAN 生成才干,需要处理以下几个问题才干满意商用要求:
l 模型“脑补”生成的纹路天然,与原始画面没有违和感;
l 视频相邻帧的生成作用一致性高,连续播映无时域闪耀现象;
l 可运用于自动化处理流:模型对片源质量有杰出的自适应才干,对不同画质丢掉程度不同的片源均有收益;
l 模型可适用于不同视频类型场景,例如影视剧,综艺,赛事,动画片等;
l 模型处理流程简略,处理耗时可预测、可操控(直播场景对处理功率有比较高的要求)。
阿里云视频云音视频算法团队经过对 GAN 生成技能继续的研究,堆集了多项 GAN 模型优化技能,处理了上述 GAN 细节生成才干商用落地的难点问题,打造了一个可运用于全自动转码作业的 GAN 细节生成计划。该计划的中心优势是:时域安稳的细节生成才干。
图 7 阿里云窄带高清 GAN 细节生成技能
具体来讲,在窄带高清 GAN 细节生成模型的练习进程中,咱们运用了以下优化技能:
1.树立类型丰厚、明晰度高、细节丰厚的高画质视频库作为模型练习的高清样本,练习样本包括多样的纹路特征对 GAN 生成纹路的真实感有很大的协助;
2.经过精细化建模不断优化练习数据的制备进程:根据对事务场景所面临的画质问题的深化洞察,贴合事务场景不断优化练习样本建模办法,不断探究以到达精细化建模;
3.探究堆集有用的模型练习战略:
l 丢掉函数: 练习丢掉函数装备调优,例如 perceptual loss 运用不同 layer 的 feature,会影响生成纹路的颗粒度,不同 loss 的权重配比,也会影响纹路生成的作用;
l 练习方法: 咱们在模型练习进程运用了一种叫 NoGAN 的练习战略 [8]。在图画/视频上色 GAN 模型练习中,NoGAN 练习战略被证实是一种非常有用的练习技巧:一方面能够提高模型的处理作用,另外一方面临模型生成作用的安稳性也有协助。
4.模型对片源质量的自适应才干决议了其是否可运用于自动化处理作业。为了提高模型对片源质量的自适应才干,咱们在练习输入样本质量的多样性和练习流程方面做了许多作业。终究咱们练习得到的 GAN 模型具有杰出的片源质量自适应才干:对中低质量视频源具有显着的细节生成增强才干、对高质量片源有适中的增强作用;
5.打造多场景处理才干:依据学术界的经历,处理方针先验信息越明晰,GAN 的生成才干越强。例如将 GAN 技能用于人脸或许文字批改,因为其处理对象单一(高维空间中的一个低维流形),能够得到非常惊艳的批改作用;
因而,为了提高 GAN 对不同场景的处理作用,咱们选用了一种「1+N」的处理形式:「1」为打造一个适用于通用场景的 GAN 生成模型,具有比较温文的生成才干;「N」为多个笔直细分场景,针对笔直细分场景,在通用场景模型基础之上,对该场景特有的纹路细节进行比较激进的生成,例如:关于足球赛事场景,模型对赛场草地纹路有更强的生成作用;关于动画片场景,模型对线条有更强的生成才干;关于综艺节目,舞台表演场景,模型对人像特写细节有更强的生成才干。特别注意:如下所述,关于特定方针的生成作用提高,咱们并没有选用特定方针独自处理的计划;
6.核算杂乱度可控可预测的处理形式:直播场景对处理模型的运转功率有很高的要求。为了适配直播画质增强的需求,当下,咱们选用了单个模型处理形式,即:对全幅图画,一致运用单个模型进行处理。 即便要对某些特定方针的生成作用进行针对性提高,例如人像区域及足球场所草地纹路,咱们并没有选用将方针抠出来,独自处理的计划。因而,咱们的模型推理时间是可预测的,与图画内容无关。经过模型蒸馏、轻量化,根据阿里云神龙 HRT GPU 推理结构,咱们的 GAN 细节生成模型在单卡 NVIDIA Tesla V100 上,处理功率可达 60fps@1920×1080。
GAN 生成时域安稳性保证技能
为了确保 GAN 模型生成作用的帧间一致性,以避免帧间不连续带来视觉上的闪耀,咱们经过与高校协作的方法,提出一种即插即用的帧间一致性增强模型 – Temporal Consistency Refinement Network (TCRNet)。TCRNet 的作业流程主要包括以下三个步骤:
l 对单帧 GAN 处理成果进行后处理,到达增强 GAN 处理成果的帧间一致性的一起,增强部分细节,改进视觉作用;
l 运用偏移迭代批改模块(Iterative Residual Refinement of Offset Module,IRRO)结合可变形卷积,提高帧间运动补偿精度;
l 运用 ConvLSTM 模块,使模型能够交融更长间隔的时序信息。并经过可变形卷积对传递的时序信息进行空间运动补偿,避免因为偏移形成的信息交融差错。
图 8 TCRNet 算法流程,来历:论文 Deep Plug-and-Play Video Super-Resolution
图 9 偏移迭代批改模块(IRRO)算法流程
来历:论文 Deep Plug-and-Play Video Super-Resolution
窄带高清 GAN 细节生成:这个人脸作用还假吗?
回到前面提及的几个惯例 CNN 处理作用比如,咱们再来看看运用窄带高清 GAN 细节生成处理会有怎样不一样的成果。关于这些比如,咱们运用通用场景模型进行处理。
图例:从左至右分别为:窄带高清 GAN 处理、输入原始帧、惯例 CNN 处理作用
图 10 人脸皮肤上有了颗粒感,有一种皮肤质感;头发,眉毛有了发丝的感觉;嘴唇纹路更丰厚
图 11 头发,胡子的细节更丰厚,人脸不会有磨皮感
图 12 地上/草地纹路更丰厚,细节更明晰
图例:从上至下分别为:窄带高清 GAN 处理、输入原始帧、惯例 CNN 处理作用
图 13 左边艺人裙子纹路更丰厚;右侧艺人道具纹路更丰厚,细节更明晰
图例仅限于演示技能计划作用,从左至右分别为:窄带高清 GAN 处理、输入原始帧
图 14 头发,胡子区域有显着的细节生成,纹路更丰厚
在前面咱们说到,针对笔直细分场景,模型会对该场景特有的方针进行较为激进的纹路生成。例如关于足球赛事场景,模型对场所的草地纹路有更强的生成才干。下图是两个示例:
图例:从左至右分别为:窄带高清 GAN 处理、输入原始帧
图 15 足球赛事场景,草地纹路生成作用
此外,关于动画片场景,咱们也练习了一个针对性的 GAN 模型,聚集在线条生成才干。下面为三个动画片的处理作用。
图例:从左至右分别为:窄带高清 GAN 处理、输入原始帧
图 16 动画片处理作用
窄带高清 GAN 细节生成技能商用
现在,窄带高清 GAN 细节生成才干已在百视 TV NBA 直播转码中全面启用。当您用百视 TV APP 观看 NBA 竞赛,挑选“蓝光 265”档位,就能够体会根据窄带高清 GAN 细节生成才干转码输出的画质。一起,百视 TV 在一些综艺节目和大型活动的直播中也运用了该功能。
此外,在 FIFA2022 世界杯转播中,江苏移动运用窄带高清 GAN 细节生成技能提高咪咕视频原始机顶盒分发流的画质。在为期一个月的赛事转播期间,窄带高清为江苏移动全天 24 小时不间断直播供给画质增强才干。
除了百视 TV 和江苏移动,现在还有多个客户在试用窄带高清 GAN 细节生成才干,POC 测试的作用得到了客户的高度认可。
客户场景画质增强作用示范:
www.bilibili.com/video/BV1jh…
左边 百视 TV APP 直播推流信号源;右侧:窄带高清画质增强输出
www.bilibili.com/video/BV1Th…
左边 江苏移动直播推流信号源(咪咕 8M);右侧:窄带高清画质增强输出
高分辨率、纹路丰厚、细节明晰的视频能供给更明晰的画面和更高阶的感官体会,关于提高视频质量和用户视觉感触有很大的协助。窄带高清 GAN 细节生成批改技能将继续在该范畴不断探究,不断精进,打造极致的细节康复和增强作用,为视频顾客供给优质的视频观看体会。
未来,窄带高清 GAN 细节生成才干将继续进行算法功能优化,提高细节生成和批改作用,一起不断下降处理本钱。
更好!提高细节生成和批改作用;除了现在选用的 GAN 计划,根据扩散模型的细节生成技能也将是咱们后续研讨的重点方向;
更广!打造更多笔直细分场景,选用激进的生成战略提高相应场景的细节康复作用;
更普惠!经过模型轻量化,以及优化部署计划,继续下降处理本钱,以普惠的价格服务更多的客户。
【本文所涉及的视频、图片为实践事例,仅用于技能共享及作用展现】
附:参考文献
[1] cvpr2016.thecvf.com/program/dem…
[2] www.gov.uk/government/…
[3] Wenzhe Shi et al., Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network, CVPR 2016
[4] NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study, CVPRW 2017
[5] Christian Ledig et al., Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR 2017
[6] Kai Zhang et al., Designing a Practical Degradation Model for Deep Blind Image Super-Resolution, ICCV 2021
[7] Xintao Wang et al., Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data, ICCVW 2021
[8] www.fast.ai/posts/2019-…
[9] Hannan Lu et al., Deep Plug-and-Play Video Super-Resolution, ECCVW 2020
致谢
特别感谢以下同学对本文所涉及的算法做出的贡献。@刘佳慧(佳芙) @吕峥瑶(相泉) @李岁缠(岁曦) @王伟(静瑶) @邵纬航(生辉) @周明才(明烁)