引言

20 世纪 80 年代,当多媒体技能诞生,一个全新的多媒体使用年代大幕缓缓敞开。四十年间,一代代技能人不断投身多媒体作业,这其中有许多深耕该范畴的匠心人,埋首研究并持续立异,引领和推进多媒体技能不断演进,蓬勃开展。

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

上海交通大学电子工程系教授、图画所副所长宋利教师就是这样一位一路见证多媒体技能起步和勃兴,深耕多媒体技能数十年,引领着高校教育和研究数字化前行的“匠心人”。在本期技能指针中,咱们将跟从腾讯云 TVP、上海交通大学 电子工程系教授 图画所副所长 宋利教师,透过学者视角,敞开一段美妙的多媒体技能开展之旅。

一、看起步开展,忆多媒体进程

早在二十多年前读博士时进入多媒体范畴,宋利教师便扎根于此,一路以来,他见证着多媒体技能从 H.264 年代开展至现在的深度学习年代,也随同技能的开展而生长。那么,接下来,咱们将跟从宋利教师的脚步,回首与多媒体的不解之缘。

我从2005年博士毕业后留校,一向专心多媒体范畴教到现在,从讲师到副教授、教授这样一步一步地做。遐想当年没有现在这么热烈,我印象中当年的同一届学生里有好多人都现已转行了,并没有留在多媒体范畴。可是我在念博士的时候,由于酷爱所以比较认定自己未来要在多媒体职业里作业,并且视频编码范畴具有一半技能一半艺术,一半可控一半不可控,这一点也非常招引我持续投入。

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

其实,我做的第一个项目是图形学,主要是给虚拟人试穿衣服以模仿真人试衣,这是现在看起来都很超前的一个技能。在那之后我开始转到视频编码范畴,中心也有跟踪过一段音频技能,然后便一路从 H.264 年代、H.265 年代、H.266 年代,现在到深度学习年代,算是见证了多媒体职业从起步到开展的环节。

在学者以外,我的另一个身份是教师。我个人是比较喜欢做教师的状况,教育相长,当能把一个东西讲给他人听时其实是又学习了一遍。一同每学期都是新同学,新面孔,每次都有新鲜感,要把他们领入门,期望他们生长起来,生长得更好更快,这种感觉其实仍是挺可贵和挺棒的,这或许也正是做教师的乐趣所在。我其实也很尊重学生的挑选和个性,我一般会让我的研究生花些时刻去了解自己喜欢什么,擅长什么,我期望学生做自己喜欢且擅长的事。作为高校教师,毋庸置疑仍是要确保自己专业的精深,我在多媒体范畴里边从事时刻最长,大约超越一半的投入和产出、项目来历、学生、做的效果,仍是在视频编解码范畴,因而在这方面仍是在持续发力的。我上课时跟学生也正好讲到 “T model”, “T” 这一横的意义是代表渊博,常识要有广度,但还有一个很重要的是 “T” 这一竖的杠杆,即深度,深度是代表你的专业,只有满足深才能找到自己的立足点。

多媒体其实入门不难,可是要做到精深,是需求投入时刻打磨的,需求有工匠精力。就好比一本教材,往往要出到第三版才会有比较优质的内容,关于产品,关于技能也是这样,咱们得倾泻热情,花时刻去提高技艺,要不断地拓展视野和学习范围。多媒体的特点就是它是一个不断改变的滑动窗口,下一代或许走的就不是这个技能体系,而正是学习能力和投入决定了你能走得多远。

在这个商场蓬勃开展的阶段,由于商场满足大,做得不好也能分一杯羹,但等到商场进入竞争激烈的状况时,那就只能靠打擂了。因而我和许多同学说,期望咱们毕业今后到各个公司里边是做编码器设计的人,而不是简略拿编码器去改,咱们要有能力重新写一个,争夺坐上第一把交椅。

二、看深耕范畴,剖多媒体演化

在多媒体开展史上,多媒体一词的概念,编解码的规范,它们都阅历了哪些演化;在编码规范上,咱们又是如何实现从跟从到带路的转变?从概念内在到规范迭代,宋利教师将为咱们逐个娓娓道来:

多媒体范畴的开展大约阅历了 40 年的时刻,1990年,以视频编码第一代规范 H.261 为代表开展到现在,现在咱们日常运用的微信视频号,腾讯会议的背面都是多媒体技能在支撑,它阅历了很大的演化。

第一个演化阶段是 TV,即电视阶段,从电视台把一个节目能传到咱们的家里本来至少需求通过 300 多个设备和环节。第二阶段走向为OTT,或被称为流媒体,流媒体把本来电视年代的大堆专用设备都简化了,对咱们多媒体人而言是一个网络的呈现,尽管终端看到的东西没有改变,但其实背面现已发生了重大的结构演化。第三阶段则是手机终端化,现在咱们只是运用手机就能够处理绝大部分的问题。未来再进一步向交互性更强的方向开展,就是现在咱们热议的元国际,也是腾讯所说的全真互联网,我最近还取了一个新词叫“临境媒体”,它们比本来的多媒体的内在又愈加丰富了。

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

我在上课时也给同学们留了一个考虑题,云游戏到底是游戏仍是视频?咱们打的是游戏,但支撑游戏的却是视频的技能,它其实是将烘托完的成果再以视频形式推到用户侧。低时延编解码、视频处理,它们的内在比曾经无疑扩大了许多。有时候语言限制了咱们的幻想力或限制了常识,咱们至今还在用“多媒体”这个词,但“媒体”的内在其实与二十年、十年前比较现已发生了很大的改变。

(一)视频编解码迭代下,H.267 路在何方

当时,视频编解码从某种程度上来说现已开展渐趋成熟,能够说只需存在视频的当地,那么这个视频都不会是原始视频,它背面必定有编码器,它也是归于根底架构里边不可或缺的环境。

通讯里边的 1G、2G、3G,现在现已开展到 5G,类比到视频编解码其实也有代际的概念。鉴于视频编解码比较具有通用性,所以它有一个规范在后面推进。从第一代 H.261,到 H.262 即MPEG-2,再到 H.263 跟 MPEG-4 是中心过渡的,然后又开展到 H.264,H.264 是现在用得最多的,到 H.265 和最新规范 H.266,一路走来咱们一般以为有四代编解器,每一代的开展也差不多历时 8 到 10 年,加起来总共 35 到 40 年的时刻。这和移动通讯相同,现在视频编码也差不多走到同样的方位,对应的 H.266 出来今后,咱们以为视频编解码再往前走到 H.267 的话,是否还持续沿着这个规范和这条单一的演进路线走下去,这是一个有待考虑和探索的问题。

(二)编码规范的“独占”与“带路”

其实,现在的编码规范也分为几条线,早先咱们更多仍是参考国外的规范或者国际规范为主。这主要是由于我国国起步较晚,那时候许多技能都有时刻顺序,许多 ICT 的技能就来自于欧美,咱们只能从后向前追赶。国内规范是从大约二十年前发生,近几年开始声响比较大,是国家和电信范畴里边认可的规范,现在的代表是 AVS。

值得一提的是,多媒体范畴里边有一个特点是华人比较多且他们的能力很强。国内规范能够独自做起来,功能也与国际规范根本保持在同一级,甚至在某些方面还会做得更领先,也是得益于国内外许多华人的推进。特别是在国内,包含腾讯这些公司在这方面投入很大。从这个意义上来说,咱们在根底上并不落后,甚至是处在领先地位。在明确赛道的情况下,我国人一般用十年时刻能够完成他人要用两三代时刻完成的事,现在阶段,咱们更期望是咱们去带路,让他人跟从我国的步伐。

三、看技能热门,寻多媒体使用

现在,多媒体使用走进了千家万户,在线视频会议办公,短视频文娱都为咱们的作业和生活带来了极大的便当。那么,一场在线视频会议的背面需求怎样的多重技能支撑;RTC 又有哪些充溢幻想空间的新式使用场景?让咱们跟从宋利教师一探究竟。

(一)多媒体技能推进在线视频会议的鼓起

“原本咱们预想到视频会议肯定会走到千家万户,可是没有意料到它的开展速度会是如此之快,用户规模如此巨大,并且成为咱们日常的刚需。”宋利教师慨叹道。

咱们上的许多课程是专题性质的,一门课里会有许多专题,比较合适约请不同专题下面的专家来分别授课,这样不同范畴的专家能够为学生供给更为深化的解读,关于这类课程,在线上开一个腾讯视频会议,能够大大节约异地教师的上课时刻,比线下教育的可操作性更强。

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

现在咱们校园也是用腾讯会议企业版,腾讯的产品和服务态度都做得很好,得到了师生的认可。校园的课程会一致导入腾讯会议,每天的课程都会准时给教师发送提示,一切选了课的学生,只需登录后就能够通过在线列表直接参加课程会议,这一点非常方便。

(二)在线视频会议背面的多重技能

视频会议体系是一个很典型且完好的现代多媒体通讯体系。现在,咱们普遍把它定义成 RTC 类的典型使用,它较流媒体而言在技能上的挑战更大,主要在于视频会议是双向互动的,而非流媒体的单向输出。在线视频会议的背面,其实有着多个技能过程:

第一阶段是屏幕收集,从教师到学生这一侧是典型的屏幕收集,比方咱们上课一般会用笔记本电脑,首要需求捕获屏幕,屏幕捕获包含图画和声响两部分,其中声响还包含屏幕里边的声响,比方播映的视频声响,以及人说话的声响,是依照 30 帧,每秒钟 30 次去抓取画面和声响。

第二阶段是图画处理,在屏幕捕获后便进入处理阶段,包含噪声处理、色彩修正、设备亮光一致、美颜滤镜等,这些咱们都称之为图画处理,通过这一步,这就过了一个信号处理的滤波。

第三阶段是编码紧缩,在这阶段就进入编码器,音频和视频都会被分开紧缩。在紧缩过程中,各种编码规范便会开始履行,紧缩结束后便会生成一个音频流和一个视频流。

第四阶段是复用和打包,鉴于音频流和视频流需求传输到网络,所以还有一个复用和打包的环节,将音频流和视频流依照时刻排列好,同一个时刻的打包到一同,盖一个戳,这便称为复用打包,一同,复用打包也是非常有考究的,需求依据传输网络的要求,现在多媒体一般是在 IP 网络之上,所以会把它打成 IP 包。

第五阶段是网络分发,打包今后就能够过网络分发了,分发结束后,不管学生在哪里,只需能够上网,便能从网络上把这个包拿下来。

第六阶段是逆向解包、解复用,剩下的作业就是把包裹拆开,音频和视频都拎出来,对照看看时刻是否对准,再把它们依照时刻点放到缓存区里边排列好。本来的视频如果是流媒体,咱们叫播映器,播映器就会把音频、视频拿出来解码,把音频还原成音频,从二进制还原成信号,视频还原成图画,然后播映。其实 RTC 也相同,视频会议也相同,视频会议不叫播映而叫显现或呈现,也是相同把实时的包抓出来,音频、视频放到显存、声卡里,然后进行解码,到这一步又还原成一幅图画、一个视频。

最终,第七阶段是后处理,对比前面阶段的前处理,最终一步咱们对应称之为后处理。由于咱们再往前推是显现器,从数字到模仿还有一个适配的过程,所今后处理主要是关于屏幕适配来做一些调色和缩放处理。

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

腾讯会议作为在线视频会议的典型代表,从用户层面来看,它主要给我三种感受:首要是它简略好用,操作方便。其次是质量高,尤其体现在声响方面,尽管是视频会议,但咱们往往更多会关注参会人的声响。腾讯会议的噪声抑制比较曾经有了明显提高。最终无疑是安稳性高,依靠腾讯云,腾讯会议能够保证大规模用户的一同在线。

咱们做学术的人往往强调的是上限,需求咱们发表论文要讲立异性。但我以为做产品则需求稳住下限,毕竟是给千百万人运用的东西,需求花费更大力气来保证下限。把一个东西做出来或许不难,可是要把它做成一个用户规模很大、非常安稳运行的产品则极具挑战性。

(三)RTC 既是文娱东西,也是出产力

实际上,RTC 不只是是单一技能,它仍是一个体系。方才咱们提到的编解码,做流媒体用的分发类的编码器跟实时通讯的编码器是不相同的要求,比方低时延的许多东西。这两年云游戏、直播等开展得很快,在这背面其实许多技能都跟 RTC 相关,直播里就有运用 RTC 的部分技能,比方腾讯的快直播。群众热议的元国际,其实它背面也离不开 RTC,此外,RTC 和工业结合起来布局长途监控、长途操作、长途医疗、长途救护、长途训练,这些使用也会是未来的新式方向。

毋庸置疑,RTC +各种使用能够影响咱们的文娱、生活、出产、作业,例如,腾讯跟三一智矿公司合作的“自动驾驶+长途操控”的智慧矿山无人化方案就是一个典型的工业使用场景,主要是基于腾讯云实时音视频(TRTC)与 5G 网络交融技能,能够将视频传输时延大幅下降,为矿山作业人员供给愈加安稳、流畅、可靠的长途操作体会。

腾讯云特别是视频部分在整个职业里是走在前列的。在视频这块,腾讯云走得最为深化,产品使用许多,且都细化到了解决方案上,比方 TRTC、快直播、流媒体等,针对不同场景都做了优化,这也说明腾讯云在音视频这块做得非常详尽,并且里边的技能立异和快速迭代咱们也是有目共睹。

从职业视点来说,我期待在现有根底上能有必定升格。我信任在腾讯云产品的迭代更新过程中,自身也会有许多首创的东西非常合适我国,期待腾讯云的立异能在未来升级成职业的标杆或规范。据我了解,腾讯的多媒体实验室也做了许多规范化的作业,我期待未来在这方面能有更多的打破。

四、看未来方向,探多媒体的下一站

跟着元国际、ChatGPT 等新式技能不断涌现,与之紧密相关的多媒体的下一站将走向何方,咱们该如何掌握它的数字化未来呢?追跟着宋利教师的视线,咱们一同眺望多媒体的未来前景。

其实,从顾客的视点来说,咱们关于新技能的关注更多仍是在于终端技能,现在手机屏幕占有了咱们最多的运用时刻,那么在未来,多媒体的下一块屏会在哪里?究竟是头盔,仍是眼镜,又或是全息,现在各种探索层出不穷。下一块屏实际上也是下一代终端的原型,它将带动整个职业往前跳动。

深耕视听领域的匠人,如何看多媒体技术未来? | 专访上海交大宋利

就整个根底链上而言,不管是 XR 仍是 VR,咱们能感觉到更多的驱动力其实仍是来自于终端,终端对应的头端是成像收集、摄影技能、成像技能、声响技能,甚至包含虚拟制作。AR 代表更多的是生成,多媒体内容的出产、生成有许多新花样。以 AI 为代表的内容,元国际的真假结合带来的东西,我觉得会把当时多媒体的许多东西推翻掉,极大地拓展多媒体的维度。

例如在曩昔咱们的多媒体其实都是把内容记录下来,尽或许确保真实感。可是现在参加元国际、AI,便能够创造出多个虚拟形象,用户还能够和虚拟形象进行互动,即真假交融、真假相生,这里有着很大的幻想空间。

业界的领袖,包含腾讯提及的全真互联网概念,国外的元国际概念,其实都现已给咱们的开展指明了方向,这当中的途径或许有快有慢,但方向我个人仍是非常认同,它最终的意图就是期望咱们能到达更高的体会。

在一个大周期内部是小模块在迭代,到达某一个点后,即是跟着破坏性技能的呈现,大周期将会忽然发生一个大的跳动,叫做“升维”,会“咔嚓”带动全体往前走一步又再进入循环,往往技能进步就是这样,但它常常是不可意料,忽然呈现的。背面科研人员也好,职业也好,国家也好,其实咱们都没有停下追逐的步伐。

结语

在短短四十年时刻里,多媒体技能从破空而来开展到现在使用遍地开花,并还在不断向前打破,正是一代代像宋利教师这样的多媒体“匠心人”,用多年耕耘和持续探索,才让咱们今天的视听国际得以如此五光十色。TVP 技能指针,下期将持续和你一同,探寻技能真相。