对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

捉住已知的,迎面不知道的。

编者按: 大模型、降本、出海,是多媒体从业者交流的高频词,内容与交互的需求层出不穷,大模型与AI的演进眼花缭乱,让增速低走的视频云迎面新的机遇和应战。作为一个跨过中美多媒体职业20年的亲历者(阿里云视频云负责人何亚明),与他的对话展示出一番场景,他没有否定多媒体生态当下的问题,但他说新的时机就在眼前,更重要的是,他对多媒体满怀期望。

策划 编撰 / LiveVideoStack、IMMENSE

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

从微软、Facebook到阿里云,何亚明跨过了中美两大最活泼的经济体,走过PC互联网、移动互联网到视频化的20多年,一向与多媒体为伴。

他以为,不论技能和产品如何演进,音视频作为最靠近用户的展示方法大概率不会改动,这是他对多媒体生态依然充满信心的原因之一。不过,随着大模型向AGI不断演进直至完结,多媒体从业者需求将AGI融入到多媒体技能中,乃至改动本来的工作流。比方在微软,Azure media service“退役”了,但团队并没有流失,而是进入到Copilot ,让Copilot与多媒体更好地结合。

在阿里云视频云,何亚明和团队正在探究经过大模型提高视频处理和出产的功率,期望构建一个归于视频的大模型,经过这个体系可以极大地提高事务决议计划功率,让体系也变得愈加的简略。

在他看来,智能年代也是人机交互的新年代,将 带来交互方法的改动,这也带来了对视频技能的新需求。 新需求主要体现在算力和时延两个方面。算力方面,视频技能会更多和AI相结合,会耗费更多的算力。算力也会从服务端逐渐向移动端扩展,视频处理和出产会变得更高效、更智能。时延方面,随着Vision Pro、Quest 3和Meta Smart Glasses上市,对延时的要求会变得更高,为了用户体会或许会诞生新的传输格局、紧缩算法来进一步下降时延。即便死守着多媒体技能老本行,依然有许多工作要做。这是信心的第二个来历。

第三,何亚明以为AIGC会开端逐渐商业化落地。 比方现在传统的服务职业(需求和人交流的场景,需求24小时在线的)对数字人就有很大的需求。 数字人被许多业内同行以为是当下为数不多的增量商场,也是多媒体技能与大模型结合十分成功的场景。包含电商直播、医疗咨询、保险客服等都有十分明确的客户需求和事务落地。

谈到出海,他觉得国内公司积累了许多才能,而海外的技能服务相对更规范化,更朴实地比拼技能才能,我国厂商可以吃到十分多的盈利。 尤其在交际、电商场景的运用立异,在海外给用户的体会依然是颠覆性的。

最后,何亚明期望 (多媒体企业出海)能像电动车那样,到海外有真实的定价权,由于咱们具有处于领导地位的质量和技能。他坦言,咱们的职业需求更多的协同和规范,从朴实的竞赛到获得职业共识,需求咱们共同去努力。
总归,不论国内海外,面对多媒体的未来,一切都很难猜测,但就像何亚明说的,有时分科技的开展就像一辆高速驶来的列车,你远远地看着,疑问怎样还不到?但当它真的从你旁边经过期,或许一不小心就过去了。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

以下是何亚明的对话实录:

二十年,一场多媒体的缘分与螺旋

Q1

LiveVideoStack:我记住应该是2018年,亚明教师回国。我形象特别深化。我接到了一封邮件,然后我一看,这个人好厉害:之前在Facebook、微软,现在在阿里巴巴,我其时在想,咱们有这么大吸引力吗?其时特别欣喜,后来水到渠成地约请亚明过来做2018 年LiveVideoStackCon北京的共享,后续也有陆陆续续的交流,现在想起来还有点梦境。

我想从两个视角提问。

首要是全球的视角,你的(工作)阅历基本上在流媒体这个圈子里,差不多20多年了,是职业的长辈。第二,从国内的视角看,你回国这几年正好赶上流媒体迸发式的增长,从千播大战、教育、交际、游戏等,包含疫情所带来的长途工作需求的暴增,但现在(生态)又进入到一个调整阶段,国内互联网的流量在下降,用户在逐渐回归到混合或传统的线下交流,一起大环境又遭到整个经济周期的影响。假如将这两个视角结合在一起,你怎样来回忆总结自己20多年与流媒体相爱相伴,简略地说说你的感触。

何亚明 : 这让我回到了2018年的时分跟你榜首次接触的场景,我觉得在我国有一个LVS这样一向在音视频圈子里做交流的组织者仍是十分感谢的,也十分感谢你的坚持,咱们仅仅在不同的战线都在坚持着。

言归正传,我最早踏入音视频圈子是2000年,那个时分刚刚去微软,这是视频(运用)的榜首波迸发,那时处理的问题便是把视频在线化,不论是Windows media player仍是Real的RM,微软的WAV,H.263、H.264才刚刚出来,一切人都想的是“咱们把视频在线化”,所以各种player、各式各样的媒体文件的format出现出来,但还没有进化到流媒体,还停留在container这种format。

第二波则是直播职业出现。 一开端是体育、赛事这样的一些直播,那个时分微软也积极地投入到各种流媒体协议的规划,从最早的media stream,smooth streaming (Dash的前身),然后Dash、HLS的各种协议,迎来了(视频运用)第二波迸发。

第三波是RTC年代。 不论是Facebook的Messenger、Zoom、微信仍是钉钉,特别是疫情今后,第三波RTC迸发把推迟从5到10秒下降到百毫秒等级,这也是咱们过去阅历的要害阶段。

我觉得音视频技能一向是呈螺旋式上升的,过程是起崎岖伏的,任何根底技能都是相同的,它不或许永久都在喷发。当你处理了技能的基本问题之后,出资和炒作就会降温,但技能一向在开展。从我刚入行到现在,每天都在处理不同的技能问题,不会存在一个阶段无事可做。不论怎样崎岖,我对音视频仍是一向抱有热爱和期望的。

紧跟着,下一波又到来。下一波应该是AI和AIGC相结合的,它有或许引爆咱们视频职业里十分多的需求增长。比方视频编码,曾经不论H.264、H.265、H.266或AV1、AVS,它都是依据人为的块划分,而依据大模型的编码方法是不是能愈加符合人眼特征来做?这实际上是一个时机。每次当一个新技能出现的时分,音视频的底层技能也会出现一个大迸发,需求也会相应地增长。

总结来看(音视频)是一个螺旋式的开展,即便堕入增速低谷,许多工作咱们还要做,全体上技能都是在往前推进。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

从微软到Meta,视频技能是立异必备的根底力

Q2

LiveVideoStack:你横跨中美,阅历了20多年的职业开展,假如对比国外与国内多媒体生态,你有什么不同的感触?

何亚明:前段时间跟前搭档谈天,聊到AI年代对流媒体的冲击,或许有些表面看起来是负面的,但实际上背面或许并非如此。

或许你听说了微软把Azure media service“退役”了,Azure media service供给包含转码等各种根底多媒体才能,微软以为这是十分老练的技能,许多供应商都可以来做。但微软并没有裁掉任何一个人,团队全体进入到Windows Copilot,让 Copilot与多媒体更好地结合。虽然(团队)依然做多媒体的老本行,可是要面对Copilot AI这个新命题,这个是微软的比方。

我也和许多Meta的搭档聊,他们也阅历了十分多的改动,从All in元世界遇到各种波折,但一切从事流媒体的人都还在,他们把媒体当作一项基本的才能,(鼓舞)咱们去做立异的小项目,比方带两个摄像头的手表,听起来挺无厘头的,但在不断地测验(流媒体)跟硬件、AI结合,把视频技能用到各个小的立异点上,这个趋势跟国内的确不太相同。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

Q3

LiveVideoStack:最近有本关于FFmpeg的新书,或许未来讲流媒体底层的书或许会越来越少,或许会出现“如何用Copilot做流媒体开发”,乃至经过自然言语,就可以做转码服务,推流,流媒体技能会更大众化。

何亚明:是的。底层转封装、转格局这些才能,不会成为多媒体从业者的竞赛力。由于你会FFmpeg,所以你有竞赛优势,(未来)一定不是这样的。可是咱们一向在做To B,每天服务许多客户,需求深度了解多媒体各种运用场景,了解事务的本质,对从业者的要求变得更高了。接下来你还要了解各种大模型,如何在大模型根底上做fine tuning,做各式各样下流的任务,这些都是咱们所要具备的这个才能。

AI的决议计划提效,大模型的交互革新

Q4

LiveVideoStack:谈到人工智能大模型, 流媒体经过了一个快速开展期,现在进入到相对饱和的阶段。假如从信息论的角度看,视频编码咱们现已挨近信道理论的极限了,或许还有1%-2%需求打破,但遗留下来的问题,相关于咱们的付出,报答现已很有限了。相较之下,大模型所带来的增益十分显着,乃至在某些场景下的编码功率现已超过了传统的编码框架,从业者们应该以什么样的心态来看待这个职业?

这儿面有两个视角,一个是相对狭隘的视角,还在做流媒体技能栈的这些人该怎样办?还有更广义的视角,流媒体可以包容任何技能栈,不论是人工智能仍是GPT,都可以为我所用,咱们虽然做的是流媒体,但不会拘泥于本身的技能栈。从这个角度来看,是不是流媒体未来还有十分大的空间,你怎样看?

何亚明:首要我觉得GPT是一个范式的改动。咱们现在阅历的互联网年代,在很大程度上处理了信息不对称的问题,减少了信息差。虽然咱们曾经也用AI,但现在大模型下AI、AGI才能的出现让我觉得它不是一个简略的增加功率或下降本钱的问题,而更多带来的是决议计划功率上的提高。 所以大模型会给一切职业带来改动,焦虑是正常的,可是咱们也会看到后面更多的时机。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

回到流媒体,不论这波AI(开展成)什么样,音视频一向是离用户最近的,不论AI技能怎样出现(文生图、文生视频),它展示的载体依然是视频类这种流媒体方法的。虽然现在或许仅仅简略地用AI把视频画质提高了,但我信任未来一定会带来一些新的改动。

回忆互联网的前史,每次交互方法的改动都会带来一场革命,而大模型带来范式的改动必然会引发交互方法的改动。 从最早Windows、Mac这些GUI的图形界面带来了交互方法的飞跃,促成了互联网的开展;用手指操作的手机进入到移动互联网,又带来新的交互方法。

在当下这个年代咱们立刻面对的是用自然言语来交互的界面,经过视觉跟空间感知的新的交互方法,实际上现在现已可以看到一些雏形了。与ChatGPT交流现已很冷艳了,但交互方法依然是文字,不过ChatGPT新版支撑语音交互,我经常问ChatGPT一些书本的问题,乃至现已不需求那些传统的听书软件了。

除了这种交互方法,下一个改动,便是咱们对这个世界的感知,而面对空间交互的感知又要依赖数字内容的出现。总结来看,AI、AGI会让数字财物、数字内容海量地增长,许多时分(这些内容)都是用视频来承载的,这关于视频从业者其实是个时机。

别的,交互方法的改动也带来了对视频技能的新需求。 不论是苹果的Vision Pro,或许是 Meta Quest,又或是Smart Glasses,从大方向上来看,视频依然是跟AI十分严密的,它依然可以站在AI技能的风口浪尖上面。

回到狭义的多媒体技能,我觉得视频从业者需求有更多的改动,由于咱们经过这么多年的努力(开源、规范化),现在视频的运用门槛现已变得十分低了,所以要主动去拥抱这波AIGC。

这也是为什么阿里云视频云传统做工程的同学也积极投入到视频算法的研讨里面。可是好在开源的东西特别多,多模态大模型或许多,依据咱们专有的知识库来运用它,这是咱们期望要处理的问题,也是每个多媒体从业者的时机。由于不论各种 AI 技能如何出现、迸发,最后它仍是要回到“你用什么方法展示给你的客户、你的用户”上面来,就要回到流媒体技能上来。

反过来说,流媒体技能也会有新的开展,包含苹果的Vision Pro,由此或许诞生新的format、新的传输的格局,再把交互的推迟下降,算力与AI、多媒体才能结合,虽然这些流媒体根底技能方面听起来并不是十分sexy,但都是根底工作。

别的,AI让内容迸发,结合交互方法的改动,视频不只简略地运用到泛文娱的互联网上,而是运用到各行各业中。关于多媒体从业者来说,是十分大的时机。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

多媒体与AI互渗式开展,视频云尝到了甜头

Q5

LiveVideoStack:大模型结合流媒体的小模型,或许细分场景,你和你的团队最近在做哪些探究?有没有一些工程的落地?协助客户在功率上有比较大的提高?

何亚明:对,实际上刚才讲的AI跟流媒体的结合很早就有了,曾经咱们有各式各样的算法,包含窄带高清视频增强的算法,超高清、插帧、超分和抠图等等。过去几年AI跟视频的结合一向在演进,可是这波AIGC的确是让咱们看到了一些新时机。比方打破了一些技能瓶颈,比方利用大模型抠图的效果(比传统方法)会好许多,经过SAM、CLIP做视频的了解比曾经传统的打标签精度和准确度会提高许多。

在阿里云视频云,咱们以为AI与多媒体的结合分为三步。榜首步,让AI更好地融入到多媒体引擎里。 AI许多时分需求跑在GPU上,而一般的多媒体处理还跑在CPU上,内部的封装格局都不相同,你或许需求YUV,我或许需求紧缩格局,AI和多媒体处理都是依据各自的算子,各自独立。所以榜首步咱们做的便是在架构底层上,让AI(才能)是媒体才能可以在最小的帧等级进行交融,AI才能变成像FFmpeg的一个filter,在架构上让AI与多媒体有更好的结合。

第二步,咱们正在做的用大模型平替传统方法的工作。 比方刚刚说到的抠图,以及视频了解,都可以从平替中尝到“甜头”。

第三,咱们一向在考虑,经过大模型参与到事务决议计划和客户交流中来。 咱们现在十分多的事务决议计划仍是靠模板、人工配置,需求不断地跟客户交流需求,这是咱们在实施To B服务过程中的功率瓶颈。大模型或许供给决议计划才能,咱们期望构建一个归于视频的大模型,靠近咱们的事务本质。 咱们有许多的客户需求、案例与视频内容,依据这些资源,在通用大模型的根底上,在多模态大模型根底上fine tuning,界说好奖赏机制,终究构形出一个决议计划体系。咱们期望这个大模型可以极大地提高决议计划功率,也让体系也变得愈加的简略。这还要一步一步来完结。

Q6

LiveVideoStack:有没有一些事务单点上可以看到比较显着的收益了?

何亚明:在2023年的云栖大会上咱们展示了一些案例,其间一个,是在云导播台上利用大模型抠图,可以在多人复杂场景下实时抠图,现在现已落地到产品里了。广电传媒与电视台的许多的搭档看了今后觉得十分好。曾经咱们都觉得广电传媒有自己专业的东西效果更好,一起忧虑数据安全问题不愿意上云,云导播台的实时抠图的确打开了一个打破口。

第二,是咱们都在聊的数字人, (经过大模型)让数字人的体态愈加自然,可以很快地训练出类似度十分高的、十分自然的语音,再结合云编排技能,批量生成数字人内容,云栖大会现场,咱们对这种技能也是十分重视的,央视CCTV-2也对咱们的这项“数字人X云编排”的技能运用做了现场报道。

第三,视频自动标签。 做媒体、做新闻是十分依赖视频标签的,来查找和过滤内容。曾经都是经过小模型打标签、人工打标,周期长、本钱高。现在经过多模态自动打标签,泛化性十分好,现在正在落地中。在不同的场景具体的需求不同,比方在传媒领域对内容的精度要求十分高。咱们在和各职业的搭档交流过程中发现,他们关于这项技能都十分感兴趣,大模型帮咱们打开了除互联网泛文娱之外的空间,可以真实地处理耗时耗力的工作功率问题。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

Q7

LiveVideoStack:数字人运用比较干流的场景是什么?电商直播带货、游戏、交际陪聊?

何亚明:首要,直播带货是一个很大的场景,比方24小时无人解说带货。第二,在医疗和保险,比方小病的咨询、保险客服等。这儿并不是简略地订两个数字人,而是针对每个职工做数字兼顾,并且又不能让平台客户觉得这是一个数字人(要给客户更强的信任感),这就对数字人的要求很高,让其具备了一些问题解答才能,更要在声音和形态上都十分传神,现在咱们的数字人声复刻才能现已到达和真人难辨的水平,并且训练门槛和本钱也很低。我发现,传统的服务职业(需求和人交流的场景,需求24小时在线的)对数字人的需求十分大。

AI年代,立异视频云的每一环技能

Q8

LiveVideoStack:刚刚也说到,大模型带来的是交互方法的革新,也会下降流媒体从技能到运用的门槛。你们正在为未来做哪些预备?

何亚明:围绕着AGI带来的这一波,整个的交互方法变得更实在,一切都是围绕着交互的内容来做,来应对相应的应战。

榜首,交互方法的改动会带来算力的应战。 在服务端,现在GPU卡很难买,阿里云也在着手处理这些问题,尤其是与CPU的厂商联合起来优化算法,(在推理的时分)尽或许脱节GPU。虽然或许丢失一些精度,但许多时分是可用的。一起为了节约GPU,让CPU协助GPU,结合场景做优化,(一定程度上)弥补算力的缺乏。

别的在终端上有许多大模型落地,包含硬件厂商,比方高通骁龙8 Gen3上现已可以跑大言语模型,未来移动终端硬件的功能会进一步提高。依据大模型许多的算力要做端上的架构优化,实际上也有许多端上推理的架构,优化端智能是咱们现在看好的方向,让算力在云和端之间做好平衡。

第二,交互还带来了推迟的应战。 在高保真虚拟现实的场景下,(操控)推迟是十分重要的,不论是算力的推迟仍是传输的推迟,都需求一张很好的传输网络,这也是咱们一向在做的,以MediaUni(GRTN)一张网一起支撑规范与低推迟直播、实时音视频通话、云烘托,数据传输、长途操控等多元化事务,一起完结算网交融,到达高可靠和低本钱的动态平衡。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

全体来看,作为重要的交融,咱们一向在打造这张传输与算力网,一起,在边缘侧部署了GPU算力,在上面供给智能的媒体服务,把更多的多媒体引擎和AI引擎相结合。 现在,咱们的MediaService在帧等级交融媒体和AI才能,完结从传统媒体处理到AIGC的顶层规划和进化,用AI重塑事务才能,终究完结媒体服务的智能化、多样化、高效化。

在视频编码方面咱们推进MediaCodec智能编码,将传统编码与AI深度结合,从商业视角,在努力到达视频质量、本钱、算力需求的最佳平衡。一起,深化职业场景,供给简略、低门槛的接入才能,经过MediaBox一体化终端套件,满足视频才能在职业化、场景化、智能化下可以快速上线。

总结来看,在AI年代需求把曾经做过的工作都再晋级、再进化,视频云的整个架构要迎接AI年代。 我感觉AI年代开展很快,每天如同都有新兴事物出来,日新月异。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

失望者是对的,但乐观者会成功

Q9

LiveVideoStack:国内现已进入到存量商场,内卷严峻。在上一年结束的LiveVideoStack深圳大会上,约1/3的论题都和降本有关。许多企业也在出海寻找时机,你以为职业什么时分可以回暖?

何亚明:的确,国内和国外的环境有很大区别。国内谈降本谈得许多,国内基本上一切职业都面对经济寒冬或资本寒冬,咱们都想要先活下来。实际上或许有点过于失望了,当然我以为失望者永久是对的,可是只要乐观者才有或许成功。
阿里云视频云上一年也做了许多的降本工作,包含下降直播带宽本钱、服务器本钱,刚刚也讲了端智能,CPU与GPU混合计算等。别的在事务侧,咱们也经过技能让直播的架构从传统的三层到灵活的一层或两层,包含对冷流优化等进一步降本。

国内竞赛环境仍是比较激烈的,更多追求的仍是眼前,国外的环境更能看到未来的许多东西,所以诚恳地讲,在我国做视频职业是比较难的。但仍是期望商业环境可以越来越好,或许美国也阅历过很粗暴的原始积累,但如今它的多媒体职业是有比较清晰的界限的,做CDN的、做流媒体的,咱们都有自己focus的方向,职业规则也比较老练、规范化。我信任我国各个互联网厂商未来一定会意识到,树立职业的一些规范来共同开展。

回到你的问题,关于多媒体职业的回暖迸发时间,我很难猜测,但我感觉会很快。有时分科技的开展就像一辆高速驶来的列车,你远远地看着,疑问怎样还不到?但当它真的从你旁边经过期,或许一不小心就过去了。 现在不像以往可以很safe地说3到5年的开展,现已很难知道下一代技能迸发什么时分到来,或许便是2024。

前阵子Meta的朋友给我演示了Smart Glasses,经过摄像头收集画面,可以语音提问这是什么东西?AI Glass背面是Meta的大言语模型,可以回答你的各种问题,这个demo挺震慑的。当然他们也碰到包含推迟和响应速度的问题,(关于技能人和团队而言)这些都是时机。假如(像SmartGlasses这样的)消费等级的产品迸发,它会推着流媒体技能往新的方向走,咱们可以在这些新的方向再来“卷”。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车

Q10

LiveVideoStack:最后一个问题,国内十分卷。许多的企业包含个人都想去海外,或许现已在做出海的工作了。你怎样看出海?阿里云视频云出海面对怎样样的局势?

何亚明:出海这个战略应该是我国一切互联网公司都在做的一个事儿。前几天看到拼多多的财报,为什么好?便是由于Temu可以十分快地把国内的商业模式铺到海外。阿里的财报也说到,海外事务增长是最快的。虽然咱们在国内卷,但积累了许多才能,咱们可以去东南亚、中东和欧洲这些区域,可以把咱们的才能快速地运用到他们的产品上。并且海外的技能服务相对更规范化,更朴实地比拼技能才能,我国厂商会吃到十分多的盈利,包含咱们在交际、电商场景的运用立异,在我国十分习以为常了,但在海外给用户的体会仍是颠覆性的。

在音视频的技能领域,我国和美国是走在前列的,出海也可以把咱们的技能输出,协助当地把他想要的运用快速孵化出来。我觉得这是一个双赢的局势。我期望(多媒体企业出海)能像电动车那样,到海外有真实的定价权,由于咱们具有处于领导地位的质量和技能。这是一个长时间的赛道,咱们的职业需求更多的协同和规范,从朴实的竞赛到获得职业的共识,乃至形成真实的联盟,这需求咱们共同去努力的。

一起可以看到,国内与海外的音视频服务生态存在很大区别。海外的AWS、Azure media service,都是规范化和模块化的,很少供给端到端一体化服务,十分强调文档的规范化、接口的规范化以及各个产品之间一致的规范。这是需求整个生态来支撑的,不是某一家自己能做的。期望咱们可以共同改动一些东西,真实把(多媒体技能服务)做到规范化、灵活化。

对话阿里云何亚明:多媒体的未来,正迎面不知道的高速列车