视频云大模型算法「办法论」。

演讲者|刘国栋

在AI技能开展如火如荼的当下,大模型的运用与实践在各行各业以千姿百态的办法展开。音视频技能在多场景、多职业的运用中,关于智能化和作用功用的体会优化有较为极致的要求。怎么运用好人工智能进步算法才能,处理多场景事务中的具体问题,需求立异地探索大模型技能及其运用办法。本文由LiveVideoStackCon2023深圳站演讲《AI新范式下,阿里云视频云大模型算法实践》收拾而成,演讲者为阿里云智能高级算法专家刘国栋,共享阿里云视频云的大模型算法实践。

《AI新范式下,阿里云视频云大模型算法实践》主题共享,包含如下四个部分:

AI浪潮下,大模型怎么在音视频范畴运用与实践?

01 音视频AI开展趋势与事务对AI算法的要求

首要咱们看第一部分:音视频AI开展趋势与事务对AI算法的要求。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

当下,音视频服务已广泛运用于互娱、广电传媒、教育、金融等各种职业,对场景的渗透也越来越深。这些职业、场景对智能化和体会的追求愈来愈高,一起用户期望用得起、更普惠。完结这样的方针,AI能够发挥重要作用,这已成为职业一致。

跟着AIGC的开展,音视频范畴的AI技能也呈现出了新的趋势,即对AI技能的通用性、了解才能、生成才能都提出了更高的要求。曩昔纯粹的定制小模型开发、单模态处理和预测范式有不少缺点,触达到了才能上限,而现在音视频AI技能则走向了泛化才能十分强的预练习大模型、多模态信息交融、生成式等方向。还有值得提出的一点是AI Agent的才能,即要求AI有感知、决议计划、举动的才能,它现在已成为一个重要的研究方向。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

当前,阿里云视频云的核心事务包含直播、点播、媒体服务、音视频通信,形成了完好的产品、处理计划阵列。这些事务、产品掩盖音视频从收集、出产、处理、媒资办理、传输与分发、播映与消费的全链路。

现在AI为音视频全链路的各环节提供了算法原子才能。举例来讲,在处理环节,咱们开发了多个AI算法,在视频方面包含视频增强、视频修正、超分、插帧,HDR等;在音频方面包含智能降噪、语音增强、空间音频、影视音效等。这些AI算法都集成到产品中,进步了产品的竞争力。

当然,AI除了提供算法原子才能之外,也渗透到视频云的引擎层、调度层、事务层,进一步进步它们的智能化水平。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

虽然AI现已许多融入事务,咱们对事务做了深化剖析后,还是发现了一些痛点问题。举例说明,云剪辑,许多时分还是需求指定剪辑模版,缺乏自动化,别的,获取高质量的素材也很难;在媒资办理中,视频检索的质量依然存在不少进步空间。但一起,由于大模型、AIGC带来的巨大变革,咱们以为处理这些事务痛点问题已成为可能。

咱们总结出几点新趋势下视频云事务对AI算法的要求,包含追求作用功用上的极致体会,追求算法的泛化性、通用性,进步AI自主决议计划、规划处理链路的才能,以及下降开发、接入、运用的本钱

02 视频云大模型算法体系架构与关键技能

针对音视频事务对AI算法的更高要求,咱们选用了大模型的技能,规划了一套根据视频云大模型算法开发的体系架构,并实践、提炼了一些关键技能,形成了一套较为通用的大模型算法落地事务场景的“办法论”。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们先看下大模型时代降临前,是怎么规划算法的。

大都状况下,咱们选用小模型、传统算法或许两者结合的办法。其优点是:小模型、传统算法在算法开发、工程优化方面已相对比较老练,小模型的练习资源占用少且练习速度快,部署容易,端侧落地性强。可是问题也比较突出,比方模型的泛化才能差,作用上限比较低,了解、生成才能比较差等。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

而大模型呈现后,它的通用性、泛化性、多模态才能、强大的了解和生成才能等都让咱们惊叹不已,这些正是小模型和传统算法所短缺的。用大模型技能去处理之前的算法问题,甚至重做一遍,进步算法作用的上限,咱们以为这是比较可行的做法。

不过咱们也发现了大模型的一些通病,比方对细粒度的问题还不能完美处理、容易呈现错觉现象、推理练习本钱都比较高等。如果要在实践事务中运用大模型,这些问题都应该要尽量防止甚至处理。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

那咱们是怎么推动大模型算法演进的呢?

首要,咱们依据视频云的事务特点,规划和搭建了一套根据视频云大模型算法开发的体系架构。整个体系涵盖了剖析、规划、推理、点评、练习与微调的全链路,并且是可进化、可决议计划的。

可决议计划首要体现在,体系会依据客户需求和本身的剖析,结合视频云知识库及LLM做出决议计划,制定适宜的处理链路和选择模型去完结任务。

可进化首要体现在两个方向,一方面,体系会通过推理、点评、练习不断迭代,完善模型;另一方面,知识库也是不断更新的,比方说好的处理办法和点评信息以及事务反馈、沉淀的数据等都会送入知识库,确保知识的新鲜度、准确度。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

根据大模型算法体系结构,咱们不断地在事务中实践、演进,提炼出一套通用的大模型算法开发的“办法论”,使其能高质量地处理事务中的实践问题。

第一,巨细模型协同技能

针对前面指出的大模型、小模型或传统算法各自存在的问题,咱们提出几种巨细模型、传统算法协同的办法,包含三者的串联、并联,用小模型特征引导大模型或许大模型引导小模型,以及它们的组合。现在,咱们在实践中现已选用了巨细模型协同的办法,比方实景抠图、声响克隆等算法,现已取得了比较好的作用。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

第二,大模型微调

现在音视频范畴的大模型往往针对通用场景,在实践事务中作用不太好,当然这并不是讲这些模型彻底不可用。在一些状况下,咱们针对自己的事务场景,筛选出相对高质量的大模型,再结合咱们的数据、知识库进行大模型的微调。

整个进程会触及到练习数据的制造、微调的具体办法、错觉和灾难性忘记的应对、以及练习战略和作用点评办法等一系列问题。

咱们在实践中首要选用了参数高效的微调办法,对调整哪些网络结构层也做了许多实验。练习战略上选用模型解耦,多步练习的战略。比方在视频查找中,咱们就选用了相似的计划,使得模型准确度有了大幅进步。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

第三,大模型的练习优化

大模型练习的核算量巨大,显存的占用也十分大,这导致练习周期很长,算法迭代速度很慢,影响算法的落地。

咱们从IO、核算、存储等视点出发,实践了一些并行练习、显存优化的办法,包含多种并行,混合精度练习,梯度检测点等,以及选用Zero、Offload、Flashattention等东西。这些办法使得咱们能够在一些功用不高的GPU上,如RTX3090/RTX4090/V100,完结多机多卡的练习,从而下降算法的开发周期。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

第四,大模型紧缩和推理优化

实践事务对本钱的要求是比较高的,咱们期望在确保模型作用的前提下,尽量进步推理的功用。

实践中,咱们对模型做了多轮的紧缩,交替运用多种紧缩办法,包含运用轻量的backbone,低秩分化,以及剪枝,知识蒸馏、量化等。比方在抠图中,咱们选用多种紧缩办法的组合,使模型巨细有了明显下降,参数减少30%以上。

此外,咱们也做了许多推理层面的优化,比方算子交融、算子优化、矩阵优化,显存优化,批处理优化等,并借助阿里云神龙团队的HRT推理引擎,使得大模型推理功用得到进一步进步。

03 视频云大模型算法典型实践案例

AI浪潮下,大模型怎么在音视频范畴运用与实践?

接下来介绍当前阿里云视频云在大模型方面的发展。在曩昔近一年的时刻内,阿里云视频云在大模型方面做了深化探索,开发了多个算法,所做作业触及音视频收集、出产、处理、媒资办理、传输分发、播映消费全链路的多个环节。

正如上图所示,在出产制造环节,咱们开发实景抠图、声响克隆、文生图、图生图、AI作曲等多个根据大模型的算法;在媒资办理环节,开发了根据大模型的视频查找、视频标签、视频概要等技能;在处理环节,咱们开发了根据大模型的视频修正、语音增强等算法。

现在咱们现已初步形成了较为完好的视频云大模型算法阵列。这些算法中许多都已集成进产品,并服务客户。在这儿,我将从出产制造、媒资办理、处理方面别离介绍一项典型算法实践,即实景抠图、视频检索、视频修正

AI浪潮下,大模型怎么在音视频范畴运用与实践?

实景抠图是一项十分重要的底层技能,它的运用面十分广,比方咱们熟知的数字人制造、虚拟演播厅、影视特效、视频剪辑、视频会议等都会用到它。

阿里云视频云在抠图方面有多年的堆集,已开发多种抠图算法,能够应对客户端、服务器等的不同需求,也已在多种事务场景落地。

这儿重点介绍的是面向服务器的根据大模型的抠图技能。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

一般状况下,想要得到高质量的抠图成果,都要选用搭建绿幕的办法。因为这种状况对光照、设备、去溢色等都有十分专业的要求,在必定程度上限制了绿幕抠图的运用范围。

而在实践事务中,往往需求对实景拍照的视频,抠出远景来。由于拍照环境多变、内容多种多样,用算法自动进行抠图完成难度比较大。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

怎么对实景视频完成高质量抠图呢?这触及到算法选型的问题。

咱们先看下小模型办法能否完成高质量抠图。通过深化调研,咱们发现许多抠图作用好的办法都选用人工干预的办法,这种办法对单帧图画比较友好,但关于视频,往往处理耗时久,不太有用。而选用非交互式办法的抠图,鲁棒性则较差,往往只能较好地抠人像,难以在多场景推行。

大模型切割算法的呈现,让咱们看到了选用大模型进步抠图作用的可能性。以SAM为例,它的切割泛化才能十分强,切割质量高,对噪声、阴影等也能做到很好的处理。

咱们期望借助大模型切割的才能来完成高质量的抠图。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们提出了一种根据大模型的实景抠图计划。它能一致处理蓝绿幕与实景抠图,所以实践处理中不必再区分布景是蓝绿幕还是实景。此外,该计划不只能够抠人像,还能够抠与人连带的附属物,并且抠图的质量都十分高。

它的全体流程如下:首要用户提供一些抠图所需的信息,这些信息以文本办法嵌入,然后输入图画与文本嵌入向量逐渐通过方针检测、根据轻量化大模型的物体切割、根据小模型的抠图网络。

在这个结构中,模块是可插拔的,并且选用的是巨细模型结合的办法。小模型会充沛吸收大模型的信息,比方这儿的抠图网络,它吸收来自切割模型的特征,进步了抠图的作用。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们重点看下切割大模型是怎么做到轻量化的。

首要选择一个各方面都体现比较好的根底大模型(泛化性好、切割准确度高、作用和功用平衡)。

接下来的作业是调整它,处理其适配事务场景的问题,使它在事务场景下体现得比较完美。这儿会进行微调,咱们规划了Adapter结构,实践中选用了MLP和低秩分化组合的办法。别的,Adapter的插入方位也进行了许多尝试。还有一点是练习数据的制造,以及数据配比等等都十分重要。

有了一个作用比较好的大模型,咱们开始规划轻量化的大模型,这个模型选用轻量化的vit结构作为backbone,运用前面练习好的大模型对它进行蒸馏,运用剪枝等技能进行优化。

通过这些操作,轻量化模型的参数下降到根底大模型的2/3。在这个进程中,咱们也沉淀了多个不同复杂度、不同抠图才能的模型,把它们的才能送到知识库中。实践事务运用时,决议计划中心会依据要求调用适宜的模型。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

除了算法层面的优化,咱们还进行了一些工程侧的优化,首要包含三方面:

1、工程架构的优化,这儿选用了CPU、GPU异步并行;

2、网络推理方面的优化,如运用推理结构HRT,选用fp16、int8推理;

3、传统算法模块的优化,如控制优化、循环优化、访存优化、线程优化等。

通过算法、工程两方面的优化,关于输入的1080p视频,咱们在A10上完成了33fps的高质量抠图。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们看下抠图的作用。关于输入图画,咱们完成了抠人像、以及抠人像加桌子/化妆品/手机等附属物的作用。这个抠图质量还是比较高的,特别是发丝抠图作用十分细腻,人物、物体的抠图边际都很精细。

别的,咱们也开发了前布景和谐化的技能,处理了抠出的远景与被贴入布景在光照、对比度、色彩等方面不协调的问题。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

在刚刚曩昔的云栖大会,咱们也展现了一个抠图的运用,在敞开环境中,完成异地多人实时连麦 虚拟布景的功用。右图是现场演示的图画。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们再看下媒资办理中的视频查找。它的运用也十分广,包含广电传媒、云导播、云盘办理、短视频内容引荐、视频监控等。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

这儿先介绍下传统的视频检索办法。

它通常选用小模型办法对视频内容进行辨认,包含人脸辨认、物体辨认、Log辨认、OCR、ASR等等,然后生成标签,这些标签是文本关键词办法的,且大部分是实体标签。这些标签都会送到数据库中。关于用户输入的查询语句,进行标签的查询,并返回对应视频的片段。

这儿存在一个比较大的问题,即查找往往是实体的查找,而关于实体的动作、相互之间联系等很难检索到正确的视频,别的,查找往往对查询词很敏感。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们看到多模态表征技能将图画和文本映射到一致的高维空间中,完成了实体、实体联系等的高质量检索,并对文本中的同义词、近义词不敏感。这些典型的表征技能包含CLIP、BLIP技能等,还有针对中文的ChineseCLIP、TEAM等。但这些技能是针对单帧图画的,而咱们的场景都是视频。那怎么完成视频的检索?怎么进步高维向量检索的时效性呢?

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们提出了一种根据嵌入模型的视频检索算法

关于视频而言,同一个镜头,最好用同一个或少量几个embedding vector表示。这样做的好处是减少了embedding向量的数量,也就减少了存储的空间和检索的核算量,一起,由于是对镜头进行处理,表征的质量更高,检索的质量也就更高。咱们通过三步达到这个方针:

1、首要,对视频内容剖析,结合固定步长抽帧和自适应抽帧,初步过滤掉一些信息冗余的帧;

2、其次,选用相邻采样帧,进行时空维度的特征编码;

3、终究,对嵌入向量,从检索视点,进行多级聚类和量化。

通过这三个进程,在同一镜头内,得到的终究向量只有十分少量,大大下降了向量的存储空间,进步了检索的功率,并且也进步了检索质量。

这儿咱们规划了多帧的视觉编码器,选用微调、蒸馏等办法确保了它的作用,并完成了它与文本的对齐。

在前面办法的根底上,咱们又提出了一种信息交融的视频检索算法。这儿处理的问题是:

一是完成视觉 声响与文本间的检索,比方检索出小鸟在树上叫的视频片段,二是完成更细粒度的检索,比方某位名人在某个著名景点的活动。

针对这两个问题,咱们别离规划了时空视听嵌入模块和关键实体辨认模块,别离提取不同粒度的表征信息。在检索阶段,咱们会别离对两种粒度的嵌入向量进行检索,再对二者的信息进行交融,终究完成更好的检索作用。

此算法发挥了不同模型优势,交融了多模态的信息,并进步了检索的适用范围。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

咱们再看下多模态交融是怎么完成的。整个进程如上图所示。

它完成了同一场景视觉与听觉的特征交融,也完成了视听特征与文本的模态对齐。咱们借鉴了ImageBind的办法,把音频、文本都对齐到了视觉空间。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

现在,该功用现已集成进媒体服务产品中。这儿展现了一些视频查找的作用,咱们能够看到新办法的一些作用,它对动作、时刻、数量等都有比较好的检索才能。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

终究看下处理方面的视频修正算法。视频修正的运用场景十分广泛,比方体育赛事、综艺节目、影视剧、纪录片、动漫、老歌MV等场景。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

视频修正的维度十分多样,比方针对瑕疵、拍照或制造中的噪声、细节、色彩等,都能够进行修正。这儿讲的视频修正针对的是直播、点播等场景中,在制造、编辑、转码中引进的细节退化问题。如左图所示,咱们能看到明显的细节退化,比方含糊、块效应、边际锯齿等。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

那用什么办法来处理细节退化呢?这儿牵扯到算法选型的问题。

从咱们之前堆集的经验看,GAN办法对一些笔直范畴的、退化不是十分严重的场景,能够有比较好的作用。但当片源或流的质量比较差时,GAN办法的细节康复就显得不够了,并且此刻生成的作用也不太天然。此外RealESRGAN的作用,必定程度上也印证了咱们的结论。

咱们发现,根据SD预练习模型的StableSR能够取得更好的细节生成作用,具体体现为:它对源质量适应性强,作用天然、稳定,细节康复质量高。因而咱们选择SD来应对这样的修正场景。

下面介绍咱们的计划。该算法借鉴了StableSR的一些主意,网络层面也是由UNet和VAEFGAN组成的。咱们结合事务场景进行深化的规划和调整,特别是针对badcase的处理做了许多作业。这儿简单介绍几方面:

1、在练习数据方面,选用了离线和在线结合的数据降质模仿战略;

2、针对VAEGAN中编码器处理后有信息丢失的问题,咱们选用了编码器特征导引解码器的网络办法,并对他们进行联合微调;

3、在练习战略上,通过引进HR编码器特征,把分散模型与VAEGAN解耦;

4、此外咱们也选用了多阶段练习战略。

AI浪潮下,大模型怎么在音视频范畴运用与实践?

这儿展现了SD修正的作用。从图中不难看出,新办法对人像和天然物都有很好的修正,比方,头发上的许多细节都康复出来了,人的五官变得更明晰了,远处船上及绳索上的细节、建筑物的细节也康复出来了。

04 音视频大模型的考虑

AI浪潮下,大模型怎么在音视频范畴运用与实践?

关于音视频大模型的考虑,这儿介绍四个方面:

第一是端侧智能。跟着终端芯片对大模型支撑的力度越来越大,比方apple、高通等公司都发布了大模型终端芯片,大模型在端侧落地已是必然趋势。现在咱们从端侧大模型规划、推理优化两方面下手,针对高端机型,进行了端侧大模型落地的探索。

第二是云端一体。从技能层面讲,需求处理两方面的问题,第一个是怎么划分大模型云、端的核算负载,第二个是大模型的特征编码。

第三是模型的一致。这儿重点着重两个一致,视觉模型backbone的一致、以及多模态encoder的一致。在有了一致的基座模型之后,能够针对事务场景对下流任务进行finetune。

第四是大模型的决议计划才能。咱们期望大模型不只能处理单点问题,还期望它有规划、举动的才能,也就是Agent的概念。现在在算法层面,咱们现已做了一些作业,接下来咱们期望用大模型来进步引擎、调度、事务层的智能化水平。

我的共享就到这儿,谢谢!