近日,在全球开源渠道GitHub上的一项视频处理领域的研讨成果热度飙升,发布仅一周时刻就在GitHub盛行趋势榜单上的Python语言分类中冲到了第一。这便是由蚂蚁技能研讨院交互智能试验室打造的最新视频处理算法CoDeF,一项能够高度坚持视频时序一致性的的视频处理技能,能够轻松完结视频风格迁移、视频要害点追寻(包含流体)、用户自定义的视频内容修改等任务。
试验标明,CoDeF技能能够毫不费力地将图画风格化算法晋级为视频风格化算法,将图画要害点检测算法晋级为视频要害点盯梢算法(乃至包含水和烟雾等非刚性物体的追寻),将图画语义切割算法晋级为视频物体盯梢算法,将图画超分算法晋级为视频超分算法,一起支持用户可交互的视频内容修改。
近年来,随着以图画生成、图画修改等任务为代表的视觉内容生成领域取得突破性发展,视觉生成正向着视频方向的发展。比较于图画来说,时刻维度的引进对生成视频的流畅性、保真度等方面提出了更高要求。现在的主流算法多受限于生成视频时序一致性较差的问题,导致其生成效果无法直接在真实场景中应用 。
为处理这一问题,蚂蚁技能研讨院的研讨员们提出了一种全新的处理思路——将视频处理简化为图画处理。具体来说,他们提出将视频表示为一个2D内容标准场(canonical content field)和一个3D时刻形变场(temporal deformation field),其间内容标准场担任整合一段视频中包含的一切纹路信息,而时刻形变场则担任建模视频里的动态信息。换言之,每一帧视频都利用这个形变场对内容标准场所编码的的标准图画(canonical image)进行变形,就能够恢复出该帧图画。基于这种表征技能,视频处理任务能够简化为图画处理任务,用户只需要处理每个视频对应的静态标准图画,然后通过形变场的改换,就能够将图画处理结果自然地沿着时刻维度进行传达,达到对整个视频处理的目的,也因此确保了高度的时序一致性。
值得一提的是,研讨者们设法尽量降低标准图画和真实图画的域差(domain gap),使得现有的图画算法能够不加任何训练地应用到标准图画上,完结视频处理。
该技能在Github发布并开源后,不仅在技能圈影响广泛,在Twitter渠道也“火”出了圈。不少Twitter网友直呼“不敢相信!”、“这是一个巨大的飞跃!”,还有人说“只需给它一年时刻,就能被用在电影制作上了”。
这项技能由蚂蚁集团技能研讨院交互智能试验室历时三个月时刻完结。项目首要担任人是蚂蚁技能研讨院交互智能试验室研讨员沈宇军,其首要研讨方向为计算机视觉和深度学习。项目的别的三位首要作者分别为香港科技大学的博士生欧阳豪、蚂蚁技能研讨院的王秋雨、和浙江大学的博士生肖宇曦,其间第一名和第三名参与者当下为蚂蚁集团的研讨型实习生。
自2021年建立以来,蚂蚁技能研讨院一向努力做有用、有想象力的科研。面向数字化、智能化未来,瞄准世界科技前沿,推动要害核心技能攻关。其间,交互智能试验室首要聚焦计算机视觉和自然语言处理方向的基础模型研讨,开发通用人工智能算法架构,包含内容生成、多模态了解、数字化、人机交互等要害技能。