跟着移动互联网的一路狂飙,手机现已成为人们的新器官。出门不带钥匙可以,不带手机却是万万不可以的。而手机上,小小的摄像头也越来越成为各位「vlogger」的口袋魔方。每天有超越数亿的相片和视频被上传到百度网盘中,这些相片和视频大多来自于用户自己的拍摄或保藏,覆盖的主题和内容相当广泛,包括人物、景色、动物、地标修建、资料等。他们记录着日子,也经过构思和构思展示着日子。但由数量巨大、种类繁复,这些图画资源的办理和查找成为了用户的一大应战。
“好难找啊!” 在和用户的交流中,“找相片的进程非常苦楚”引起了咱们的共鸣。即便网盘供给了云上大空间供相片贮存,根底分类查找后的相片仍是好像汪洋大海。有时分为了寻找一张在回忆中“闪现”的相片,需求长时刻在时光轴里滑动。
「假如能经过 上一年夏天我在海滨的相片 这种关键词直接得到相片就好了」。
说干就干。
网盘的技能同学开端广泛调研市面上的图片查找功用。研究发现,目前大部分都是根据标签的图片查找办法。这往往需求用户手动或者AI协助添加标签或关键词,才能进行检索和匹配。然而,因为一张图片往往有许多不同的内容和特征,标签的约束导致用户只能添加少量有限范围内的标签,诸如简单的“猫”,“日出”等,无法全面地描绘图片的内容和特征。因而,现有的图片查找无法呼应用户愈加杂乱的图片描绘。
「怎样办?」用户这样问咱们,咱们就这样问自己。
- 「精准精准再精准」
话不多说,先来看看优化后的实际作用
从「鸟」到「海滨的鸟」,从「海滨」定位到「我在海滨」,从「宝宝」精准到「抱着宝宝逛街」……
百度网盘想做的,做成的,就是从「面」精准到「线」乃至到「点」。
为了处理这个问题,百度网盘引进了根据自然语言的图片内容语义检索办法,这种办法是利用深度学习和人工智能技能,将每张图片转化为一个向量表明,然后经过核算语言向量和视觉向量之间的类似度来进行查找和匹配。因为向量表明比传统标签愈加丰富,因而,能有效完结人们用自然语言查找图片的目的。
「为什么用向量?」信赖这也是许多“行友”的疑惑。
比较传统的标签查找办法,根据向量的语义检索具有以下长处:
用户输入的灵敏度高:用户可以直接依照正常说话的方式进行检索,不需求考虑图片是什么标签;
检索精确性高:因为向量可以全面地描绘图片的内容和特征,因而查找成果愈加精确和全面;
可检索的内容广:百度网盘采用百度文心跨模态大模型ERNIE-ViL技能(不错,openai有一个类似的技能clip,这也是最近风靡全球的AI绘画的中心模型),这种技能运用了海量网络数据进行练习,然后可以了解和辨认广泛的图片内容,无论是人物、景色、动物、地标修建、资料等各种范畴的图片都不在话下。
因而,在百度网盘团队的努力下,咱们真的做到了「精准精准再精准」,图片查找也不再那么“难”了。
- 有「AI」,咱们更「爱」搜了
实际技能产品化进程并非一帆风顺,咱们遇到了许多问题,这也是业界许多相册办理工具未供给类似功用的原因。从项目立项、作用验证到产品化,咱们花了超越四个月的时刻,直到22年8月底正式上线和咱们见面。“怎样做到的?” “怎样了解自然语言” “还能更快搜到吗”……这些都是咱们和用户一起关注的问题。
- 搜得到
像“穿鞋子的猫”、“穿正装的相片”这种,传统的标签检索很难搜到。因而,咱们选择了语义向量。无论是OpenAI开源的CLIP,仍是百度自研的交融了场景图知识的多模态预练习模型ERNIE-ViL,都很拿手处理语义匹配问题。
这类办法的中心原理是将检索文本和个人印象数据映射到同一语义向量空间,文本和个人印象数据向量之间的间隔越近,类似度就越高。这样咱们经过向量检索,来完结用中文文本查找对应图片的功用了。比较传统先打标签,再关键词查找的办法,根据语义的检索计划,直接完结了端到端的语义匹配,可以避免语义的丢掉。
△图片和文本语义类似度阐明
- 搜得准
在网盘用户的实际查找中,咱们发现,用户存在着杂乱多维度组合查询的需求。比方:上一年我在三亚海滨看日出的相片。其间包含了时刻、地址、人物的信息,这就超出了语义向量的能力鸿沟了,语义向量无法精准的判断时刻、地址,也无法知道你是谁。
可是,常常摄影的用户应该会说「咱们手机拍出来的相片,就包含了拍摄时刻、经纬度等相关信息呀!」
没错,咱们正是经过提取这些元信息,把经纬度转换成实际的街道名、场所名称然后用来做时刻、地址的精确匹配。
「那怎样辨认我是谁?」
别急,尽管辨认“谁是你”相对杂乱一些,但咱们也找到了处理办法。在百度网盘备份过相片的用户,应该都知道智能分类。咱们会把相片中出现的同一个人物的相片聚合出来,你可以自己给这个人物打上标签,比方“我自己”、“宝物”等。咱们便根据这个标签来做人物的查找。有了这些信息,咱们就可以完结,时刻、地址、人物、事情组合的杂乱查找。回到上面这个比如,“上一年我在三亚海滨看日出的相片”,咱们拿到这个恳求,会首要解析出里边包含的各个元素:
时刻:上一年
地址:三亚
人物:我
事情:海滨看日出
其间,时刻、地址、人物可以用范围查询或者关键词查询来完结,事情适合用语义向量来完结,经过这样的组合查询,咱们终究就能得到用户想要的成果。
有些用户反应,图片的成果太靠后了,「在找图片的时分,总是要翻好几回才能看到,真难」
于是,咱们增加了对用户查找意图的了解,假如辨认出来你是想要找图片,咱们就会把图片的回来成果放在最上面。
- 搜得快
处理了作用方面的问题,又出现了新的应战:怎样将技能变成用户可运用的产品?因为成本太高,效率太低,许多相册APP并没有把这种功用开放给用户。
「无所谓,我会溜走」(划掉
说正经的!
影响速度的环节有许多,整个进程中,咱们首要需求提前对用户的图片进行向量核算,并树立索引,然后查询的时分,可以快速的对用户的query进行分析并完结图片向量的检索,终究把成果排序后出现给用户。这个流程中咱们遇到了许多应战: △端云一体检索架构
端+云结合:
-
咱们在云上对已备份的图片进行向量核算,避免了数据在用户设备和服务器之间公网传输的延时,也弥补了用户设备算力缺乏的问题,可以快速的完结向量核算的作业
-
在云端完结向量核算后,经过实时数据同步通道,及时下发到用户设备本地树立索引,用户在查询的时分,可以直接在本地完结向量检索
端本地索引优化:为了节约用户本地的索引存储量,一起尽可能减少核算量,咱们对索引进行了很多的紧缩,优化后,即便图片规划到达10w,向量检索速度也可以到达ms(毫秒)等级,终究回来成果的延时能控制在秒等级。
端+云向量检索流程如下图所示: 1、恳求云端核算文本“黄色的猫”的特征向量和LSH(Locality-Sensitive Hashing,局部敏感哈希)编码;
2、核算文本和图片LSH编码持平的维数,找到持平维数超越阈值的图片子集
a. 这儿运用的LSH编码具有如下特点:相同的维数越多,向量类似的概率越高
b. 这样咱们就找到了一批与查询的文本向量类似度较高的图片子集,可以节约后续向量类似度核算的次数。
3、在候选的图片子会集,核算图片向量与文本向量的类似度,依照类似度,从高究竟回来
异构算力调度:除了要每天为新增的亿等级数据核算向量特征外,咱们还需求继续的对用户存量数据进行核算。为了让有火急需求的用户,可以赶快运用到这个功用,咱们也供给了请求加快注册图片高档查找的通道,优先为请求用户核算数据。为了利用一切可以核算的资源来加快核算作用,咱们开发了一套可以统一办理CPU、GPU等异构资源的调度系统,充分利用闲置资源,来完结尽可能快的覆盖更多用户。
- 搜更多
除了图片语义检索,咱们之前也收到了用户各种各样的找图需求,比方:想查找图片里的文字、想给朋友圈案牍配一张曾经拍的图片。
「组织,通通组织!」 针对查找图片里的文字,用户可以在查找筛选里敞开,敞开后可能需求等候文字提取完结。
「我想要朋友圈案牍配图片」你无妨直接搜一下,咱们会给你推荐相册里最适合这句话的图片,就像
- 怎样用?
在百度网盘,查找“高档图片查找”,点击“敞开高档图片查找功用”,点击“当即体会”,等候图片核算并树立索引后即可体会,咱们会在核算完结后发送PUSH提醒。
- 变成「黄色的猫」今后
阅历了种种曲折,项目终究成功上线。经过检测后台算力,咱们快乐地看到请求高档图画查找的用户占比正在慢慢提升。一起,用户也提出了一些建议和定见,比方图画查找不行精细等问题。咱们了解到,有的用户用这个功用办理视觉资料,还有的办理各种报销发票。前者需求更精细的特征提取,后者则需求引进文字ocr,经过把视觉和文本进行多模态交融查找,才能满足用户需求。
别的针对有些用户提出的「用户自定义的精细化图画标签能力」,如“我和爸爸的合照”、“我的自摄影”等,这对咱们模型练习和预测框架的弹性性,提出了更高的要求。用户不断多样化、个性化的需求,成为网盘产研例行作业讨论的输入,一起也促进咱们继续在技能和产品上考虑和测验。
作为一个智能化的存储工具,网盘现已逐渐成为人们日常日子和作业中必不可少的一部分。还记得许多年前,网盘在咱们心中的形象局限于“网络硬盘”。乃至相互恶作剧说,「这几个T的空间,什么时分能填满啊!」现如今,这儿填满了咱们的日子、作业和学习的各种记录,并且也成为咱们不可或缺的一部分。变成「黄色的猫」今后,咱们感激于咱们的信赖,致力于不断的技能创新,让用户更快速、精确地找到所需的文件,带来全新的运用体会。
把「猫」变成「黄色的猫」,不是终点,而是一个更高的起点,咱们行进的动力不停,学习的步履不止。咱们致力于将这只「黄色的猫」赋予更多可能性,然后变成您交心的朋友、同事与亲人。
最终,欢迎咱们运用百度网盘的【高档图片查找】功用并积极反应,咱们的鞭策将继续激励咱们的生长❤️
——END——
推荐阅读:
视频修改场景下的文字模版技能计划
浅谈活动场景下的图算法在反作弊应用
Serverless:根据个性化服务画像的弹性弹性实践
图片动画化应用中的动作分化办法
功能渠道数据提速之路
采编式AIGC视频生产流程编排实践