作者:京东零售 谷伟

1.产品查找

1.1网络购物的查找手法

跟着移动互联网开展,手机端购物已成为人们日子的常态。人们在查找产品时选用的手法也越来越丰富,当时的首要查找方法是文本查找与摄影查找。

1.2文本查找

文本查找使用比较广泛,较为常用的是关键字匹配,针对产品信息的相关描绘进行分词,并对分词树立索引库,然后到达查找的目的。跟着人工智能的开展,语义查找得到了快速的开展,它经过用户输入的查找内容来了解用户真实的目的,然后取得更有价值的内容。其本质是将一切要查找的内容转化为高维数学向量,用一致的特征向量来描绘不同内容,把检索输入的内容向量化,并与要查找的内容进行向量匹配,把类似度最高的结果展现出来。

1.3摄影查找

摄影查找也就是以图搜图,是近几年的视觉AI开展的一个产品。用户登录电商渠道,可以经过上传图片,经过图画剖析与识别来查找类似的产品主图,然后找出相关的产品。其基本原理是经图画剖析抽取图画的色彩、形状、纹路等特征,树立特征索引库,对用户上传的图画进行特征化描绘,从索引库中查找出与之近似的特征图画。

2. 现状剖析

2.1需求专业人员参加

文本查找需求文本描绘的支撑,也就是需求对短视频进行文本描绘,需求人员对短视频进行准确的文本描绘,尤其描绘中要含有代表其产品的关键词,否则可能难以被查找引擎所射中,这对视频的发布人员发生了必定的门槛,添加查找射中的难度。

摄影查找首要是对产品的主图进行特征匹配,这也就需求产品发布人员要制造尽可能与之匹配的图片,尤其需求美工设计人员的参加,然后添加了人力成本。

2.2难以支撑短视频查找

跟着近几年自媒体的开展,短视频逐步成为互联网信息传达的首要手法。而短视频可以认为是很多图片的集合,不行能对短视频的每张图片树立特征索引,由于这会浪费很多的核算机算力。

3. 技能方案

3.1 技能问题

曾经产品介绍首要以图文方法来展现产品,不只要展现产品主图还要配细节图,以及产品参数,然后到达全面包括产品信息的能力。而短视频可以全方位的展现产品,并调配语言描绘以及背景音乐,可进一步形象的给消费者介绍产品的功能,给顾客更直观的体验,有助于促进下单。一起商家制造的短视频可将其推送到自媒体渠道上,便于给产品引流,进步产品销量,然后拓宽了销售市场。

因而短视频营销相对于图文营销更有优势,如何让顾客可以更快更快捷地查找到其感兴趣的产品短视频,是本发明所要处理的首要问题。本方案首要处理的是产品短视频查找,按照类目维度对产品短视频进行挑选,并进步视频查找的射中率,为产品短视频查找树立桥梁。

3.2 技能方案

3.2.1 流程图

流程图:

一种基于图片搜索视频的方案



3.2.2 详细描绘

1.关键帧提取

卖家在制造好产品介绍的短视频后,在发布产品时对短视频进行上传,视频时长不能超过2分钟。对该视频进行关键帧提取。视频是由一组连续的图画组成,如果每张图片都存储下来,则会导致视频文件过大,因而视频都会被紧缩,在紧缩过程中,发生了I帧、P帧、B帧。I帧是画面的完好保存,它尽可能去除了图画空间的冗余信息;P帧则是记载与前一个关键帧的不同;B帧是记载本帧与上一帧和下一帧的不同。

因而只需提取出I帧即可。在MPEG-4规范中,stss部分标识了哪些sample是关键帧,如果没有stss则悉数sample是关键帧。当获取的关键帧太多时,以时间轴维度,随机选取20帧的图画供商家挑选,把商家选取的5张图片与视频文件一同保存到文件数据库中。

Mp4规范

Box类型 说明
ftyp      文件类型
moov      记载媒体信息
 mvhd     视频文件信息,如时长、创立时间等
 track     寄存视频的容器
  tkhd    媒体总体信息,如宽高级
  mdia    媒体容器
   mdhd   换算真实事情
   hdlr   媒体类型,指明是video、audio、hint
   minf   媒体信息容器
    stbl  偏移映射关系表
     stsd sample描绘
     stts 时戳-sample序号映射表
     stsc sample与chunk的映射表
     stsz sample的巨细
     stz2 另一种存储sample的巨细,更节省空间
     stss 关键帧列表(从该处取得I帧)
     stco 每个chunk的偏移
     co64 64位chunk的偏移
mdat      具体的媒体数据

2.特征向量核算

本次的特征向量核算选用的是VGG16模型。由于关键帧的图片都是彩色图片,因而选用3通道。卷积核为33,池化核为22。以224224的视频图画为例,过程如下:

  1. 输入图画巨细为2242243,经64个通道的卷积核33,步长为1,共卷积2次,输出尺度为22422464的特征向量。进行池化,选用池化核22,步长为2,输出尺度为11211264的特征向量。

  2. 经128个33的卷积核,步长为1,卷积2次,尺度变为112112128,进行池化,步长为2,输出尺度为5656128。

  3. 经256个33的卷积核,步长为1,卷积3次,尺度变为5656256,进行池化,步长为2,输出尺度为2828256。

  4. 经512个33的卷积核,步长为1,卷积3次,尺度变为2828512,进行池化,步长为2,输出尺度为1414256。

  5. 经512个33的卷积核,步长为1,卷积3次,尺度变为1414512,进行池化,步长为2,输出尺度为77256。

  6. 将数据拉平成一维数组,77256=25088。

  7. 经两层114096与一层111000的全连接层,终究输出11000的特征向量。

一种基于图片搜索视频的方案



3.向量数据库

向量在存储时要把文件数据库中的ID一起存下来,以及产品ID,然后树立向量、文件、产品的关系。向量查找都是类似性查找,经过两个向量在高位空间的间隔来做判断,其实就是在高维空间中找到与目标向量最接近的K个向量,一般选用欧式间隔核算,其公式:



一种基于图片搜索视频的方案



为了召回精度高,暴力查找的是最好的挑选。但这会发生很多的不必要的核算,浪费了核算机资源。因而本方案选用类目维度进行切割。削减查找规模。

4.视频查找

买家需求挑选要查找的类目再进行图片上传,经过VGG16模型核算出特征向量,然后根据类目维度进行暴力查找把最接近的K个向量挑选出来。最终再根据向量与文件的关系,把视频文件查找出来,回来给买家。

5.视频筛选战略

每日进行定时巡检,对于长期没有流量或者流量低于阈值的产品,需求从向量库中对其短视频进行逻辑删去,尽可能削减查找的体积,削减核算资源的浪费。

一种基于图片搜索视频的方案