AI引领的新一代信息技能,正驱动新一轮科技浪潮席卷而来。作为近年来国内开展最为敏捷的移动互联网渠道之一,小红书乘势而上,现在现已形成了以图文和短视频内容为主的超大型UGC社区。在这个共同而活跃的社区里,每天都会发生海量多模态数据及用户行为反应,催生出兼具价值与应战的新问题。
当时,大规模深度学习体系正发生着许多令人兴奋的开展。2022年10月15日“小红书REDtech青年技能沙龙”活动中,小红书技能副总裁凯奇进行了《大规模深度学习体系技能及其在小红书的运用》共享,为咱们揭开LarC的“奥秘面纱”。
凯奇:小红书技能副总裁,结业于上海交通大学,曾担任欢聚时代技能副总裁和百度凤巢首席架构师,担任百度查找广告CTR机器学习算法作业。曾任IBM深度问答(DeepQA)项目中国技能担任人。
以下内容依据凯奇现场陈述整理
1. 小红书事务概览
普通人的实在日子体会共享
小红书是一个蓬勃开展的内容社区,许多懂日子、爱共享的人在这里交换着互相的日子体会和日子态度,并不断吸引着越来越多的用户参加。现在,小红书现已有2亿的月度活跃用户,90后占比70%以上,50%的用户来自于一、二线城市,也有一半来自于三、四线城市,用户构成十分丰富和年轻化。
“普通人”在共享他们“实在”的“日子体会”,是小红书与其他内容渠道和社区十分大的一个不同点。首要,共享者都是“普通人”,其次,“真挚共享,友爱互动”是小红书社区公约,“真挚”是很重要的一点。这些社区中的共享和咱们的线下日子消费有着紧密的联络,比方宝藏书店、或是怎样穿衣调配、怎样装修、怎样做菜等内容,都是咱们的日常“日子体会”。
咱们用一些数字也可以去衡量小红书社区这些年的开展,咱们看到,笔记发布量从2018年到2021年是每年都以十分快的速度在增加,2020到2021年,小红书用户笔记发布量同比增加超150%。
三大主要事务:社区、商业化、电商
在这样一个高速开展的内容社区里,最主要的三大事务便是社区、商业化和电商。
首要,咱们的内容社区和内容渠道是一个覆盖全日子品类,以UGC为主的日子方法内容社区。也由于这种贴合日子和日常消费的“真挚共享”,用户对咱们的社区内容有很高的信赖度,咱们在看到好的日子方法、消费内容、服务和产品等时会被“种草”,咱们经过共同的“种草”商业模式带来品牌和作用的转化。
“种草后是不是顺便可以拔个草”,在消费内容的一起,咱们也期望可以自然、方便地买到自己心仪的物品,这是咱们高效的闭环消费场域,也便是电商这一部分。
2. 小红书技能应战
多模态技能是当时整个AI范畴广受重视、开展敏捷的技能方向之一,UGC社区和内容生态中包括许多的图文、视频、文字和用户行为信息,发生了海量高质量的多模态数据,因而成为了极佳的实践场景。用户看到好的内容点赞、做的各种查找行为、对某个视频的观看等等,构成了许多用户实践的反应。
现在每一天实践经过用户行为发生的反应样本量都有几百亿的等级。如安在海量的多模态数据中挖掘用户感兴趣的内容和好的商业内容,从这个目标动身,衍生出许多有价值一起也具有应战性的问题.
咱们是怎样去处理这些技能的:
千人千面的实时引荐体系
打开小红书,首要映入眼帘的便是列的瀑布流或许内容流,这些都是引荐体系给咱们引荐的内容。据统计,小红书每天发生的用户行为到达几百亿等级的规模。关于这些数据,小红书技能团队运用依据LarC的机器学习结构对模型进行练习,依据用户行为中的规律,找出用户感兴趣的内容并引荐给用户。
下图为小红书引荐模型的大概结构。这是一个多任务的机器学习模型,它可以预估用户的点击、停留时长、是否点赞保藏等行为。针对小红书渠道发生的海量的系数参数,小红书经过超大规模无冲突的参数服务器,对这些参数进行更新和捕捉。
引荐体系的OnlineTraining如下。当用户在浏览信息流的时分,引荐体系会实时捕捉用户的浏览、点击、点赞等行为,这些行为会依据Flink实时处理的核算引擎对这些数据进行拼接,然后发生高性能的样本,然后这些样本会被实时送到模型中去做预估。一起,这些短暂累积的样本也会用来做一次十分短暂的OnlineTraining以更新模型参数。这些更新后的模型参数会马上发布到线上,去服务下一次的恳求。整个进程是保持在分钟等级的。
业界还有一个经典问题,比方咱们浏览引荐内容时经常会发现:为什么密布地推送我以前看过的东西?我看的东西新鲜感不够了怎样办?
在引荐场景中,重视较短的时刻周期会使得追打和信息茧房问题严峻,小红书技能团队对用户的多元化长短期行为规划了不同的序列建模方法,在多个维度带来了明显提升。此外,关于内容引荐的多样性问题,小红书技能团队将传统的多样性做法从DPP改进到SSD算法,在信息流引荐的场景中高效地滑窗核算,然后将单篇模型的价值排序转化为整个浏览周期的建模。这背面依靠的是孪生神经网络学习长尾内容的类似性。
相关作业效果咱们现已发表在KDD2021会议上,它从单篇价值的预估转变成一个序列价值的预估,从单篇的多样性转变成多篇的多样性,背面也是依据SSD算法,以及依据这个孪生神经网络对内容类似性的评价。
多模态泛化的日子查找引擎
由于小红书社区包括了的许多实践日子傍边十分有用的信息,许多用户都会把小红书当作查找引擎来用。这其中包括一些应战,比方多种数据形状的查找、长尾现象严峻、目的了解问题等。
现有的图文查找引擎,经过文字可以查找图片,但做法都相对简略,通常都是给图片打上文字的标签,然后再做文字的匹配。小红书团队构建的下一代多模态泛日子查找引擎,它依据对多模态内容深化的了解,经过图文、文字真实查找视觉的内容,也可以依据用户的特点去做愈加个性化的查找。
什么叫做泛日子常识查找引擎?比方咱们在小红书上看到了一件美观的的衣服或鞋子,想搜一搜它的调配有哪些,以及在不同场合下它别离展现出怎样的感觉。这是关于日子常识的查找,一起它又是一个多模态的查找。
这其中显示的是小红书技能团队规划的多模态,特别是关于搜图片这样的技能架构,其中十分要害的一个依靠是特征多模块,需求依靠大规模的神经网络去做表征学习,对图片中包括的内容,无论是衣服、鞋或是其他产品产品,都能有一个很好的表征。很好的从许多的多模态内容傍边检索出相同的产品或许类似的产品,这是咱们在查找上对大规模神经网络的一个运用。
AI生成更原生的商业内容
与其他渠道比较,小红书的商业内容有一个很大的不同点——原生化。所谓原生化,便是从点赞、谈论等行为去看,用户对这个内容十分欣赏,或许完全感觉不到它是一个商业内容。可是关于渠道上的商家来说,制作这样的商业内容的门槛很高。如何很好地平衡商家的商业目的与出产内容的用户价值,是一个很要害的问题。
为此,小红书技能团队运用了依据大规模神经网络的生成式技能,来帮助商家依据内容去生成更好的标题和内容。比方商家可以挑选进行多个卖点表达,也可以挑选突出目标客户群体,或许是喜欢的小红书风格,机器会自动给出建议的标题,在引证机器创造的标题后,无论事务作用、点击或许是停留时长都得到了很好的提升,用户也是十分喜欢这样的内容,所以它做到商业和用户价值很好的平衡。
这背面其实是依据大规模的预练习模型,包括业界较为领先的T5、BERT、GPT等模型架构,这些模型架构都在小红书海量的多模态数据进步行了练习。一部分的预练习模型用往来不断做笔记内容了解,一部分预练习模型会被用往来不断辅导生成式模型去生成标题,这些都是相关技能在商业范畴的运用方法。
大规模机器学习渠道
上述一切的机器学习内容,其实都是依据小红书技能团队自研的LarC机器学习渠道。它发动于2019年,到了2020年和2021年,相关的机器学习结构和渠道推行到了查找、引荐、广告等一切范畴。2022年,LarC完成了渠道化。
现在,LarC机器学习渠道的才能现已相当完好,包括从底层基础设施到核算结构、资源调度、离线运用以及在线部署多个层面(其中标黄部分代表现已完成)。
凭借LarC机器学习渠道,小红书技能团队期望可以帮一切算法同学敏捷、高效地处理海量数据,练习大规模机器学习和深度学习模型。
3. Summary
小红书是高速开展的内容社区,“普通人”、“实在共享”、“日子体会”是它的要害词。
在这样一个具有海量的多模态数据及用户反应数据场景下,催生出许多前沿技能探究。以上是从许多技能作业傍边挑了一些点出来跟咱们做共享,其实还有许多内容,期望咱们可以从傍边对小红书的技能和大规模的深度学习有所了解。
4. “Q&A”环节
Q:当时diffusion模型生成才能十分强,十分受重视,小红书是否有这方面的技能运用探究呢?
凯奇: 现在咱们商业化内容的创造进程中,现已用了生成式模型来帮助商家生成愈加原生的内容,生成愈加符合小红书调性的内容,如果你真实的了解了小红书的事务,把它很好跟模型相结合,其实是十分遭到用户喜欢的,所以我觉得这类生成式模型未来在小红书一定会得到大规模运用。
Q:青年技能人工作之后如何保持技能竞争力?小红书的培育方案是怎样的呢?
凯奇: 面向优异的应届结业生,除了供给场景、数据等丰盛资源之外,小红书技能团队现已制定了从融入职场到生长为行业技能人才全周期的的具体培育方案,护航每一位高校顶尖AI技能人才的生长。
在第一年,小红书技能团队聚焦“融入”,经过薯光方案、Mentor机制等方法,帮助咱们完成从学生到职场人的转型,一起帮助咱们在实践中找到擅长的技能方向。
第二年、第三年,小红书技能团队会经过事务实践、体系化课程、前沿共享及学术交流等方法,培育青年人才们成为独立自主的技能骨干。在这个进程中,优异的同学也有机会生长为技能leader。
特别的是,面向入职之后的优异应届生,直属上级会一直重视新人的生长进程,供给辅导与帮助,也会共享来自国内外大厂的技能经历给到同学们。
今日的小红书,正处于一个高速增加期。技能团队的价值进一步凸显,对前沿技能及其落地实践的探究需求比以往愈加旺盛,也正在等待更多顶尖AI人才的参加。
一起也期望同学们可以给自己设立有应战性的目标,小红书这个渠道会持续为年轻的AI技能人才们供给实践的战场。