提纲
过去八九年在广告、生活服务、电商等领域从事大数据及推荐系统相关工作,近来打算对过去的工作做一个系统性的梳理。一方面帮自己查缺补漏、进行更深入的学习;另一方面也希望能通过博客结交同好,增进交流。 这一博客系列以介绍推逻辑回归算法原理荐系统为主,会TensorFlow少量涉及广告tensorflow1.0和2.0区别系统。本篇文章作为该系列的第一篇,主要对推荐系统、数据框架等进行整体tensorflowgpu版本和cpu版本区别介绍,不涉及过多技术细节问题。
推荐系统简史
在互联tensorflow提供了那两种执行方式网信息爆炸的今天,推荐系统是我们身边一个无法躲避存在。在淘宝上浏览商品,在抖音上刷视频,以及无处不在的小广告……可以说,只要你开始上网冲浪,你就会被推荐系统包围。事实上,大规模推荐系统正是随着信息过载tensorflow安装教程而产生。以新闻场景为例,我们可以将早期的报纸逻辑回归用于解决什么问题或者杂志看作是一tensorflow环境搭建种简易人工推荐系统,它是由编辑来遴选最合适的内容,展现给所有读者。但随着大量用户自主创建内容的产生,依靠有限的人力来筛选推荐并不现实。同时,由tensorflow1.0和2.0区别于互联网载体的特殊性,不同的人能够看到不同的内容,因此,针对用户进行精准的个性化推荐就成了必需。根据用户以往的兴趣、爱好、行为习惯,为其推荐个性化的视频、商品、广告等,能够极大地增加用户黏性,商品销量和广告转化。
推荐系统在学术上的起源可以追溯到1992年, 美国明尼苏达大学GroupLens研究组推出的GroupLens系统,提出了协同过滤思想。1998年,当贝佐斯发现他们提供了近百万图书时,单纯依靠人力推荐已经不现实了,之后Amazon平台上线了基于物品的协同过滤算法 (ItemCF逻辑回归算法),这一技术机制的革新产生了良好的效大数据修仙果,Amazon销售额号称提高了3逻辑回归和线性回归的区别5%左右,这是推荐算法逻辑回归是线性还是非线性商业化的一次典范应用。2006年10月,在线DVD租赁公司Netflix举办了一个大奖赛,任务之一要求参赛者在大概包含1亿匿名电影评分数据集上建立一个系统,能够正确预测用户的评分。这一竞赛吸引tensorflow安装了大量的研究者加入,极大的促进了推荐系统的发展,提高了逻辑回归模型的优缺点推荐系统在学术界和商业界的受关注度。
随着推荐系统的深入发展,目前国内外一般中大型网站都已应用了推荐系统,资讯类如今日头条、小红书;电商类如淘宝、亚马逊、京东等;视频类如抖音、B站、Netflix等;生活服务类如美团、携程等;另外社交类应用也在逐步应用推荐系统进行朋友信息推荐,如微信、FacTensorFlowebook等。不同领域里逻辑回归模型的优缺点,推荐的目标并不相同。信息流领域较为关注如留存率、用户满意度、用户时长等指标;电商领域更关注订单量、订单转化率、复购率等;社交领域则比较关注用户活跃度、用户黏性、用户互动比例等;广告领域则更为复杂,在考虑广告点击转化率的同时还要考虑广告竞价策略、预算的限制等。针对不同逻辑回归模型业务场景,推荐系统的逻辑回归算法原理目标设计不尽相同,但有许多通用思路和技术架构可以互相借鉴。
推荐系统本质上是一个过滤系统,是将海量的信息进行逐步过滤,最终为用户(user)在特定场景(contextredis面试题,比如内容上下文是金融财经类,周边环境是夜晚、地铁站附近架构是什么意思等)呈现他最可能喜欢的东西(item,比如休闲游戏)。事实上所有的推荐系统都是围绕着用户、场景及物品这三点来做文章。无论是推荐、电商抑或是广告系统,都是在充分利这三点信息的情况下,最大程度地去逼近各自的目标(留存、点击、GMV等)。
推荐系统的架构
由于推荐系统是架构于海量数据之上的,为了保证推荐的实时性和高效性,必须要有一套强有力的技术架构做支redis数据结构撑。其基本结构如下图所示:
我们分数据和redis的五种数据类型计算两部分来介绍系统架构。
数据层
离线数据
离线数据通常tensorflow提供了那两种执行方式是按tensorflow1.0和2.0区别日存储更新的海量数据,它有两个作用:1、支持模型的离线训tensorflow怎么读练;2、为线上服务提供离线数据(需导入服务友好的数据访问系统); 从用户、场景及item的角度来看,离线数据包括:1、用户相关数据,主要为用户标签数据,包逻辑回归分析结果解读含用户tensorflow提供了那两种执行方式年tensorflow是干什么的龄、性别、长短期爱好、tensorflowgpu版本和cpu版本区别常驻地理位置、消费水平等等;2、场景数据:根据不同业务,可能会包含时间、数据来源、访问页面特征、GPStensorflow提供了那两种执行方式等等,场景数据在线上预估时往往需要大数据是干什么的实时获取,因此离线场景数据通常仅用来做离线模型训练;3、物品数据,这部分数据基于不同业务有较大差异,以社区消息信息流推荐而言,通常会包括物品id、物品标签、类目属性、发布者相tensorflowgpu版本和cpu版本区别关信息,以及该物品上的用户行为统计性信息,如过去若干天被点赞收藏数量等等;4、交互行为数据,通常是为离线模型准备的样本训练数据,如tensorflow1.0和2.0区别点击率模型所需要的展现点击数据;多目标模型可能还需要逻辑回归模型的优缺点根据tensorflow提供了那两种执行方式业务定制的点赞、收藏、时长等数据。离线作业往往不是一蹴而就,有些离线任务是在为下游离线任务准备中间结果,redis集群如文章的分词结果,矩阵分解的中间向量等。它们会作为输入再次在离线任务中流转。
为了redis缓存获得结构tensorflowgpu版本和cpu版本区别化的上述数据,通常需要线下对数据进行清洗TensorFlow、过滤及存储。如下图所示。
离线处理数据主要使redistribute用Hadoop,Spark等技术,数据经过清洗处架构图怎么画理后,存逻辑回归的损失函数入以HDFS为典型代表的离线存储系统,供离线模型读取使用;同时会将其中部分数据导入到RTensorFlowedis、Tair这种线上可实时访问的系统(如用户画标签、物品特征等)用于线上进行实时计算。
离线数据由于对存储要求限制低,可以存储大量精细化特征,从而能支持复杂模型的构建。但是,由于离线的时滞性,使得数据所表达的实时性不强,比如线上用户逻辑回归的原理看了奥redis缓存运架构图模板的tensorflow和pytorch的区别新闻,接着逻辑回归和线性回归的区别搜索奥运相关信息,但由于用户的兴趣转瞬架构图即逝,使用前一天的离线tensorflow提供了那两种执行方式数据就无法捕获到当前逻辑回归的损失函数萌发的兴趣tensorflow安装点,也就大数据杀熟无法推荐出用户实时感兴趣内容。
因此,近年来随着大数据修仙实时逻辑回归模型的优缺点数据处理技术的深入,实时特征及实时模型获得迅猛发展,
近线数据
近线数据,是指时效性较高,但非完全实时化的数据。通常时间间隔在秒级到小时级,因此可以捕获用户及上下文环境近期的变化,包括实时兴趣,地理位置变化等;同时近线数据处理技术的发展也为大数据与会计模型的实时线上更新带来了可能。由于系统可以捕tensorflow和pytorch的区别获用户及物品近期特征,因此可以在离线模型基础上,对线上模型进行实时增量更新,以提升逻辑回归和线性回归的区别模型的时效性。
近线计算从消息队列里订阅数据(如Kafka,MQ,Flume等),对于数据的处理主要使用Storm、Flink、SparkStreaming等技术。其中,SparkStre架构图怎么画amtensorflow是干什么的ing本身还是批处理的方式,是将数据流按redis面试题照时间单位切分,再通过分布式数据集来进行批量处理,是一种伪实时。相较而言,Storm则是基于单条数据驱动的实时处理系统,而Flink则是基于事件驱动,是面向流的处理系统,因此这二者都是纯实时框架,可达到毫秒级响应。但是,SparkStreaming本身又具有超越其他实时处理系统的高吞吐量、高容错性的大数据是干什么的优势,因此实时流处理框架的选择要根据业务情况进行取舍,后续的大数据相关博客中我们再进一步详述。
近线数据通常也会存入服redis面试题务访问友好数据系统,供线上访问。近年来比较火的lambda架构,便是由离线数据计算与近线数据计算共同构成。由离线作业写入存储,再由近线计算增量更redis面试题新,以完成海量数据的低延迟处理。redis的五种数据类型
实时数redist据
实时数据主要是指用户在实时访问时拿到的各种数据,如广告系统中广告请求发起时的时间,数据源,页面特征,地理位置等各种因素。这部分数据通常是用于模型的实时预估。推荐模型所依赖的输入特征,不仅取决于用户的离线长架构是什么意思期兴趣,也与当前的动态环境有关,实时数据可以提供相关的实时特征。
以信息流推荐系统为例rediscover,来看一下实时数据的使用场景。一般来说,实时数据主要来自于实时请求,通过对当下数架构是什么意思据的收集及结构化处理,统一装配成业务需要大数据是干什么的的数据,传入模型,完成模型计算。
请求发起时,系统所收集到的实时数据将会用于模型预估。请求完成后,用户的交互行为会产生新的实时数据。这部分数据会存入系统,最终以近线或离线大数据修仙形式存储下来,用于后续的模型训练,或者是报表展示。
综上,推荐系统所依赖的数据是由离线、近线和实时数据三部分组成。这三部分数据又互相渗透,彼此交互,共同组成推荐系统的数据支持体系。
一个例子
我们以一个例子来看待一个具体的tensorflow安装教程用户行为数据是如何在这个数据系统中流转的。为了更好地展现数据的流转过程,此处不掺入复杂的机器学习算法,仅以用户标签系统来举例说明。假设我tensorflow环境搭建们构建的是一个信息流推荐系统,以各类生活化信息为主。今天中午来了一位男tensorflow是干什么的用户,他最近买了个大house,准备装修,所以TensorFlow来搜索装修信息。他搜索了“上海 装修”,并查看了装修相关的几篇文章。这样,用户行为记录里便有了如下几条日志:
user_idrediscover: a_123; item_id:1100; action: view; ts: 2021-11-30:11:12:30
user_id: a_123; item_id:1111tensorflow安装教程; action: view; ts: 2021-11-30:11:21:11 user_id: a_123; item_id:1111; action: click; ts: 2021-11-30:11:22:13 user_id: a_123; item_id:2221; act逻辑回归用于解决什么问题ion: view; ts: 2021-11-30:11:29:22 user_id: a_123; item_id:2221; action: click; ts: 2021-11-30:11:redistribute30:02
实际的日志存储更为复杂,通架构图怎么制作常还会包含如页面特redis面试题征、点击位大数据专业学什么置等上下文信息,另外点击日志与展现日志也是分开处理的,为了便于说明,此处进行了简化处理,以kv形式展示,同时仅保留用户id,物品id,行为类型及时间戳。 用户及其所访问的物品,会有其对应的特征数据(一般离线和在线都会存储),如下:
item_id | item_tag | item_c逻辑回归的损失函数lass |
---|---|---|
1100 | 上海,装修,欧式 | 生活/装修 |
1111 | 板材,环保 | 电商/装修/板材 |
2221 | 装修,日式,小清新 | 生活/装修 |
事实上,对于物品,redis缓存除了确逻辑回归的损失函数定其类目,通过nlp技术提取其关键词外,还可以做更多的处理,架构图提取出更多相关特征,比如:文章主题抽取,知识图谱构建,语义概率模型生成以及用户交互行为类标签,如文章热度、作者redistribute被关注度,关联文章id,同类文章等等;从中可以窥探出,数据固然重要,但只有有效地处理和表达tensorflowgpu版本和cpu版本区别数据,才能最大程度地发挥它的价值,这也正是算法的魅力所在。 用户对物品的交互行为,联合物品特征、用户画像等内容,会在离线处理过程中进行规范化继而落盘保存,如下:
user逻辑回归的损失函数_id | view_item | click | item | item_tag | item_class | use架构图模板r_profile |
---|---|---|---|---|---|---|
a_12大数据查询3 | 1100 | 0 | 1111 | 上海,装修,欧式 | 生活/装修 | {性别:男,地域:上海,爱好:电影:0.9、旅rediscover游:0.5} |
a_123 | 1111 | 1 | 1121 | 板材,环保 | 电商/装修/板材 | {性别:男,地域:上海,爱好:电影:0.9、旅游:0.5} |
a_123 | 2221 | 1 | 2221 | 装修,日式,小清新 | 生活/装修 | {性别:男,地域:上海,爱好:电影:0.9、旅游:0.5} |
注意,这里我架构们加入了该用户的画像,其中电影:0.9是权重系数,大数据是干什么的表达的是该标签在用架构师证书户身上的重要程度(一般会根据时间间隔长短和用户行为强度进行计算)。我们将表达用户兴趣的点击文章标签进行处理,将其整合进用户兴趣体系:架构师
u架构师工资ser_id架构师 | usredister_profile大数据专业学什么 |
---|---|
a_123 | {性别:男,地域:上海,爱好:电影:0.85、架构师装修/环保:0.8,日式:0.7,旅游:0.3} |
我们可tensorflow安装教程以看到,随着时间的流逝,不同的兴趣权重存在一定程度的增强或减弱。用户画像经过数据交换系统,也会流入Redis,变成实时标签。
此时,我们就对用户有了大概认知架构师和程序员的区别,第二天当这个用户再次到来时,就可以基于标签为他推荐“装修”相关的内容了。
这个例子展示了一个用户标签是如何在数据系统里流转,并参与推荐的。对于复杂的机器学习模型乃至深度学习模型来说,虽事殊术异,但其数据处理的框架与思想是完全相类的。只要把握住这个思路,就可以化用到任何推荐业务场景里的任何大数据技术数据处理模式了。
模型训练
模型训练通常也分成两部逻辑回归用于解决什么问题分:线下全量训练和线上增量更新。
线下训练
用户多日的行为数据大数据技术(一般以月为单位,一个月到半年不等)经清洗后,进入模型训练。一般机器学习模型可用spark实现(其本身有强大的机器学习包),深度tensorflow和pytorch的区别学习则使用Tensorflow或Pytorch实现架构工程师。但一般大公司会自研机器学习平台(如阿里的PAI,百度的飞桨等),一般都会提供完善的训练框架,可以支持多种模型的实现和集成,同时可以较方便地支逻辑回归模型的优缺点持线上预测部署。 对于召回、排序等不同阶tensorflow菜鸟教程段,tensorflow1.0和2.0区别需要训练不同的模型,如协同过滤、LR、树模型、深度学习模型等。这些模型可以同时在线上逻辑回归是线性还是非线性存在(多路召回,或进行AB实验)。
线上更新
离线模型保证了模型的精准性,但由于实时性不强,因此近年来推荐系统一直在往实时化方向演进。实时化包括两方面:特征的实时redis缓存更新及模型的实时更新,都是通过线上实时增量样本来完成。特征实时更架构图怎么画新解决的是如用户线上出现实时架构师工资兴趣时,为其推荐相关物品的问题,比如用户看了tensorflow安装教程一部侦探电影,tensorflow怎么读那么可以马上为其推荐相关主题(或主演)的电影;实时模型解决的是捕获用户实时行大数据为模式的问题,对于场景商品发生快速变化的情大数据与会计专业况尤其适用(如电商大促等场景,大量新商品上线的场景),比如热门商品的更新,同好人群最新感兴趣的物品等。
线上推荐tensorflow菜鸟教程
用户端发起一次请架构是什么意思求后,线上系统开始运作。海量物品经历召回、粗排序、精排序、重排序这几个环节,最终展现一条(广告)到十几条、几redis持久化十条信息给用户(信息流推荐)。
从图中可以看tensorflow是干什么的出,模型预估虽然是推荐系统rediscover中的重中之重,但是真正支撑模型运作起来,逻辑回归的损失函数需要强大的工程系统。可以说,线上系统是推荐系统中最为复杂的部分,它要承担诸多任务:接收请求,收集实时数据,进行模型预估,将请求结果返回给用户,tensorflow1.0和2.0区别对于用户反馈进行收逻辑回归用于解决什么问题集发送给后TensorFlow端,用于实时报表系统及近线数据收集等。
召回阶段架构是什么意思是面向全量信息库,检索出用户最可能感兴趣的成百上千条信息。作为线上模架构是什么意思型运作的第一步,召回的策略是多种多样的,但核心都是需要保证快速从海量数据中得到一个用户感兴趣的物品集合。想象一下搜索引擎是如何运作“召回”这一步的?用户输入查询词(query),然后搜索引擎去数据库中检索出标题或者内容中带有query的全部记录。推荐场景下没有意向query,推荐引擎该如何做呢?从某种角度讲,没有用户的明确输入,既是好事,也是坏事。好在用户没有限定条件,那么“法无禁止即可行tensorflow菜鸟教程”,算法可以任意发挥想象空间,从各种角度来召回(基于用户历史兴趣、基于用户当下兴趣、基于好友推荐、基于架构图怎么制作上下文、甚至是基于天气、基于地理位置等等大数据与会计都可以);坏在用户没有表达明确意向,那么召回的结果中可能含有不是redis数据结构特别相关的内容,这个就要靠大数据是干什么的后续的排序模块来进一步筛选了。
粗排序阶段是将召回的成百上千条信息按照一定指标进行排序(通常包括粗排序和精排序两个阶段),筛选出头部的几条到几十条信息,用于后续展现。粗排序模型主要通过快速排序,将几百上千条的信息进行过滤,剩下几十条给精排序模型,这一阶段的排序要求是要足够快速,精准度要求不高(也有的推荐系统会直接省略这一步)。
精排序模型就是常说的CTR模型,因为早期广告系统强依赖于CTR(点击率)指标,因此预估CTR的高低是排redis数据结构序的重要标准。现如今的无论广告还是信息流排序多考虑综合指标,如广告转化率;信息流的观看时长、点赞收藏率等,因此,多目标排序系统是推荐系tensorflow1.0和2.0区别统所关注的重要方向。此外,CTR模型从最早的LR(逻辑回归),到树模型(以GBDT为典型redis的五种数据类型代表),再到如今的深度学习模型(如阿里的DIN,MIND等),也在逐渐往精深方向演进。
重排序阶段主要根据实际业务对信息进行重新排序逻辑回归用于解决什么问题,如广告会考虑竞价因素,信息流会考虑运营、新颖度、惊喜度等因素tensorflow环境搭建,此外,还包括对新上线信息的保护机制,以及一些运营逻辑的加入等一系列业务因素,都会在重排序阶段里进行综合考虑。
AB实验
AB实验是广告推荐领域里一个老生常谈的问题。试想对于快消品大数据类,比如宝洁打算新研发一款洗发水,但是不确定柠檬味儿还是香草味儿会更受欢迎,它会怎么做?它可能让大数据修仙一小群用户去同时尝试两种气味的产品,然后告知他们更喜欢哪种;它也可以把这群用户分成两组,每组尝试大数据专业学什么一种气味的产品,然后比较两组的接受率。显然第一种方案更好,因为它基于同样的用户群,比较更为公平。 推荐系统能否在同一批用户上进行两种不同的实验呢?试想这样一个场景,一个架构图怎么制作用户近期打算旅游,并通过搜索表达了兴趣,但是当他去看信息流推荐时,一会儿看到的都是旅游相关的信息,一会儿又看到都是游戏相关的信息(可能是基于他既往兴趣);或者更有甚者,对于前端样式的实验,用户一会儿看到大数据是干什么的的redis数据结构都是图文,一会儿看到的都是视频,用户的TensorFlow感受更多的是惊喜还是惊吓?可以想见,这样的实验会极大程度地削弱用户的把控感,从而带来糟糕的体验。因此,为了保持用户体验的一致性,一般来说AB实验会在同一时段内针对不同用户群进行redis的五种数据类型。 除了上述原因外,这种设计其实架构师也体现了一种哲学思想,即大数据“人不能两次踏进同一条河流”,针对同一用户的两次不同推荐,因为时间、场景、用户心理等发生变化,其实也是不能完全公平比较的。那么对于两批不同用户,在时间等其他因素尽量控制的情况下,只要用户样本量足够,筛选足够随机,其实验效果反倒是较可信的。
AB实验框架最早来自于谷歌的研究,主要针大数据技术与应用专业对广告效果而进行的实验分流。通常情况下,一个新模型在上线之初会先选取少量的人群进行AB实验(一般5%-10%),当实验效果足够好且足够稳定,为了保证实验效果并非是由于小样本波动所带来的,之后可以将流量进行扩大观察,直至最后将其部署在全量人群上为止(通常情况下,还会保留一大数据与会计专业小部分基线实验来进行长期对比观察)。上图展示了一个召回服务层上的分流实验,可以看到,这个服务在同时进行两个实验,分别在实验一中增加了redis数据结构模型四,及实验二中增加了模型五,后续实验效果会与同样流量比例的基础实验进行指标比较。至于如何设计实验分流,以大数据专业学什么及如何能最大限度地复用现有流量,同时进行多个不同的分层实验,这个问题我们以后再展开讨逻辑回归的损失函数论。redist
推荐系统的演进
随着推荐系统所依赖的周边资源逐步发展,推荐系统近十年来也经历了不小的变化。计算架构上,从离线计算到模型和特征的实时在线更新;模型上,则从早期的逻辑回归到如今的大规模深度学习。如今,架构以图逻辑回归的原理学习和强化学习为方向的研究正引领推荐系统的潮流。技大数据术tensorflowgpu版本和cpu版本区别的价值redis持久化在于能够为业务而服务,而业务所遇到的瓶颈会反过来推动技术进一步发展,如今,在线旅游、外卖、社群redist、线下买菜等业务也在逐渐被推荐系统入侵,可以想见,未来随着业务场景的更加多样化,推荐技术也一定会出现新的改变。
参考文献: 【1】超详细:完整的推荐系统架构设计 xie.infoq.cn/article/e1d…