1. 布景
什么是资料优选?
近年来,依据 feed 流引荐的短视频事务带来了巨大的广告商业价值,例如,抖音推出的「游戏发行人计划」便是一个鼓励达人发布游戏相关短视频,然后为游戏推行带量并完成流量变现的有用东西。比较于专业的广告资料(PGC),这些由达人自主创造的原生广告资料(UGC)往往具有显着的本钱优势,并且风格多样、资料量大。可是,在发行人计划产生的许多 UGC 短视频中,有许多优质资料因为作者热度等原因无法得到足够的曝光,导致这些资料的价值无法得到充分运用。因而,咱们经过选择「游戏发行人计划」中有广告价值的资料进行资料加热(dou+投进),并借助智能投进、人群定向等其他技能,更精准有用地为游戏获量,最大限度挖掘游戏达人资料的潜在价值,更好地完成内容营销。所谓资料优选,便是从海量的短视频资料中,寻找出广告投进作用最好的资料。
为什么需求资料优选?
传统的资料选择,往往依赖于运营同学依据人工经历进行选择,一般会依据简略规则过滤(如按视频 vv 数过滤等),再人工从中选择。这种人工的办法面临着许多困难:
- 过滤规则依赖人工经历,往往比较简略作用欠好,简略导致许多优质资料的遗失;
- 选择资料的人力本钱高,往往需求人工观看许多视频才能筛出少部分优质资料;
- 缺乏客观的选择依据,简略受主观要素影响,并且无法定量评价资料或许带来的转化作用。
所以,怎么运用算法来进行自动化的资料优选,是一个非常具有运用价值的研究方向。
2. 事务场景
在正式介绍建模办法之前,有必要先对背后的事务场景进行阐明,一方面是对齐一些相关术语,另一方面也使读者对这些办法实践要解决的问题有一个更清楚的认识。在其他事务场景下,读者需求灵活结合自身事务的特色,对这些办法加以改善。
事务场景 一句话概括
咱们的事务场景:选择出抖音「游戏发行人计划」下的优质游戏资料,用于 dou+资料加热,然后更好地为游戏带量。
「游戏发行人计划」是一个连接了游戏广告主和抖音视频达人的平台,广告主会在该平台发布使命,达人接使命并投稿对应游戏相关视频资料,然后依据资料带量作用获得必定的现金收益,而广告主也完成了游戏获量的方针。这些经过发行人计划投进的资料,会被带上锚点链接(如图 1 所示),能够链接到对应的游戏推行落地页,然后为游戏带来预定、转化。因为资料在天然流量下遭到作者热度等要素影响,或许导致一些好资料难以起量,所以咱们会在发行人计划根底之上,选择具有带量潜力的原生资料进行 dou+加热,然后为游戏获量。
图 1 发行人资料及锚点链接展现示例
在这篇文章中,咱们界说的优质资料为:相同消耗规划下,为该游戏带量作用好的资料(其他方针如付费等在本文中暂不评论)。那么什么叫带量作用好呢?在咱们的事务场景中,首要考虑两个方针CTR
(点击率)和CVR
(转化率)。CTR
是指视频所带锚点展现后,用户点击该锚点进入落地页的概率,该方针能够近似衡量视频的招引程度。CVR
是指用户进入落地页后,下载安装并激活该游戏的概率,该方针能够近似衡量该视频带来的用户质量(是否对该游戏感兴趣)。咱们界说的激活作用好,便是广告投进后的CTR*CVR
要高。(在资料选择准则中,这两个方针需求一起考虑,短少其中一个都或许导致终究作用欠好。比方只考虑CTR
很或许会找到一些能够招引用户,可是跟该游戏相关性不大的资料,如一些影视剧片段等,这类资料点击率高,但往往转化作用很差。)
图 2 简化的发行人资料广告转化链路示意图 (实在场景更杂乱一些,但不影响咱们这儿的技能计划评论)
CTR、CVR 的详细核算办法如下:
其中,anchor_vv 即视频锚点 vv,anchor_click_vv 即锚点点击 vv,active_cnt 即激活数。
资料优选与常见的个性化广告事务有什么差异?
别的,虽然咱们的使命是为了建模点击率和转化率,这听起来好像与典型的个性化广告/引荐事务比较类似,但仍是有必要强调一下两者的差异。个性化广告意图是建模用户在某个时刻(上下文)下点击广告资料的概率,是一种实时的个性化建模办法,能够获取到用户信息和上下文信息,其建模方针往往是单次曝光的点击率(练习时样本标签被点击的为 1,未被点击的为 0,是二分类方针);而资料优选意图是在海量视频中挑出适合广告投进的资料,是一种前置的选择进程,无法决定某个资料在详细投进进程中会展现给哪些用户,也无法做实时的干涉,所以一般建模方针也是预估资料的全体作用,比方在某次投进进程中全体的点击率(点击次数/展现次数,是接连的数值型方针)。
3. 建模办法
3.1 全体建模计划
本文的建模计划,首要站在事务的视点,关注样本、特征及 Label 的构建,模型结构能够测验运用传统的机器学习或许深度学习进行建模,咱们在前期测验进程中首要运用 boost 系列模型进行试验,没有进行过多模型结构上的探索(当然模型结构规划也很重要,后期会测验更多结构上的改善)。
如图 3 所示,全体的建模思路是输入资料相关特征(见 3.2 末节),树立机器学习/深度学习模型回归资料投进的体现作用即 CTR 和 CVR(见 3.3 末节)。
图 3 建模架构示意图
依据猜测的 CTR、CVR 核算综合打分值 score:
终究运用打分值对资料进行排序然后得到头部的优质资料。
3.2 特征抽取
如第 2 末节所述,资料优选是一种前置的选择进程,无法决定资料会展现给哪些用户,也无法做实时干涉,所以无法运用实时的上下文特征和用户特征。因而,咱们只能尽或许挖掘出对投进作用或许有较大影响的资料相关特征。别的,比较个性化广告,资料优选的建模数据量比较少,个性化广告的数据量大约是 N_IN_U(资料数 用户数),而资料优选只能运用资料侧的聚合信息,数据量级大约为 N_I(资料数),这导致可供练习的样本量比较少,所以在进行特征构建时要考虑特征维度防止过拟合。
咱们终究抽取的特征能够划分为 4 大类:资料侧特征、作者侧特征、游戏侧特征、资料的前史体现作用。
- 资料侧特征:为了防止过拟合,咱们没有直接运用视频的画面等高维信息作为输入,而是依据内容了解辨认、预练习等办法提取到更高阶的特征。终究运用的特征包含:视频类型(类别、画风等)、视频 embedding(如引荐模型产生的 embedding 等)、视频根底信息(时长、地理信息等)。
- 作者侧特征:作者的热度和活跃度信息(投稿量、粉丝数等)、作者个人特点(地域、教育水平等)、作者风格(如万粉标签)等。
- 游戏侧特征:因为投进等方针是为游戏带量,不同游戏的用户群体不一样,导致不同游戏用户或许喜爱的资料也不一样,所以咱们引进了游戏相关特征,包含游戏的品类、体裁、玩法等。
- 资料的前史体现作用:包含抖音天然引荐流量下的体现、前史用于广告投进的体现(仅限于投进过的资料)。这类特征对模型作用协助非常大,不过在构建进程要特别当心防止出现特征穿越的问题。
3.3 样本构建
3.3.1 样本构建存在的难点
既然猜测方针是资料投进的体现,那么一种简略的思路便是建模每个资料的前史全体投进体现,即前史投进进程中的全体 CTR 和 CVR,以此作为回归模型的猜测方针构建样本。但在实践的进程中,咱们发现这种办法存在一些问题:
-
时刻要素的干扰:同一款手游在不同阶段投进作用差异巨大:比方在 OB 初期投进的资料,往往投进量大,转化作用也比较好;而在 OB 晚期因为许多用户现已转化,游戏的资料投进金额会大幅减少,并且转化作用也会大打折扣,体现为 CTR、CVR 都会下降。但这不代表 OB 晚期投进的资料就会比较差,而是遭到不同投进周期的影响。类似的时刻干扰要素还体现在节假日、活动节点等特别时刻。
-
CTR/CVR 动摇大:因为不同资料投进进程展现的用户存在随机性,比方有的资料正好展现给了对该游戏感兴趣的用户,就会导致该资料体现较好,然后导致计算的 CTR、CVR 存在动摇。举个极点的比方,某个资料只展现了 10 次,但正好有 1 个用户点击了,就会导致这个资料的点击率很高(10%),但这是随机性引起的动摇,不代表这个资料在跑量规划上去后依然能坚持这么高的点击率。这种现象在资料展现量少时尤其显着,随着展现量添加能够减少这种随机动摇,但不能彻底消除。
3.3.2 末节会介绍针对时刻干扰要素的改善建模办法,3.3.3 末节会介绍针对 CTR/CVR 动摇大大改善办法。
3.3.2 引进时刻要素进行建模
咱们一开始考虑建模资料整个投进周期下的 CTR/CVR,相当于对不同投进时刻的体现做了聚合,这种办法能够得到比较安稳的 CTR/CVR 计算,可是会抹去时刻信息。而在资料优选的事务场景下,时刻要素的影响是非常大的。为了解决这个问题,咱们引进了时刻要素进行建模,首要包含两个改善:
- 依据天级别猜测每个资料每天的投进作用,而不是整个投进周期的投进作用;
- 建模进程参加投进时刻作为特征。
详细而言,咱们以天级别抽取每天投进的资料体现作用作为练习方针,比方一个资料投进过 n 天,则在咱们的练习样本中对应 n 条样本,每一条样本的 label(即 CTR/CVR)为当天的体现,这样就能将不同日期下的体现区别开来。一起,为了让模型能够区别不同投进日期对体现的影响,咱们还需求在建模特征中引进时刻信息。考虑到时刻不是孤立的类别变量,附近的时刻往往对投进体现的影响会更挨近。所以咱们实践输入的是投进日期与某个固定时刻的差值,然后能够将时刻类别变量转化成具有接连意义的整数变量。调整后的建模架构如图 4 所示。
图 4 引进时刻要素的建模办法示意图
别的,因为资料在一天内的投进量较少,运用天级别的 CTR/CVR 计算,或许导致计算的 CTR/CVR 动摇较大,不过比较之下样本量变多了,模型抗噪声的才能也更强,从实践来看影响不大。别的,3.3.3 末节也会介绍应对 CTR/CVR 动摇大的改善计划。
3.3.3 样本丢失加权战略
咱们的建模计划是回归资料的投进体现作用比方 CTR 等,但在实践进程中咱们发现计算的CTR 之类的比率信息存在动摇,并且这种动摇在视频展现量较少时体现会更显着(因为 CTR=点击数/展现数,当展现数比较小时少数的点击数改变也能引起较大的数值动摇,CVR 同理)。
咱们一开始的解决计划是卡视频(锚点)vv 阈值,比方只运用 vv>5000 的视频做练习,这样练习样本的 CTR 值相对安稳。但这种办法并不能解决问题:
- 在 vv>5000 的视频中,虽然计算的 CTR 相对安稳,但仍然存在 vv 偏小的视频 CTR 动摇偏大的现象(体现为 CTR 头部的视频根本都是 vv 数偏小的);
- 这种办法形成练习样本有偏,因为练习样本中的视频都是 vv 数偏高的,模型在练习进程没有见过 vv 数较低的样本(这部分视频一般来说相对会比较差,与高 vv 视频存在比较大分布差异),导致模型无法很好猜测这些低 vv 视频的体现,并且这部分视频虽然投进量少但视频数量会多许多(存在长尾效应)。
咱们终究运用了一个简略但有用的解决计划:在练习时对样本丢失进行加权。关于 CTR 预估,咱们假设视频每一次曝光是否点击,都是一次独立的随机事情(暂不考虑曝光数对资料体现的影响,比方资料曝光量太多带来点击率衰减等状况),只要曝光数无限多的状况下,大数定律能够保证终究的点击率能够收敛到一个安稳值,所以视频(锚点)vv 本质上能够衡量计算得到的 CTR 的相信程度。所以,咱们在练习进程中依据 vv 数对样本的丢失进行加权:视频 vv 越大,计算的 CTR 越相信,对应的样本权重越高;视频 vv 越小,计算的 CTR 越不相信,对应的样本权重越低。 经过引进样本权重,模型能够更加关注视频 vv 数较大的样本,一起防止了结构数据集时人工卡 vv 阈值带来的样本偏差问题。
详细地,咱们对原始 RMSE 方针进行改善,添加 vv 数的加权项。针对 CTR 猜测和 CVR 猜测的丢失函数别离核算办法如下:
(1)采用加权战略的 CTR 猜测丢失函数
其中各符号的意义如下:
(2)采用加权战略的 CVR 猜测丢失函数
其中各符号的意义如下:
4. 作用评价
4.1 离线评价
一般关于回归模型,能够运用 RMSE 或许相关性度量等办法进行评价,这些评价方针的假设是,所有样本标签的相信度是共同的。可是,在咱们的运用场景中,猜测方针值(CTR)存在不同的相信度,比方视频锚点 vv 数高的视频,计算得到的 CTR 越挨近实在值;而视频锚点 vv 数低的视频,比方只展现了 1 次,那得到的 CTR 值动摇非常大,很不相信。
依据这种考虑,类似于 3.3.3 节的计划,咱们规划了加权的 RMSE 作为评价方针,这种方针相对一般的 RMSE 更契合实践事务场景,能够用来离线比照不同模型的精度。详细核算公式与 3.3.3 节的丢失函数相同,除了数据集换成测验集。
试验数据集
咱们运用「游戏发行人计划」视频在 dou+上的投进数据进行离线试验。采用 Replay 的办法进行试验,别离猜测 20220128~20220216(共 20 天)期间每天的资料投进体现,即用 20220128 之前的数据练习然后猜测 20220128 的作用,再用 20220129 之前的数据练习猜测 20220129 的投进作用,以此类推(关于 Replay 评价办法能够参阅王喆教师编著的《深度学习引荐系统》第 7 章)。咱们的建模方针别离为猜测每天的 CTR 和 CVR,现在的计划将 CTR 和 CVR 分开建模,后续会考虑引进多使命学习架构进行建模。
样本量
因为咱们运用 Replay 办法测验 20 天的体现(相关于有 20 轮练习猜测),猜测不同日期时运用的练习样本和测验样本均会发生改变(只运用猜测日期之前 90 天的数据用于练习验证)。
全体上:
CTR 猜测只采样有 dou+锚点展现数据(即 anchor vv>0)的样本进行练习(不然得不到 CTR),每轮猜测的练习样本量约为 200000 条,验证集约为 50000 条,测验集约为 2000 条。
终究总的测验样本量为 39411 条(共 20 天)。
CVR 猜测只采样有 dou+锚点点击数据(即 anchor click vv>0)的样本进行练习(不然得不到 CVR),每轮猜测的练习样本量约为 40000 条,验证集约为 10000 条,测验集约为 500 条。
终究总的测验样本量为 9882 条(共 20 天)。
试验成果
咱们在测验进程中,针对两个首要的改善 trick:时刻要素建模、样本丢失加权,别离进行了融化试验,然后验证这两个改善能够有用改善模型猜测作用。终究的 CTR 猜测和 CVR 猜测的试验成果如下:
去除时刻要素建模去除样本丢失加权 | 去除时刻要素建模运用样本丢失加权 | 运用时刻要素建模去除样本丢失加权 | 运用时刻要素建模运用样本丢失加权 | |
---|---|---|---|---|
加权RMSE(CTR猜测) | 0.00813 | 0.00865 | 0.01043 | 0.00492 |
加权RMSE(CVR猜测) | 0.02157 | 0.02350 | 0.06933 | 0.01969 |
从试验成果能够看到,在 CTR 猜测和 CVR 猜测的试验中,在一起运用两个改善 trick的状况下,加权 RMSE 有比较显着的下降。一起,也发现在独自只运用其中一个 trick 时加权 RMSE 值反而会上升,阐明两个 trick 需求一起运用。只参加时刻要素建模、不运用样本丢失加权的状况最差(加权 RMSE 最高),在这种状况下,因为模型猜测方针为天级方针,投进量较少导致样本 CTR、CVR 动摇很大,此刻假如不参加样本丢失权重的话,作用会变得非常差,作用不如去除时刻要素的办法(直接猜测全体作用,相对更安稳)。
别的,以上离线评价都是依据加权 RMSE 方针给出的成果,不代表在实在状况下咱们的加权计划必定是最优的。因为咱们的练习办法是加权的,所以在加权 RMSE 方针上的体现更好是契合预期的,这儿咱们只给出成果。关于加权 RMSE 方针是否更加 match 线上的体现,是否有其他更合理的离线评价方针,值得进一步考虑和验证。为了比较不同建模办法的作用,进行线上的试验验证才是最直接有用的办法,不过考虑到试验的时刻金钱价值,现在咱们没有进行这方面的试验,后期有机会能够做进一步验证。
4.2 线上评价
线上评价比较离线评价的优势在于:
- 能够对许多干扰要素进行操控,如投进设置、时刻等
- 能够打平不同资料的消耗,然后用统一的方针如 CPA(本钱)来评价资料的好坏
- 能得到模型打分头部资料的体现作用
- 比较于模型的全体排序作用,咱们往往更关注打分头部资料的体现(能否找到优质资料)
- 但打分头部的资料或许之前没有投进过,这时线上试验就能验证头部资料的作用
当然,线上评价也存在一些劣势:
-
消耗时刻、金钱
- 导致无法快速、频频验证模型作用
- 线上 AB 试验比较离线数据,一般测验量会比较少,导致成果或许存在较大动摇
为了验证模型比较现有运营同学的选择办法的好坏,咱们在内部一款游戏进步行了 AB 试验。咱们每期试验别离从模型打分资料与人工选择资料中选择相同数量的资料用于投进,操控预算、时刻等变量相同,比较两组资料的体现作用。因为资料优选的意图在于发现作用好的新资料,而投进过的资料作用现已得到验证了,所以咱们只运用未在 dou+投进过的资料进行试验。
咱们的建模计划在最近几次的 AB 试验中,模型打分资料在 CPA、优质资料占比等方面体现都比较好。最近一次两组资料的体现比照方下(试验组为模型选择资料,对照组为运营同学人工选择资料):
按猜测 CTR 排序下的实在 CTR 体现折线图
按猜测 CVR 排序下的实在 CVR 体现折线图
按猜测 CTCVR 排序下的实在 CTCVR 体现折线图(CTCVR=CTR*CVR)
*图中对模型资料和人工选择资料别离用不同颜色表明,并标注了重合资料(模型选择资料与人工选择资料重合的部分),以及漏召资料(人工选择资料中体现较好,但没有被模型挑出来的资料)。
从图中能够看出尽管存在动摇,但全体实在体现依然随猜测值下降呈现下降的趋势,阐明猜测值与实在体现的相关性。别的,能够看出,CTR 模型的相关性较强,而 CVR 猜测值排序下的实在体现动摇大,阐明 CTR 猜测作用较好,CVR 猜测作用或许较差。
针对 CVR 体现较差的状况,咱们查看了这些 CVR 体现差异较大的资料,发现存在一些前史天然流量 CVR 较低、但试验 CVR 较高的资料,即出现前史体现与试验体现差异较大的状况。咱们认为这与资料的激活量少有关(大部分的激活数是个位数),或许微小的改变(如多一两个激活)也会导致 CVR 发生很大的改变,即 CVR 动摇或许较大。而模型以这些动摇大的前史 CVR 作为重要特征,简略遭到不相信的前史 CVR 的影响,导致模型猜测值有偏差。后续或许需求针对这些前史 CVR 特征不相信的状况,考虑怎么提高模型的鲁棒性(比方在练习样本中对特征做随机扰动?)。
5. 总结与未来方向
本文首要介绍了咱们在资料优选方向的一些思考及实践经历,包含全体的建模计划及特征抽取、样本构建进程,一起针对样本存在的两个问题详细介绍了咱们的解决办法,并给出了模型作用评价,阐明晰现在计划的有用性。虽然咱们的计划首要适用于抖音「游戏发行人计划」下原生游戏广告资料的智能选择,但读者能够在其根底进步行改善,规划出更适合自己事务事务领域下的资料选择计划,希望本文的内容能够带给读者必定的启示。
别的,除了本文提出的技能计划外,还有一些或许的改善思路,能够在未来做进一步的探索:
1.建模方针: 咱们的计划是运用回归模型猜测单个投进方针。可是回归模型在样本量少时学习难度大,MSE 简略遭到噪声点影响,并且不利于在建模时对多个方针进行权衡。所以这儿提出别的两种结构建模方针的想法:1)树立资料分类方针,比方依据事务经历对资料划分为优质/低质资料,得到二分类方针;2)树立 pairwise 的猜测方针,即猜测两个资料中哪个资料更优。
2.模型结构: 本文更偏重事务上的特征、样本构建进程,没有对模型结构做太多评论。但在确认了特征样本之后,测验更多不同的模型结构是有必要的。比方,能够测验运用依据 FM 思想的深度引荐模型架构如 DIFM、DeepFEFM 等对特征穿插进行探索,或许在资料、作者、用户、游戏构成的异质图结构上运用GTN、LightGCN等图网络模型更好地运用高阶街坊结构抽取特征。一起,练习好的深度模型能够在 base 模型根底上针对不同游戏或许品类进行finetune,或许能够到达更好的作用。别的,咱们在实践中发现靠后端的方针如 CVR 等猜测会比较差,这或许与数据较稀少有关,能够测验引进像PLE之类的多使命学习架构进行改善。
3.特征: 咱们的计划中运用的特征比较多,而资料优选事务自身样本量相对较少,高维的特征简略导致模型的过拟合(特别是后期引进杂乱模型后),有些特征或许协助不大,能够经过模型得到的特征重要性以及融化试验确认各部分特征的重要程度,去除无效的特征。
4.事务视点: 现在的资料优选方针是找到投进作用较好的资料。但或许存在一些资料自身具有抖音天然引荐带来的流量,即便不用 dou+加热,也能产生很好的带量作用,即投进对这些资料的作用增益或许并不大,所以能够测验因果建模的办法,猜测投进对资料带量作用的 uplift 值,然后找到最能带来增益的资料。