本文介绍了美团到家/站外投进团队在多场景建模技能方向上的探究与实践。根据外部投进的事务布景,本文提出了一种自习惯的场景常识搬迁和场景聚合技能,处理了在投进中面临外部海量流量带来的场景数量丰厚、场景间差异大的问题,取得了显着的作用进步。希望能给咱们带来一些启示或帮助。
1 导言
美团到家Demand-Side Platform(下文简称DSP)平台,首要担任在美团外部媒体上进行产品或者物料的引荐和投进,并不断优化转化作用。跟着事务的不断开展与扩大,DSP对接的外部途径越来越丰厚、展现办法越来越多样,物料展现场景的差异性益发显着(如开屏、插屏、信息流、弹窗等)。
例如,用户在午餐时刻更容易点击【某引荐途径下】【某App】【开屏展现位】的快餐类商家的物料而不是【信息流展现位】的啤酒烧烤类商家物料。场景间差异的背面本质上是用户目的和需求的差异,因而模型需求对越来越多的场景进行定制化建设,以适配不同场景下用户的个性化需求。
业界经典的Mixture-of-Experts架构(MoE,如MMoE、PLE、STAR[1]等)能必定程度上适配不同场景下用户的个性化需求。这种架构将多个Experts的输出成果经过一个门控网络进行权重分配和组合,以得到终究的预测成果。早期,咱们根据MoE架构提出了运用物料引荐途径进行场景区别的多场景建模计划。可是,跟着事务的不断壮大,场景间的差异越来越大、场景数量也越来越丰厚,这版模型难以习惯事务开展,不能很好地处理DSP布景下存在的以下两个问题:
- 负搬迁现象:以引荐途径为例,因为不同引荐途径的流量在用户散布、行为习惯、物料展现办法等方面存在差异,其曝光数、点击率也不在同一个数量级(如下图1所示,不同途径间点击率相差十分显著),数据呈现典型的“长尾”现象。假如运用引荐途径进行多场景建模的根据,一方面模型会更倾向于学习到头部途径的信息,关于尾部途径会存在学习不充分的问题,另一方面尾部途径的数据也会给头部途径的学习带来“噪声”,导致呈现负搬迁。
- 数据稀少难以收敛:DSP会在外部不同媒体上进行物料展现,而用户在拜访外部媒体时,其所处的时空布景、上下文信息、不同App以及物料展现位等信息一起构成了当时的场景,这样的场景在十万的量级,每个场景的数据又十分稀少,导致模型难以在每个场景上得到充分的练习。
在面临此类建模使命时,业界现有的办法是在不同场景间进行常识搬迁。例如,SAML[2]模型选用辅助网络来学习场景的同享常识并搬迁至各场景的独有网络;ADIN[3]和SASS[4]模型运用门控单元以一种细粒度的办法来挑选和融合大局信息到单场景信息中。可是,在DSP布景中复杂多变的流量布景下,场景差异性导致了场景数量的急剧添加,现有办法无法在巨量稀少场景下有用。
因而,在本文中咱们提出了DSP布景下的自习惯场景建模计划(AdaScene, Adaptive Scenario Model),一起从常识搬迁和场景聚合两个视点进行建模。AdaScene经过操控常识搬迁的程度来最大化不同场景共性信息的利用,并运用稀少专家聚合的办法利用门控网络主动挑选专家组成场景表征,缓解了负搬迁现象;一起,咱们利用丢失函数梯度辅导场景聚合,将巨大的引荐场景空间束缚到有限范围内,缓解了数据稀少问题,并完成了自习惯场景建模计划。
2 自习惯场景建模
在本节开端前,咱们先介绍多场景模型的建模办法。多场景模型选用输入层 Embedding + 混合专家(Mixture-of-Experts, MoE)的建模范式,其间输入信息包括了用户侧、商家侧以及场景上下文特征。多场景模型的丢失由各场景的丢失聚合而成,其丢失函数办法如下:
其间,KK为场景数量,i_i为各场景的丢失权重值。
咱们提出的AdaScene自习惯场景模型首要包括以下2个部分:场景常识搬迁(Knowledge Transfer)模块以及场景聚合(Scene Aggregation)模块,其模型结构如下图2所示。场景常识搬迁模块自习惯地操控不同场景间的常识同享程度,并经过稀少专家网络主动挑选 K 个专家构成自习惯场景表征。场景聚合模块经过离线预先主动化衡量一切场景间丢失函数梯度的类似度,继而经过最大化场景类似度来辅导场景的聚合。
该模型结构的全体丢失函数如以下公式所示:
其间,k\alpha_{k}为每个场景组的丢失函数所对应的系数,GkG_k为第kk个场景组下的的场景数量,GG为某种场景组的区别办法。
下面,咱们分别介绍自习惯场景常识搬迁和场景聚合的建模计划。
2.1 自习惯场景常识搬迁
在多场景建模中,场景界说办法决定了场景专家的学习样本,很大程度上影响着模型对场景的拟合才能,但不管选用哪种场景界说办法,不同场景间用户散布都存在重叠,用户行为形式也会有类似性。
为进步不同场景间共性的捕捉才能,咱们从场景特征和场景专家两个维度探究场景常识搬迁的办法,在以物料引荐途径App展现形态作为多场景建模Base模型的基础上,构建了如下图3所示的自习惯场景常识搬迁模型(Adaptive Knowledge Transfer Network, AKTN)。该模型建立了场景同享参数与私有参数的常识搬迁桥梁,能够自习惯地操控常识搬迁的程度、缓解负搬迁现象。
- 场景特征适配:经过Squeeze-and-Excitation Network[5]构建场景习惯层(Scene Adaption Layer),其结构可表明为FSE=FC(ReLU(FC(x)))F_{SE}= FC( ReLU( FC(x))),其间FCFC表明全连接层,ReLUReLU为激活函数。因为不同场景对原始特征的重视程度存在较大差异,该层能够根据不同场景的信息生成原始特征的权重,并利用这些权重对输入特征进行相应的变换,完成场景特定的个性化输入表征,进步模型的场景信息捕捉才能。
- 场景常识搬迁:运用GRU门控单元构建场景常识搬迁层(Scene Transfer Layer)。GRU门控单元经过场景上下文信息对来自大局场景专家和当时场景专家的信息流动进行操控,筛选出契合当时场景的有用信息;而且,该结构能以层级办法进行堆叠,不断对场景输出进行修正。
场景特征适配在输入层根据场景信息对不同特征进行权重适配,筛选出当时场景下模型最重视的特征;场景常识搬迁在隐层专家网络中进行常识搬迁,操控同享专家中共性信息向场景独有信息的流动,使得场景共性信息得以传递。
这两种常识搬迁办法互为补充、相得益彰,一起进步多场景模型的预估才能。咱们对比了不同模块的试验作用,详细成果如下表1所示。能够看出,引入场景常识搬迁和特征权重优化在头部、尾部途径都能带来必定进步,其间尾部小流量场景上(见下表1子场景2、3)有更为显着的进步,可见场景常识搬迁缓解了场景之间的负搬迁现象。
相关研讨和实践表明[6][7][8],稀少专家网络关于进步核算效率和增强模型作用非常有用。因而,咱们在AKTN模型的基础上,在专家层进一步优化多场景模型。详细的,咱们将场景常识搬迁层替换为主动化稀少专家挑选办法,经过门控网络从大规模专家中选取与当时场景最相关的KK个构成自习惯场景表征,其挑选进程如下图4所示:
在实践中,咱们经过运用可微门控网络对专家进行有用组合,以避免不相关使命之间的负搬迁现象。一起大规模专家网络的引入扩大了多场景模型的挑选空间,更好地支撑了门控网络的挑选。考虑到多场景下的海量流量和复杂场景特征,在业界调研的基础上对稀少专家门控网络进行了探究。
详细而言,咱们对以下稀少门控办法进行了实践:
- 办法一:经过KLKL散度衡量子场景与各专家之间的类似度,以此挑选与当时场景最匹配的kk个专家。在完成办法上,运用场景*专家的二维矩阵核算类似性,并经过KLKL散度挑选出最适合的kk个专家。
- 办法二:每个子场景装备一个专家挑选门控网络,mm个场景则有mm个门控网络。关于每个场景的门控网络,装备kk个单专家挑选器[9],每个单专家挑选器担任从nn个专家中挑选一个作为当时场景的专家(nn为Experts个数)。在实践中,为进步练习效率,咱们对单专家挑选器中权重较小的值进行切断,确保每个单专家挑选器仅挑选一个专家。
在离线试验中,咱们以物料引荐途径 * 展现形态作为场景界说,对上述稀少门控办法进行了测验,离线作用如下表2所示:
能够看出,根据软同享机制的专家聚合办法能够更好地经过所激活的相同专家网络对各场景之间的常识进行同享。相较于常见的以切断办法为主的门控网络,运用二进制编码的办法使得其在不丢失其他专家网络信息的一起,能够更好地收敛到方针专家数量,一起其可微性使得其在以梯度为基础的优化算法中练习愈加安稳。
一起,为了验证稀少门控网络能否有用区别不同场景并捕捉到场景间差异性,咱们运用nn=16个专家中挑选KK=7个的例子,对验证会集不同场景下各专家的利用率、挑选专家的均匀权重进行了可视化剖析(如图5-图7所示),试验成果表明该办法能够有用地挑选出不同的专家对场景进行表达。
例如,图6中KP_1更多地挑选第5个专家,而KP_2更倾向于挑选第15个专家。而且,不同场景对各专家的运用率以及挑选专家的均匀权重也有着显着的差异性,表明该办法能够捕捉到细分场景下流量的差异性并进行差异化的表达。
试验证明,在经过大规模专家网络对每个场景进行建模的一起,根据软同享机制的专家聚合办法能够更好地经过所激活的相同专家网络对各场景之间的常识进行同享。 一起,为了进一步探究Experts个数对模型功能的影响,咱们在办法二的基础上经过调整专家个数和topK份额设计了多组对比试验,试验成果如下表3所示:
从试验数据能够看出,大规模的Experts结构会带来正向的离线收益;而且跟着选取专家个数份额的添加(表3横轴),模型全体的体现作用也有上升的趋势。
2.2 自习惯场景聚合
抱负情况下,一条恳求(流量)能够看作一个独立的场景。但如导言所述,跟着DSP事务持续开展,不同的物料展现途径、办法、位置等持续添加,每个场景的数据十分稀少,咱们无法对每个细分场景进行有用练习。因而,咱们需求对各个引荐场景进行聚类、兼并。咱们运用场景聚合的办法对此问题进行求解,经过衡量一切场景间的类似度,并最大化该类似度来辅导场景的聚合,处理了数据稀少导致难以收敛的问题。详细的,咱们将该问题表明为:
其间GG表明某种分组办法,fsif_{s_i}为场景sis_i在分组GkG_k内与其他场景的整体类似度。在将NN个场景聚组成KK个场景组的进程中,咱们需求找到使得场景间全体类似度最大的分组办法G∗G^{\ast}。
因而,咱们在2.1节场景常识搬迁模型的基础上,添加了场景聚合部分,提出了根据Two-Stage战略进行练习的场景聚合模型:
- Stage 1:根据类似度衡量办法对各场景的类似度进行归纳,并以最大化分组场景的类似度为方针找到各场景的最优聚合办法(如Scene1与Scene 4可聚合为场景组合Scene Group SGA);
- Stage 2:根据Stage 1得到的场景聚合办法,以穿插熵丢失为方针函数最小化各场景下的穿插熵丢失。
其间,Stage 2与2.1节中所述一致,本节首要针对Stage 1进行阐述。咱们以为,一个有用的场景聚合办法应该能自习惯地应对流量改变的趋势,能够发现场景之间的内在联系并根据当时流量特点主动适配聚合办法。咱们首要想到的是从规矩动身,将人工先验常识作为场景聚合的根据,依照引荐途径、展现办法以及两者叉乘的办法进行了相应迭代。可是这类场景聚合办法需求牢靠的人工经验来支撑,且在应对海量流量时不能敏捷捕捉到其间的改变。
因而,咱们对场景之间联系的建模办法进行了相关的探究。首要,咱们经过离线练习时场景之间的表征搬迁和组合练习来评价场景之间的影响,但这种办法存在组合空间巨大、练习耗时较长的问题,效率较低。
在多使命的相关研讨中[10][11][12][13],运用梯度信息对使命之间的联系进行建模是一种有用的办法。类似的在多场景模型中,能够根据各场景丢失函数的梯度信息对场景间的类似度进行建模,因而咱们选用多专家网络并根据梯度信息主动化地对场景之间的类似度进行求解,模型示意如下图8所示:
根据上述思路,咱们对场景之间的联系建模办法进行了以下测验:
1. Gradient Regulation
根据梯度信息能够对场景信息进行潜在表明这一认知,咱们在丢失函数中参加各场景丢失函数关于专家层梯度间隔的正则项,全体的丢失函数如下所示,该正则项的系数si,sj\lambda_{s_i,s_j}表明场景之间的类似度,distdist为常见的评价梯度之间间隔的办法,比方l1l_1,l2l_2间隔。
2. Lookahead Strategy
3. Meta Weights
Lookahead Strategy该办法对场景间的联系进行了显式建模,可是这种根据丢失函数的改变核算场景相联系数的战略存在着练习不安稳、动摇较大的现象,无法像Gradient Regulation这一办法对场景类似度进行求解。
因而,咱们引入了场景间的相关性系数矩阵(meta weights),结合前两种办法对该问题进行如下建模,经过场景sis_i的数据对其与其他场景的相关性系数si→sj\lambda_{s_i \to s_j}进行更新,一起根据该参数对大局的参数模型WW进行优化。针对这种典型的两层优化问题,咱们根据MAML[14]办法进行求解,并将meta weights作为场景间的类似度。
咱们以引荐途径和展现办法(是否开屏)的多场景模型作为Base,对上述3种办法做了探究。为了进步练习效率,咱们在设计 Stage 1 模型时做了以下优化:
咱们对每个办法的GAUC进行了比较,试验作用如下表4所示。相较于人工规矩,根据梯度的场景聚合办法都能带来作用的显着进步,表明丢失函数梯度能在必定程度上表明场景之间的类似性,并辅导多场景进行聚合。
为了更全面的展现场景聚合关于模型预估作用的影响,咱们选取Meta Weights进行分组数量的调优试验,详细的试验成果如下表5所示。能够发现:跟着分组数的增大,GAUC进步也越大,此刻各场景间的负搬迁效应减弱;但分组超越必定数量时,场景间整体的类似度减小,GAUC呈下降趋势。
此外,咱们对Meta Weigts办法中部分场景间的联系进行了可视化剖析,剖析成果如下图9所示。以场景作为坐标轴,图中的每个方格表明各场景间的类似度,色彩的深浅表明途径间的类似程度巨细。
从图中能够发现,以途径和展现办法为粒度的细分场景下,该办法能够学习到不同场景间的相关性,例如A途径下的信息流(s16)与其他场景的相关性较低,会将其作为独立的场景进行预估,而B途径下的开屏展现(s9)与C途径开屏展现(s8)相关性较高,会将其聚合为一个场景进行预估,一起该类似度矩阵不是对称的,这也阐明各场景间相互的影响存在着差异。
3 总结与展望
经过多场景学习的探究和实践,咱们深化发掘了引荐模型在不同场景下的建模才能,并分别从场景常识搬迁、场景聚合方向进行了测验和优化,这些测验提供了更好的了解和解释引荐模型对不同类型流量和场景的应对才能。可是,这只是多场景学习研讨的开端,后续咱们会探究并迭代以下方向:
- 更好的场景区别办法:当时多场景的区别首要还是根据途径(途径*展现形态)作为流量的区别办法,未来会在媒体、展现位、媒体*时刻等维度上进行更详细地探究;
- 端到端的流量聚合办法:在进行流量聚合时,运用了Two-Stage的战略进行聚合。可是,这种办法不能充分地利用流量数据中相关的信息。因而,需求探究端到端的流量场景聚合计划将更直接和有用地进步引荐模型的才能。
结合多场景学习,在未来的研讨中将不断探究新的办法和技能,以进步引荐模型对不同场景和流量类型的建模才能,创造更好的用户体会以及商业价值。
4 作者简介
王驰、森杰、建立、文帅、尹华、肖雄等,均来自美团到家工作群/到家研制平台。
5 参考文献
- [1] STAR:Sheng, Xiang-Rong, et al. “One model to serve all: Star topology adaptive recommender for multi-domain ctr prediction.” Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021.
- [2] SAML:Chen, Yuting, et al. “Scenario-aware and Mutual-based approach for Multi-scenario Recommendation in E-Commerce.” 2020 International Conference on Data Mining Workshops (ICDMW). IEEE, 2020.
- [3] ADIN:Jiang, Yuchen, et al. “Adaptive Domain Interest Network for Multi-domain Recommendation.” Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2022.
- [4]SASS:Zhang, Yuanliang, et al. “Scenario-Adaptive and Self-Supervised Model for Multi-Scenario Personalized Recommendation.” Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2022.
- [5] Squeeze-and-Excitation:Hu, Jie, Li Shen, and Gang Sun. “Squeeze-and-excitation networks.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
- [6] 美团外卖引荐情境化智能流量分发的实践与探究
- [7] PaLM:ai.googleblog.com/2022/04/pat…
- [8] GLaM:proceedings.mlr.press/v162/du22c.…
- [9] 单专家挑选器:arxiv.org/abs/2106.03…
- [10] HOA:proceedings.mlr.press/v119/standl…
- [11] Gradient Affinity:proceedings.neurips.cc/paper/2021/…
- [12] SRDML:dl.acm.org/doi/abs/10.…
- [13] Auto-Lambda:arxiv.org/abs/2202.03…
- [14] MAML:arxiv.org/abs/1703.03…