本文首要集合社区及电商风控在小红书的最佳实践范畴——刷量管理。

作为一个内容社区,小红书月活用户数自2021年10月突破2亿后一直稳步增长。环绕不断累积的UGC内容资产,小红书正在成为越来越多用户的多元生活办法集合地。这些都让小红书成为了刷量黑产的方针。

从用户维度来看,安全在内容渠道上要处理两个问题:确保用户的信息在网络上是安全的,以及保障用户在 网络上 获取的信息是实在的

刷量,作为社区及买卖中常见的做弊办法,会导致用户获取的信息不实在。经过刷量这种办法所取得的无论是笔记阅览、点赞、谈论等社区流量,或是产品阅览、销量等电商数据,都会瓦解咱们的内容安全,影响用户对渠道的信任。

1. 走进黑产,了解刷量的完结

1.1 什么是刷量?

初级的了解,刷量能够了解为数据造假,例如运用做弊办法取得虚伪的点赞、保藏等数据,以此来谋得更高的商业价值。在电商场景中的刷量更多会集在商家维度,例如延聘刷单用户并运用虚伪物流构造买卖,虚构高GMV。

为了深入了解刷量的实质,咱们看望了一批专门从事刷量产业链的公司,下面是对其间三家及完结办法的介绍:

1.1.1 群控刷量公司

这家公司是做刷量服务的,首要依据机器的群控设备去刷量,包括越狱机和正常iPhone。他们运用了苹果的安全机制,比如苹果手机的镜像打包:把整个手机中包括用户登陆态的客户端进行打包后存储成一个文件,再把这些文件存储在沙箱环境里。依据此办法,运用单台手机还原出批量沙箱环境和帐号,完结不错的群控作用。

防治“虚假种草”,小红书技术团队干了这几件大事

1.1.2 养号引流公司

这是一家经过引流售卖高仿衣服的电商公司。首要的做法是经过虚拟的厅卡注册账号后养号。当运用的账号被标黑后,它需求打通邻近线下二手手机店,以较低的价格(5-10元)进行标黑手机的置换。在拿到全新的设备后,雇佣一批真人,注册账号后继续做内容的发布和运营。终究做品牌导流并获取酬劳。据了解,一个号能够引流几十万的gmv,考虑到号的数量,这家公司的收益相当可观。

防治“虚假种草”,小红书技术团队干了这几件大事

1.1.3 众包刷量公司

众包黑产通常有专业的安排,在各大渠道上寻觅使命并招揽人力做兼职,兼职人员用自己的账号完结使命即可获取酬劳。

防治“虚假种草”,小红书技术团队干了这几件大事

1.2 刷量的从头界说

刷粉刷赞便是刷量吗?是,但并不彻底,咱们要从更高的视点了解刷量。

在小红书的社区环境中,咱们把用户分为两类:内容发布者和内容消费者。内容发布者负责出产,向消费者提供优质的内容。而内容消费者,相对地,付出时刻本钱、机会本钱、信息本钱、情感本钱以及所阅览内容中包括的信息价值。换言之,发布者和消费者实践上是在做一种类买卖行为,内容渠道便是一个市场经济渠道。有了市场,就要有流转的货币。在内容社区中,货币便是阅览量、点赞、保藏、谈论数等这些能够被衡量的单位。

防治“虚假种草”,小红书技术团队干了这几件大事

在这样的类比下,刷量相当于做假币的行为,虚伪内容发布类比于假货,会导致全体市场的通货膨胀。这些代币虽然存在于二级市场(社区),但终究会和一级市场做买卖(电商,广告),完结流量变现。对小红书来说,刷量等同于假币,需求竭尽全力的管理

2. 风控面对的应战

已然现已定性为假币,为何刷量依然长期存在呢?这儿就必须要说到反做弊面对的几个应战:辨认难、管理难、稳固难

2.1 辨认难

辨认难能够总结为三个部分:终端不可控、AI对AI、真人对真人

2.1.1 终端不可控

在社区刷量的场景傍边,终端实践上是不可控的,对立人员很难去判别客户端到底是一个正常用户仍是一个黑产。理论上讲,通讯办法不可信,就没有办法做到可信。

咱们从前尝试逆向了某个接口协议进犯的东西,拆解了里边的代码,经过破解签名算法伪装成咱们的客户端向服务器发送恳求。这是现在最简单的一种,其他办法更加难以管控。

防治“虚假种草”,小红书技术团队干了这几件大事

(*协议进犯)

2.1.2 AI对AI

尽管风控在不断的进步且已大规模地运用AI 核算的办法来进行对立,但咱们的对手也在不断攻破升级。

以黑灰产的群控办法为例。运用三方授权的漏洞,在公共渠道生成批量三方帐号,运用三方账号完结小红书帐号的注册。再经过UI的自动脚本点击东西去操控点击和按键,在手机上进行操作,来批量刷赞藏粉。现在盛行的办法是用4G手机/EC20的芯片,做稠浊进犯来躲避咱们关于黑IP的辨认。

防治“虚假种草”,小红书技术团队干了这几件大事

AI智能化在风控中的推进速度是缓慢的。原因是AI算法擅长处理的是一阶问题,例如一个图片是否包括付出二维码。但是实践场景中,咱们要判别的是这个谈天内容是否带有危险。站在人的视点,常常联络的老友间发出的付出二维码没有危险,但是刚谈天不久的陌生人之间发送付出二维码便是高危险的行为。这儿的危险取决于付出二维码+陌生人谈天这两阶信息的聚合。相对人,AI很难自动的判别这两阶维度的聚合辨认,所以需求人的大量介入。

2.1.3 真人对真人

经过线上群聊、线下小使命、乃至经过正规的招聘渠道招募人员,这些人混迹在实在用户中且存在实在的正常行为。到了某个时刻会收钱做刷量的工作,这让整个辨认变得反常复杂。

防治“虚假种草”,小红书技术团队干了这几件大事

2.2 管理难

在小红书渠道上,内容社区别K(博主),B(品牌/商家),MCN安排(中介),C端(普通用户)。持久困扰咱们的问题是,到底是谁为了利益去做了刷量这个行为,是K端、B端、MCN端仍是C端?而这个人在当下的行为是好的仍是坏的?在管理的一起,又该怎么去防止误伤?

实在的状况是,每个端都有可能参加刷量。品牌发布营销的需求后,MCN接受使命并分发给各大渠道的K,让K发布相关笔记吸引用户,终究到达营销推广的意图。这个流程中,MCN为了完结品牌侧的曝光要求取得盈余,有动力刷量。相同地,K为了完结MCN发布的使命,补偿自身流量缺少的问题,也有动力刷量。品牌侧不同角色例如运营侧,为了完结公司的使命,也可能刷量。而部分竞对,为了陷害同行,也会集合C端用户到笔记下刷量,导致风控判罚博主和笔记。

更费事的是,大量的真人会稠浊在整个集体内,很难精确的区别刷量行为。即使能够区分,怎么判别这个人当下的行为是否正常?这儿边会有召回和误伤的问题,既要保障完好的召回,又不能误伤批量的用户,影响事务的顺利运行。

一起渠道的冷启动也是一个需求处理的问题。例如新的小商家为何刷量,因为初期小商家在物流,货品质量和价格的把控上本身就劣于大商家。即运用户偶然搜到新商家的产品,销量为0,买家不信任,终究依然失去成交机会。这也是小商家产生了刷量需求。

2.3 稳固难

任何安全的运营,终究都会落入到投入产出比的问题。在内容刷量的场景中,因为没有直接的收益核算,较难衡量风控投入的ROI收益。

第二个难点是防控作用的衡量。前面咱们讲到了CTR,那是否CTR的值足以判别风控的作用?答案是否定的。防控的成果会涉及多个维度。在咱们管理的刷量案例中,有很多一部分的做弊刷量来自于真人众包,是以用户的维度仍是反常行为的数量来评判防控的作用?刷量的管理,是人与人的对立,风控约束和管理一种办法之后,对手又会用新的办法和技能敞开下一轮的进犯,所以防控的作用是在不断动摇的,咱们需求继续去进行对立。

3. 小红书的管理实践

小红书是一个真诚分享、友爱互动的渠道。对咱们来说,比技能才干更为重要的是渠道的情绪。这也代表了咱们对刷量行为的情绪是严厉冲击零忍受的。

在安全技能部内部,咱们提出了三个处理方向,分别是:风控基础设施引擎化,风控对立流程化,和风控辨认智能化

3.1 风控基础设施引擎化

国内核算的黑产从业人员有150万,远远超出咱们风控技能团队,怎么以小规模对立整个产业链呢?咱们提出的计划快速迭代易试错,风控基础设施引擎化,将工程引擎与整个前后上下游链路打通,进步全体的风控对立功率。这儿的风控引擎,不单指在一个独立的节点部署战略,还包括整个链路的信息接入,并运用上下游信息辨认危险

以近线渠道为例,咱们将现有的准实时使命进行了高度的抽象化,运用户能在短时刻经过组装使命的办法快速上线规矩,然后进步功率。该渠道的引擎才干能够在后台结合多数据源和历史数据在相对准实时的状况下给出风控辨认成果,一起结合行为序列剖析、图剖析和算法模型,进步风控才干实效性。

近线渠道补足了单条规矩辨认的局限性,与原风控实时系统融合,一起又是其他防控办法的有用弥补。近线渠道支撑综合处理数据、事件的才干,也支撑多源数据接入,具备灵敏的数据处理才干,更为重要的是提供可支撑算法、战略同学自界说数据处理逻辑的功用。在流程工程化的一起,开释人力、进步精确性。

下图为近线系统的全体系统及架构

防治“虚假种草”,小红书技术团队干了这几件大事

防治“虚假种草”,小红书技术团队干了这几件大事

从设备激活->账号注册\登录-> 笔记/商城阅览 ->交互->内容发布/购买产品等,现在咱们已覆盖了用户全场景行为,在获取事务数据后,将实时恳求、准实时流式、及离线数据接入风控引擎,完结多场景层面联防联,对所取到的身份特征、网络环境、时序特征、累计因子等做加工发掘,输入至决策剖析层。除此之外,完结辨认才干的搬迁,将新辨认到的危险点沉积后复用至其他危险场景。

除了风控引擎,通用事务网关侧(edith2.0)也做了一致, 全体进步新事务的接入功率和稳定性,完结事务的分钟级接入。

防治“虚假种草”,小红书技术团队干了这几件大事

防治“虚假种草”,小红书技术团队干了这几件大事

3.2 风控对立流程化

事务风控最大的难点是对立,无论做弊变成何种形式,唯一不变且一直存在的便是对立。一个标准化的流程或许并不能保障立刻得到最优计划,但是能够帮助咱们剖析问题、暴露问题,树立起有反应的正向迭代链路,进步咱们的功率。

由情报技能所驱动的运营沉积才干在小红书风控团队中已逐步构成一个可行的流程系统在不断运作。整个流程能够分为五个步骤:危险感知、才干建造、危险辨认、危险处置、作用评价

防治“虚假种草”,小红书技术团队干了这几件大事

防治“虚假种草”,小红书技术团队干了这几件大事

危险感知: 依靠指标系统更快发现危险,变被迫救火为自动防护,驱动才干建造以及后续流程。

才干建造: 树立面向对立的快速响应才干,快速接入可灵敏装备的风控系统。

危险辨认: 进步辨认准召,树立特征系统,对做弊特征进行发掘,并能对缺失才干进行需求反应。

危险处置: 挑选更有用的办法下降对立本钱,对行为的阻拦、对笔记的限流以及用户的处置,并能对战略迭代构成有用反应。

作用评价: 相同依靠指标系统,评价危险水位的变化,如做弊漏过、黑产服务价格、账号价格等,一起能够进行误杀和漏过反应。

在发现一个新的情报或感知到一个新的做弊进犯后,依照这个流程进行运作,并从过程中剖析判别是哪里出了问题:是情报发现不够多,仍是情报转化成辨认不够快,或许是辨认处置召回缺少

以情报运营中的买量剖析为例,经过情报或许价格动摇发现黑产服务后进行采买测试,然后剖析办法并挑选适宜的战略或模型进行辨认、处置,而关于作用的评价需求经过二次采买或许对黑产价格的继续监控,当对辨认处置的反应均已执行且作用评价达标之后,当时流程才算结束。

3.3 风控辨认智能化

在对立的级别以及防控的力度上,风控智能化辨认的环节大体上能够分为三个阶段:第一个阶段,针对黑产的低本钱机器办法,依据行为主体 的特征进行剖析判别;第二个阶段,在与黑产的高频对立中,依据集体 的特征进行团伙发掘;第三个阶段,在真人刷量的辨认中,依据刷量社群的相相联系,依据图的算法来做主体联系的发现。现在这三个阶段现已在小红书落地,进行了实践。

防治“虚假种草”,小红书技术团队干了这几件大事

3.3.1 行为主体特征剖析

流量数据作为表现形式,其根本组成是用户的每一条互动行为,风控也正是依据行为的特征进行剖析辨认。在辨认的过程中,行为特征的质量直接联系着关于黑产刷量的辨认召回,因而数据特征的建造尤为重要。“磨刀不误砍柴工”,在这一阶段,咱们树立了一套依据行为主体的用户、设备等的特征系统,为风控智能化辨认奠定了柱石。

防治“虚假种草”,小红书技术团队干了这几件大事

黑产的意图是以最低的本钱完结刷量使命,在这一阶段,黑产往往运用机器办法进行自动或半自动的批量刷量,不只本钱低,而且功率高。咱们的根本假设是:在进行机器刷量时,机器账号或许设备上必然存在明确的、可解释的反常特征。因而怎么剖析辨认出反常特征是风控第一阶段需求解的出题。在辨认分工上,咱们实施端+云的防控模式,端防设计合理的设备上报、检测办法,完结对设备的初步防控,云防依据用户特征、设备特征和行为特征对行为进行反常剖析辨认。

以协议接口恳求为例,黑产经过破解渠道的签名算法直接恳求后端接口,不需求实在设备就能完结刷量,是黑产常用的本钱最低且最高效的刷量办法。没有实在设备的一起也导致了没有实在的前端打点和设备上报,即使是假造了设备信息,设备上报信息的字段和设备环境也无法有用假形成和正常设备一样。

除了经过对相关特征参数的校验,对环境反常的辨认进行辨认防控之外,咱们还依靠全面的特征系统和沉积的黑产刷量样本等树立了有监督的辨认模型。在整个模型傍边,特征工程是确保模型召回的重要环节,而模型成果的处理环节是精确率的保障

防治“虚假种草”,小红书技术团队干了这几件大事

特征工程: 在特征工程中,咱们分为两部分顺序进行。

  • 特征挑选:经过前期不断地“人工对立”,咱们积累了丰富的特征对立经验,从黑产刷量办法视点动身挑选了全面的特征、标签,如设备内核版别、农场标签,改机字段、注册时长、批量注册标签等。

  • 特征处理:在特征处理时,对离散特征和连续特征分别标准化处理之后进行LabelEncoder,并对表征成果尝试了不同的拼接办法,将散乱的特征数据转化为多维的模型输入。

成果处理: 在设计上,咱们训练了回归模型作为infer,即输入值为连续的分值,相比于分类模型在成果的处理上更加灵敏。

  • 样本散布:经过剖析实在刷量样本的模型成果散布,半自动化的核算出了“适宜”的阈值作为区别黑产和实在行为的标准。

  • 运营评价:在模型上线之前,风控运营会对端到端的成果进行精确性评价,只要评价的精确率到达标准,模型才干上线辨认。

3.3.2 集体特征发掘

正如前文说到,对立是一直存在的。当黑产发现低本钱的机器办法绕不过风控的校验时,会不断地尝试运用真机、假造设备参数、运用做弊东西等对立办法,并进行办法升级,淘汰低本钱办法。而在不断的对立中,第一阶段的主体特征剖析就显得相对被迫,无法进行自动防控。

从风控的视点动身,在这一阶段咱们的根本假设是:黑产无论怎么假造、绕过,其团伙性质依然无法改动,数据特征上一定 存在着类似和集合。因而在这个阶段,以团伙为辨认方针对集体特征进行发掘,运用结构化数据特征系统,是需求树立起的第二道防地。

以不断改换办法的机器刷量为例,黑产的办法逐步由协议接口转化为改机群控,并演化为自动化点击东西。为了自动防控,咱们经过设备聚类模型进行辨认召回,对以上机器办法均完结了有用的遏制。

设备聚类模型以设备基础信息(如设备型号、app版别、系统内核等)为特征,对同笔记或同博主下交互用户的设备基础信息进行特征工程与类似度核算,经过聚类算法圈定类似度高的设备集体。辨认后一方面记录黑设备并进行后续行为阻拦,另一方面输出黑设备集体的设备标签扩充设备黑库。该模型归于无监督模型,能够很好地适应黑产频繁改换做弊办法的特色,一起也能对线上战略作弥补并扩召回。

以下为模型流程图和聚类辨认案例:

防治“虚假种草”,小红书技术团队干了这几件大事

防治“虚假种草”,小红书技术团队干了这几件大事

在整个模型中,咱们依靠特征工程和簇挑选对黑产设备进行高召回高精确的聚类:

  • 特征工程: 在第一阶段,咱们树立了一套全面、高复用的特征系统,在这个阶段咱们经过剖析团伙设备的特征,挑选了适宜的20~30维的设备特征作为输入,从数据源上确保了模型的召回。

  • 簇挑选: 在不断的风控对立中,咱们沉积了满足的设备标签和设备黑库,在聚类模型的输出成果挑选上,这部分黑设备作为种子用于核算聚类簇中黑产浓度,然后挑选出精确且高召回的设备簇。

3.3.3 依据图的主体发现

如前文所说到的应战,刷量的办法会逐步演变为真人对真人,当黑产发现机器办法绕不过风控时,会挑选招聘众包或许安排互刷的办法,尝试以真人行为进行刷量。虽然都是真人行为,但实质都是缺少实在意愿,归于“假币”。真人行为不只主体特征剖析无法发现反常,在设备上也无法发现集体性。

因为刷量行为的特殊性,咱们的合理假设是:无论怎么改动办法,刷量行为的终究指向都是买量的主体,只要存在主体相关性,就能经过数据特征对行为进行辨认召回。在这一阶段,小红书依靠特有的社区、电商行为图以及刷量、刷单图对一组行为主体进行自动发现发掘,经过实体相关并运用图算法对真人做弊用户或许正在养号的用户进行召回,能够有用的发现“漏网之鱼”。

防治“虚假种草”,小红书技术团队干了这几件大事

图1:正常用户点赞笔记的相关图(红点为笔记,蓝点为用户)

防治“虚假种草”,小红书技术团队干了这几件大事

图2:做弊用户点赞笔记的相关图(红点为笔记,蓝点为用户)

图1:7位正常用户点赞的笔记中,仅有一篇笔记存在堆叠,即中心红点的笔记。

图2:9位做弊用户点赞的笔记为同一批笔记,点赞笔记高度堆叠且未点赞过非这批笔记以外的其他笔记。

上图为用户和笔记的行为相关图(红色为笔记、蓝色为用户),图1为正常用户点赞正常笔记的行为相相联系,能够发现行为用户的集体相关性低,不会大量点附和一群笔记,但存在因为“爱好”被系统引荐同类型的笔记形成偶尔的堆叠。而图2中的行为用户点附和一批做弊笔记,具有较强的社区相关性,是典型的做弊用户点赞做弊笔记的行为相关图。

以“开车”互刷为例,即黑产接到刷量使命之后充当安排者、中心商的身份,对常常参加互刷(例如互赞)的人群发布使命,对指定方针进行刷量。黑产不会只发布一条使命,行为用户也不会只做一条使命,这二者之间存在相对固定的“圈子”。关于这类做弊办法,咱们经过标签传播模型对社群用户进行了批量召回。

标签传播模型是依据风控图对种子用户进行扩散传播,种子用户来源于风控辨认沉积的刷量用户,相关主体为买量笔记、买量博主等,以风控图中的点边相相联系进行传播。用真人来进行刷量,设备、账号是有限的,为了能够到达刷量的意图,行为用户会启用小号重复接多个使命。标签传播的意图便是经过正确的途径将刷量标签传播给社群中的其他刷量用户,完结对刷量的辨认召回。

  • 传播途径: 用户标签会经过设备、三方账号等强途径进行传播,也会经过以买量主体如笔记、作者等的相关途径进行传播。

  • 用户标签: 因为是刷量用户是真人,经过标签传播给用户赋予的标签往往无法直接进行行为阻拦,因而依据对真人刷量的根本假设,咱们对买量主体下的标签进行了集合性剖析,然后辨认出买量主体和刷量用户。

4. 跳出技能思想处理问题

以上首要是依据技能来处理问题,但在实践的工作中,咱们还需求跳出技能视角,从一个更为微观的视点来助力事务,完善安全。依据这个意图,在深挖钻研技能的一起,咱们沉积出了一套可落地且有用的办法论:从消除费事的影响入手,到处理掉制造费事的人,终究消除引起费事的动机

防治“虚假种草”,小红书技术团队干了这几件大事

处理费事的三点论

消除费事影响

在经过技能办法辨认出刷量的做弊对象和数据后,进行实践的管理、处置动作,把虚伪流量从渠道中屏蔽掉。

处理制造费事的人

冲击处于这个产业链中的人以及每一个环节,包括帐号的买卖、渠道数据的买卖、买卖的人等。这儿咱们采用了风控与法务等部分联合作战的办法,处理费事的制造者。今年6-8月,对6家存在刷量行为的MCN和部分作者进行了严厉的处分,并对其发起了诉讼。

电商场景中,刷单的商家首要是为了引流并完结更高的GMV。被辨认出的商家账号会交由运营同学进行专业的判别,并依据恶劣程度交由规矩侧进行处分;而行为恶劣的用户则会被放入黑名单,由风控对其下单行为进行约束。

处理制造费事的动机

社区场景中买量者的意图是期望经过做弊办法完结他的商业价值,而咱们要做的便是下降这部分用户或许安排的商业价值。风控联合生态及运营部分依据渠道规矩、法律法规等对做弊流量进行处分。 经过继续不断的冲击,黑产账号本钱变高,刷量服务价格继续上涨,点赞、保藏单价现已上涨超越300%,买量用户的做弊意愿也在逐步下降。

2022年至今,小红书累计整理做弊点赞行为31亿次,能够看到,关于刷量这件工作,渠道的情绪始终是非常坚决的。

本文作者:小红书安全技能部 陆逊时影王马叶峰 石昊 老皮)