携手创作,一起成长!这是我参与「日新计划 8 月更文挑战」的第4天,点击查看活动详情
相关规矩,或者相关规矩学习(Association Rule Learning)是一种在很多数据点中发现隐蔽的相相关系的办法。可以利用一些风趣的测量来识别数据点会集发现的强规矩。
相关规矩最常见的使用场景便是购物,不管是线上仍是线下,上架都希望从顾客的购物记载中,寻找不同产品之间并非显而易见的联系,以此来引荐产品、优化产品陈列、推送广告等。
怎么量化相关规矩:支撑度、置信度和提高度
咱们以超市购物的订单数据为例,如下是一组示例数据
买卖 | 产品 |
---|---|
买卖1 | |
买卖2 | |
买卖3 | |
买卖4 | |
买卖5 | |
买卖6 | |
买卖7 | |
买卖8 |
支撑度
支撑度某个项集呈现的频率,也便是包括这个项集的买卖数占总买卖数的份额。在上面的比如中, 的支撑度,可以表明为:支撑度{}=4/8
。
置信度
置信度是指当 X 项呈现的时候,Y 项一起呈现的概率,用 {X->Y}
表明,也便是一起包括 X 项和 Y 项的买卖数占包括 X 项的买卖数的份额。
在上面的比如中,置信度{->}
的置信度是:置信度{->}=支撑度{,}/支撑度{}
。依据上面的买卖数据可以得出,成果为3/4
。
不过,置信度这个目标存在一个缺陷,当购买 的顾客大概率也会购买 的时候,并不一定代表两者的相关度比较高,也有或许, 和 之间其实并没有什么相相关系,只是,两者都属于十分热销的单品,因而才一起呈现在了很多顾客的订单中。
这种状况下,置信度其实给了咱们过错的判别,「提高度」这个目标可以帮咱们躲避这个问题。
提高度
提高度指的是,X 项和 Y 项一起呈现的频率,并且一起考虑了 X 项和 Y 项各自呈现的频率。它的核算方法是这样:提高度{->}=支撑度{,}/支撑度{}*支撑度{}
,结合前面的两个目标,不难看出,实际上,提高度{->}=置信度{->}/支撑度{}
,成果是 1。成果是 1 则代表,两者之间并无相关,如果这个成果比 1 大,则代表两者存在相关,成果越大,提高度越高,则代表两者相关度越大,反之,如果这个成果小于 1,则代表两者负相关的联系。
相关规矩的特点
在数据规划特别大的时候,偶然会呈现假相关的状况,这个时候,为了保证相关规矩的普适性,需求对成果进行验证。
相关规矩的一个更大的问题是,需求十分大的核算量来完成,即使只要 10 种产品,也需求对上千种组合进行核算(2^10-1=1023
),而在真实的商场超市或者线上商城中的产品数量,可以组成的组合数会是一个天文数字。关于这个问题怎么解决,我会鄙人一篇中介绍。
参考:《文言机器学习算法》