携手创造,一起生长!这是我参与「日新计划 8 月更文挑战」的第8天,点击查看活动概况

回归剖析(Regression Analysis)是一种计算学上剖析数据的方法,目的在于了解两个或更多变量是否相关、联系方向和联系强度,并以此树立数学模型,经过调查特定变量来猜测研究者感兴趣的变量。它可以协助咱们在自变量改变时因变量的改变情况。

机器学习中,回归剖析数据监督学习的领域,可以用于数据的猜测。回归剖析可以经过多个猜测变量来猜测成果,并且可以这些变量对成果的影响程度。

简单线性回归

这儿咱们可以引进一个猜测房价的比方,假设某地的放房价主要受房间数和周围居民的收入水平影响,咱们可以依据调研数据,制作趋势线。

下图是放假与房间数的联系图:

初识机器学习:回归分析

在图中,咱们可以看到房间数与房价的大致联系,并制作一条趋势线,依据这条趋势线,咱们大致可以猜测,有8个房间的房子,单价大概率在 38.15 附近。

依据对房价与周围居民收入的调研,可以得到以下的图表,图表中的横轴表明周围低收入居民的份额,纵轴表明房价:

初识机器学习:回归分析

可以看出,随着周围低收入居民份额的上升,房价呈下降趋势,并且依据这些点,咱们相同可以画一条大致的趋势线。

经过对这些调研数据的收拾,咱们便可以运用房间数和低收入居民的份额对房价进行猜测。

进步准确度

为了进步准确度,咱们可以将房间数和低收入人群占比进行结合,来进行猜测。可是,两个要素对房价的影响强度巨细肯定是不一致的,所以,咱们需求给两个要素不同的权重,最终可以表明为:

房价=a∗房间数+b∗低收入人群占比房价=a*房间数+b*低收入人群占比

以上的等式只是表明他们的联系,这儿的 a 和 b 别离代表两个要素的权重。这样,经过一个带权重的组合变量,就可以得到更准确的成果。

回归系数

以上剖析成果中,最终得到的变量权重,也叫做回归系数。他表明某个变量对猜测成果的影响方向和巨细。因为多个变量之间的计量单位是不同的,计量单位的挑选也会影响回归系数的巨细。比方:一个表明分量的变量,运用克和千克两种单位表明时,回归系数会相差1000被,因而,咱们在做剖析之前,要先对变量的度量单位进行规范化。最简单的方法便是用一个百分位数来表明每个变量,这样得到的回归系数叫做规范回归系数,可以更客观地反映出那个变量对猜测成果的影响更大。

比方:规范化后的 房价 = 2.1 * 房间数 + 5.5 * 低收入人群占比 就比没有规范化的 房价 = 2.1 * 房间数 + 550 * 低收入人群占比 更能反应两个变量对猜测成果的影响联系。

相联系数

假如咱们只运用一个变量来猜测成果,那么这个变量的规范化回归系数也叫做相联系数。

相联系数一般会用一个 -1 到 1 之间的数字表明,它可以给我供给两个信息。以文章最初的比方中,低收入人群占比和房价之间的联系趋势线来说明:

初识机器学习:回归分析

图中数据点的会集程度,代表了猜测变量对猜测成果的影响强度,猜测变量对成果的影响强度越大,这个数值就越接近于 1 或许 -1。

另一个信息便是,依据这些点所画出的趋势线的方向,上图中,猜测变量和猜测成果之间的改变方向是相反的,也便是低收入居民的份额越高,房价越低,则相联系数是负的,反之相联系数便是正的。

权重的失真

有时候,猜测变量的挑选会导致权重的失真,也便是,导致咱们得到不正确的权重信息。

举个比方,比方,咱们在猜测房价的比方中,再增加一个「房子面积」的猜测变量。 得到如下联系:

房价=a∗房间数+b∗低收入人群占比+c∗房子面积房价=a*房间数+b*低收入人群占比+c*房子面积

在遍及情况下,房子面积和房间数有非常强的正相关联系,也便是说,房间数更多的房子,面积也会更大,因而,上述联系中,表明权重的 a 和 c 并不能准确表明房间数或许房子面积对猜测成果影响的实在强度。

所以,需求咱们在剖析之前,就把相关度比较高的变量进行排除或许合并。

其他

另外,咱们经过回归剖析所得到的相关联系,并不代表因果联系。