本文已参加「新人创造礼」活动,一起敞开创造之路。
1. 基本概念
1.1 信息熵(Information Entropy)
以下概念引用自维基百科-变量名熵(信息论)
在信息论中,熵(英语:entropy)是接纳的每算法的空间复杂度是指条音讯中包括的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这儿,“音讯”代表来自散布或数据流中的事情、样本或特征。熵的单位一般为比特,但也用Sh、nat、Hart计量,取决于界说用到对数的底。
在一个概率散布中,一个事情的熵被界说为它的概率的对数的相反数:−lo算法工程师g(p(x))-log(p(x)),由于熵需求满足以下三个条件:
- 单算法设计与分析调性:发生算法的五个特性概率算法工程师越高的事情,其所携带的信息熵越低。
- 非负性:即信息熵不能为负
- 累加算法的时间复杂度取决于性:多随机事情同算法的时间复杂度取决于时发生存在的总不确认性的测量表明为各事情变量之间的关系不确认性的测量算法的和
熵最好了解为不确认性的测量而不是确认性的测量,由于越随机的信源的熵越大。
在信息论与概率统计中,熵(ent算法的五个特性ropy)表明随机变量不确认性的测量。
事情的概率散布和每个事情的信息量构成了一个随机变量,这个随机变量的均值(即期望)就是这个散布发生的信息量的平均值(即信息熵)。
设XX是一个取有限个值的离散随机变量,其概率散布为:
则随机变量XX的信息熵界说为:
条件熵(empirical en变量泵tropy)H(Y∣X)H(Y|X)表明在已知随机变量XX的条件下随机变量算法工程师YY的不确认性,界说为XX给定的条件下随机变量YY的条件概变量的定义率散布的熵对XX的数学期望:
其间变量与函数pi=P(X=xi)p_i=P(X=x_i)
总结:信息熵的浅显意义是:随机变量各种结果的比特量的数学期望。信息熵越大,包括的信息越多,信息越混乱,信息的纯度越低,不纯度越高。
1.2. 基尼指数(G算法分析的目的是ini Index)
基尼指数能够用来表明数据会集一个随机选中的样本被分错的可能性,它等于该变量是什么意思样本被选中的概率乘以它被分错的概率。基尼指数也能够了解为,在一个包括变量与函数K类样本的数据会集,随机取出两个样本,它们的类别不一致的概率(条件是数据集足够大)。一个随机变量的概率散布的基尼指数被界说为该随机变变量类型有哪些量各个取值的基尼指数的期望:
1.3. 信息增益
记当时样本集D的信息熵为Ent(D)Ent变量类型有哪些(D),假定离散特点a有V个可能的取值变量值{a1,a2,⋯ ,aV}{a^1,a^2,cdots,a^V},则能够得到V个分支节点,其变量泵间第v个分支节点中包括了D中所有在特点a上取值为ava^v的样本,记为DvD^v。信息增益(Information gain)变量英语界说为:
浅显的了解,信息增益为数据集割裂前的信息熵,减去割裂后的各个分支节点的变量泵信息熵的加权求和,其间权重为各个变量名的命名规则分支节算法是指什么点的样本占总样本的比例。
如果采用基尼指数来衡量信息量,则数据集对特点a变量名割裂后的基尼指数为:
2. 决策树
2.1. 基本流程
2.2.1. 分支节点区分准则:纯度准算法分析的目的是则
一般来说,我们期望跟着区分过程的不断进行,分支节点所包括的样本尽可能属于同一类别,即结点的“纯度”(purity)越高越好。与纯度相对的是不纯度,不变量纯度能够用信息熵、基尼指数和信息增益率等测量来表明,别离对应ID3,Cart和C4.5决策树。
2.2.2. 构建决策树
2.2.3. 剪枝
2.2.4. 优缺点剖析
长处:
- 核变量英语算简略,易了解,可解释性强
- 合适处理缺失特点的样本,对样本的类别要求不高(能够是数值,布尔,文本等混合样本)
- 能处理不相干特征
缺算法的特征点:
- 容易过拟合
- 忽略了数据之间的相关性
- 不支持在线学习,对新样本,决策树需求全部重建
3.算法的五个特性 CART算法
分类与回归树(classification and regression tree,CART),是一种使用广泛的决策算法设计与分析树学习方法,包括特征选择、树算法的有穷性是指的出产和剪枝,既能够用于分类也能够用于回归。
CART假设决策树是二叉树,左分支取值为“是”,变量值右分支取值为“否”。这样的决策树等价于递归地二分每个特征,将输入空间(特征空间)区分为有限个单元,并在这些单元上确认预测的概率散布,也即能够在给定输入随机变量XX的条件下,输出随机变量YY的条件概率散布。
- 决策树生成:根据练习数据集生成决策树,生成的决策树尽量大
- 决策树剪枝,用验证数据集对已生成的树进行剪枝并选择最优子树,剪枝的标准是损失函数最小。
3.1. CART决策树生成
回归树:平方差错最小
分类树:基尼指数最小
3.1.1. 回归树的生成
假设XX,YY别离代表输入和输出变量,其间YY是连续变量。给定练习数据集
一个回归算法的五个特性树对应着输入算法的特征空间(特征空间)的一个区分,以及在区分的单元上的输出值。假设变量输入空间区分为变量值MM个单元R1,R2,⋯ ,RMR_1,R2,cdots,R_M,并且在每个单元RmR_m上有一个固定的输出值算法是指什么cmc_m,则回归树模型能够表变量值述为:
4. 随机森林
bagging是boostrap aggregation的简称