公众号:尤而小屋
作者:Peter
修改:Peter
大家好,我是Peter~
最近看到国外一位大神对机器学习知识点制作的彩图,通过图解的方式来解说一个知识点,比如过拟合、auc、boosting算法等,十分的形象,比如:
支持向量机
L2正则化进程
原地址:machinelearningflashcards.com/,作者:Chris Albon
全图
先看一个比较全面的图形:这儿面有Dropout、TF-IDF、SVC等
A系列
今日共享A系列的内容。
AIC-赤池信息量原则
赤池信息量原则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种规范,是由日本统计学家赤池弘次
创建和发展的。
赤池信息量原则建立在熵的概念基础上。
AIC越小,模型越好,通常挑选AIC最小的模型
- n:观测值
- 2\hat \sigma ^2:样本方差
- d:特征值
- RSS:残差平方和
Accuracy-准确率
表明在检测样本中实践值和猜测值持平的占比
Adaboost算法
AdaBoost全称为Adaptive Boosting,中文名称叫做自适应提高算法
- 给每个样本分配权重,均为wi=1nw_i=\frac{1}{n};其间n为样本数量
- 训练一个“弱”模型,通常情况下是决策树DT
- 关于每个方针:
- 如果猜测错误,加大权重,w上涨
- 如果猜测正确,降低权重,w下降
- 再训练一个新的弱模型,其间权重较大的样本分配较高的优先权
- 重复步骤3和4;直到全部样本被完美猜测,或许训练出当时规划的决策树
调整R方
在这儿介绍下R2R^2和R2\hat R^2,参阅:www.jiqizhixin.com/graph/techn…
决定系数(英语:coefficient of determination,记为R2或r2)在统计学中用于衡量因变量的变异中可由自变量解说部分所占的份额,以此来判别统计模型的解说力。
假定一数据集有y1,…yi…,yn y_1,…y_i…,y_n 共n个调查值(实践值),对应的模型猜测值分别为f1,…,fnf_1,…,f_n。那么咱们界说残差:
ei=yi−fie_i = y_i − f_i
均匀调查值为:
y=1n∑i=1nyi\bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}
总的误差平方和TSS:给出了y的改变总量
TSS=∑i(yi−y)2TSS=\sum_{i}\left(y_{i}-\bar{y}\right)^{2}
回归平方和:
SSreg=∑i(fi−y)2S S_{\text {reg }}=\sum_{i}\left(f_{i}-\bar{y}\right)^{2}
残差平方和RSS:RSS给出了实践点到回归线距离的总平方。残差,咱们能够说是回归线没有捕捉到的距离。因此,RSS作为一个全体给了咱们方针变量中没有被咱们模型解说的改变。(实践值和模型猜测值的差异,没有被咱们捕捉到)
RSS=∑in(yi−fi)2=∑inei2RSS=\sum_{i}^n\left(y_{i}-f_{i}\right)^{2}=\sum_{i}^n e_{i}^{2}
现在,如果TSS给出Y的总改变量,RSS是未被解说的改变量,那么TSS-RSS给出了y的改变,并且这部分改变是被咱们的模型解说的!咱们能够简单地再除以TSS,得到由模型解说的y中的改变份额。
那么,咱们界说R的改变统计量R2R^2为:
R2=TSS−RSSTSS=1−RSSTSSR^{2}=\frac{TSS-RSS}{TSS} = 1-\frac{RSS}{TSS}
很显然,RSS和R方是负相关的。
调整R方考虑了用于猜测方针变量的自变量数量:
R2=1−(1−R2)n−1n−p−1\bar{R}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-p-1}
- n表明数据会集的数据点数量
- p表明自变量的个数
- R代表模型确定的R方值
Agglomerative clustering-层次聚类
- 一切的调查目标先以自己为群组
- 将满意特定原则的目标集合在一起
- 重复上面的进程,群组不断增大,直到某个端点的位置饱满
ALPHA
岭回归通过对系数的巨细施加赏罚来解决普通最小二乘法的一些问题。 ridge coefficients ( 岭系数 ) 最小化一个带罚项的残差平方和:
minw∥Xw−y∥22+∥w∥22\min _{w}\|X w-y\|_{2}^{2}+\alpha\|w\|_{2}^{2}
参阅资料
www.datacamp.com/tutorial/tu…
blog.csdn.net/guangyacyb/…
AVOID over-fitting
如何避免过拟合?
- 简化模型
- 穿插验证
- 正则化
- 获取更多数据
- 集成学习