全文链接:tecdat.cn/?p=22262
在讨论分类时,咱们经常剖析二维数据(一个自变量,一个因变量) ( 点击文末“阅览原文”获取完好代码数据******** )。
但在实际生活中,有更多的查询值,更多的解说变量。随着两个以上的解说变量,它开始变得愈加复杂的可视化。
数据
咱们运用心脏病数据 ( 查看文末了解数据获取办法 ) ,猜测急诊病人的心肌梗死,包含变量:
- 心脏指数
- 心搏量指数
- 舒张压
- 肺动脉压
- 心室压力
- 肺阻力
- 是否存活
其间咱们有急诊室的查询成果,关于心肌梗塞,咱们想了解谁存活下来了,以得到一个猜测模型。但是在运转一些分类器之前,咱们先把咱们的数据可视化。
主成分PCA
由于咱们有7个解说变量和咱们的因变量(生计或死亡),咱们能够去做一个PCA。
acp=PCA(X)
增加死亡生计变量,就把它当作数字0,1变量。
点击标题查阅往期内容
数据分享|R言语逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法猜测心脏病
左右滑动查看更多
01
02
03
04
是否存活=是否存活=="存活")*1
成果不错,咱们看到因变量与部分自变量是同向的。也能够可视化样本和类别
plot(cp)
咱们能够在这里推导出一个不错的分类器。至少,在前两个成分上投影时,咱们能够看到咱们的类别。
现在,咱们不能在前两个主成分上得到一个分类器并将其可视化吗?因为PCA是简单的根据正交投影的,所以咱们能够(这里的数据是规范化的)。给定前两个分量平面上的两个坐标,给定咱们的变换矩阵、归一化分量和一个分类器(这里是根据逻辑回归),咱们能够回到原始空间,并对新数据进行分类。
PCA(X,ncp=ncol(X))
function(d1,d2,Mat,reg){
z=Mat%*%c(d1,d2,rep(0,ncol(X)-2))
newd=data.frame(t(z*s+m))
pred(reg,newd}
逻辑回归
现在考虑一个逻辑回归。只是为了简化(去掉非明显变量),咱们运用一个逐步回归的程序来简化模型。
reg_tot=step(glm(是否存活~.,
family=binomial))
可视化等概率线(如个人有50%的生计时机)运用以下
xgrid=seq(-5,5,length=25)
ygrid=seq(-5,5,length=25)
zgrid=ter(xgrid,ygrid,p)
然后,咱们在之前的图形上增加一条等高线
PCA(data,quali.sup=8)
contour(zgrid)
成果不差,但咱们应该能够做得更好。假如咱们把一切的变量都保留在这里(即便它们不重要),会怎么样呢?
glm(是否存活~.,
family=binomial)
contour(xgrid,ygrid,zgrid)
在现实生活中,要想真正说出咱们的分类器的一些相关信息,咱们应该在观测值的一个子集上拟合咱们的模型,然后在另一个子集上检验它。在这里,咱们的方针更多的是在某个投影空间上得到一个函数来可视化咱们的分类。
决策树
默认分类树
>plot(re,type=4,extra=6)
咱们能够在此更改选项,例如每个节点的最小查询数
rpart(factor(是否存活)~,
+control=rpart.control(minsplit=10))
或者
rpart(
+control=rpart.control(minsplit=5))
要将该分类可视化,获得前两个成分的投影
>p=function(d1,d2)pred2(d1,d2)
>zgrid=Outer(xgrid,ygrid,p)
PCA(quali.sup=8,graph=TRUE)
>image(xgrid,ygrid,zgrid)
>contour(xgrid,ygrid,zgrid,add=TRUE,levels=.5)
也能够考虑这种情况
rpart(control=rpart.control(minsplit=5))
最终,咱们还能够生成更多的树,通过采样获得。这就是bagging的概念:咱们boostrap 观测值,生长一些树,然后,咱们将猜测值进行汇总。在网格上
>for(iin1:1200){
+indice=sample(1:nrow(MYOCARDE),
+arbre_b=rpart(factor(是否存活)~.,
+}
>Zgrid=Z/1200
可视化
最终,能够运用随机森林算法。
>fore=randomForest(factor(是否存活)~.,
>pF=function(d1,d2)pred2(d1,d2,Minv,fore)
>zgridF=Outer(xgrid,ygrid,pF)
PCA(data,.sup=8,graph=TRUE)
>image(xgrid,ygrid,Zgrid,add=TRUE,
>contour(xgrid,ygrid,zgridF,
点击标题查阅往期内容
R言语高维数据的主成分pca、 t-SNE算法降维与可视化剖析事例陈述
R言语惩罚logistic逻辑回归(LASSO,岭回归)高维变量挑选的分类模型事例
R言语有RStan的多维验证性因子剖析(CFA)
主成分剖析(PCA)原理及R言语完成及剖析实例
R言语无监督学习:PCA主成分剖析可视化
R言语运用Metropolis- Hasting抽样算法进行逻辑回归
R言语多元Logistic逻辑回归 运用事例
R言语自适应LASSO 多项式回归、二元逻辑回归和岭回归运用剖析
R言语用逻辑回归、决策树和随机森林对信贷数据集进行分类猜测
R言语根据树的办法:决策树,随机森林,Bagging,增强树
spss modeler用决策树神经网络猜测ST的股票
R言语中自编基尼系数的CART回归决策树的完成
python在Scikit-learn中用决策树和随机森林猜测NBA获胜者
matlab运用分位数随机森林(QRF)回归树检测异常值
根据随机森林、svm、CNN机器学习的风控诈骗识别模型
R言语惩罚logistic逻辑回归(LASSO,岭回归)高维变量挑选的分类模型事例
R言语用规范最小二乘OLS,广义相加模型GAM,样条函数进行逻辑回归LOGISTIC分类
数据获取
在下面公众号后台回复“心脏病数****据”,可获取完好数据。
点击文末 “阅览原文”
获取全文完好材料。
本文选自《R言语用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化》。
点击标题查阅往期内容
R言语逻辑回归logistic模型剖析泰坦尼克titanic数据集猜测生还情况R言语是否对二分连续变量执行逻辑回归
R言语用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归剖析教育留级查询数据
R言语随机森林RandomForest、逻辑回归Logisitc猜测心脏病数据和可视化剖析
R言语根据Bagging分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R言语逻辑回归(Logistic回归)模型分类猜测病人冠心病危险
R言语用局部加权回归(Lowess)对logistic逻辑回归确诊和残差剖析R言语用主成分PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R言语用线性模型进行臭氧猜测:加权泊松回归,一般最小二乘,加权负二项式模型,多重插补缺失值R言语Bootstrap的岭回归和自适应LASSO回归可视化
R言语中回归和分类模型挑选的性能指标
R言语多元时间序列滚动猜测:ARIMA、回归、ARIMAX模型剖析
R言语用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归剖析教育留级查询数据
R言语计量经济学:虚拟变量(哑变量)在线性回归模型中的运用
R言语 线性混合效应模型实战事例
R言语混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据
R言语怎么用潜类别混合效应模型(LCMM)剖析郁闷症状
R言语根据copula的贝叶斯分层混合模型的确诊准确性研讨
R言语树立和可视化混合效应模型mixed effect model
R言语LME4混合效应模型研讨教师的受欢迎程度
R言语 线性混合效应模型实战事例
R言语用Rshiny探究lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R言语根据copula的贝叶斯分层混合模型的确诊准确性研讨
R言语怎么解决线性混合模型中畸形拟合(Singular fit)的问题
根据R言语的lmer混合线性回归模型
R言语用WinBUGS 软件对学术能力检验树立层次(分层)贝叶斯模型
R言语分层线性模型事例
R言语用WinBUGS 软件对学术能力检验(SAT)树立分层模型
运用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R言语用WinBUGS 软件对学术能力检验树立层次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models研讨整容手术数据
用SPSS估量HLM多层(层次)线性模型模型R言语高维数据的主成分pca、 t-SNE算法降维与可视化剖析事例陈述
R言语惩罚logistic逻辑回归(LASSO,岭回归)高维变量挑选的分类模型事例
R言语有RStan的多维验证性因子剖析(CFA)
主成分剖析(PCA)原理及R言语完成及剖析实例
R言语无监督学习:PCA主成分剖析可视化
R言语运用Metropolis- Hasting抽样算法进行逻辑回归
R言语多元Logistic逻辑回归 运用事例
R言语自适应LASSO 多项式回归、二元逻辑回归和岭回归运用剖析
R言语用逻辑回归、决策树和随机森林对信贷数据集进行分类猜测
R言语根据树的办法:决策树,随机森林,Bagging,增强树
spss modeler用决策树神经网络猜测ST的股票
R言语中自编基尼系数的CART回归决策树的完成
python在Scikit-learn中用决策树和随机森林猜测NBA获胜者
matlab运用分位数随机森林(QRF)回归树检测异常值
根据随机森林、svm、CNN机器学习的风控诈骗识别模型
R言语惩罚logistic逻辑回归(LASSO,岭回归)高维变量挑选的分类模型事例
R言语用规范最小二乘OLS,广义相加模型GAM,样条函数进行逻辑回归LOGISTIC分类