前语

在曩昔,宝可梦图鉴能够简略的了解已知宝可梦的信息,在大数据的协助下,以新的方法更快更好得探索宝可梦,本文旨在以宝可梦信息为布景,剖析不同的宝可梦特征,并依据这些特征猜测宝可梦是否是传奇宝可梦。

1.1 jupyter设置、导包及数据集加载

导入相关模块。

import pandas as pd,numpy as np,matplotlib as mpl
import matplotlib.pyplappreciateot as plapproacht大数据是什么意思
import warnings
impo宫颈癌前期症状rt seaborn as sns

阻挠警告

warnings.f宫外孕ilterwarnings('ignore')
warnings.filterwarnings(action ='ignore',category=ConvergenceWarning)

避免中文乱码,设置seaborn中文字体

mpl.rcParams['font.sans-serif'] =[u'simHei']
mpl.rcParams['axes.unicode大数据技能与使用专业_minus'] =Fals大数据技能与使用e
sns.set(fonAPPt='SimHei')大数据技能与使用工作方向及远景

加载数据。

data = pd.read_csv('happiness字体规划在线生成器_train_complete.csv',enc大数据技能与使用oding='gbk')

1.2 探索性剖析

1.大数据技能2.1 数据集预览

  • 预览数据大数据技能与使用专业集。
df_all.head(5)appear.append(df_all.tail(5))
  • 看看宝可梦有哪些特征。
—————————————————————————————————————————大数据修仙———————————application————
I龚俊ndex(['applicationabilities', 'against_bug', 'against_dark', 'against_dragon',
'against_electric', '大数据杀熟against_fairy', 'against_fight', 'against_fire',
'against_fl大数据技能与使用工作方向及远景ying', 'against_ghost', 'against_grass',字体下载 'against_ground',
'against_ice', '大数据专业学什么against_normal', 'against_poison', 'against_psychic',
'against_rock', 'against_steel', 'against_water', 'attack',
'base_egg_steps', 'base_happinesGos', 'base_total', 'captur大数据是什么意思e_rate',
'classfication', 'defense', 'experience_growth', 'height_m',大数据专业工作远景怎样 'hp',
'japanese_name', 'name', 'percentage_male', 'pokedapp装置下载ex_number',
'sp_attack', 'sp_defense', 'sp宫颈癌eed', 'type1', 'type2大数据', 'weight_kg',
'generation', 'is_l枸杞egendary'],
dtype=大数据技能'object')

1.2.2 宝可梦的基础特征

  • base_tatol的散布整体趋势遭到hp、defense大数据技能与使用工作方向及远景、sp_defense的影响较大
  • 宝可梦的hp多散布于120以内,其他特征散布较为分散
features = ['attack','defense','hp','sp_attack','sp_defense','base_total']
sns.pairplot(df_all[featuappearanceres])

宝可梦数据集剖析

1.2.3 宝宫外孕可梦的主、副特征

  • 主特征为水系的宝可梦数量最多,top3是water、normal、grass
  • 副特征为翱翔系的宝可宫颈癌梦数量最多,top3是flying、posion、ground
fig,ax = plt.subplots(1,2,figsize=(15,8))
df_all['type1'].value_counts().plot.pie(autopct='%1.1f%%',ax=ax[0])
df_all['typ字体管家e2'].value_counts().plot.pie(autopct='%1.1f%%',ax=ax[1])
ax[0].set_ylabel('')
a大数据是什么意思x[0].set_xlabel('type1')
ax[1].set_ylabel('')
ax[1].s大数据技能与使用工作方向及远景et_xlabel('type2')
p大数据修仙lt.show()

宝可梦数据集剖析

  • 查验去看看主副特征为water和flying的宝可梦中传奇宝可梦的数量,发现为0。
df_all[((df_all['type1']=='water') | (df_all['type1']=='normal')) & (df_all['type2']=='flying')]['is_legappstoreendary'].value_counts().plot.bar(color='c')

宝可梦数据集剖析

1.2.4 传奇宝可梦的数量

  • 数据会集,传奇宝可梦占比很低,数据集样本散布不均匀。
fig,aappstorex = plt.subplots(1,2,figsize=(15,8))
sns.countplot('is_legendary',da公积金借款ta=df_all,字体管家ax=ax[0],palette=['g','r']
)
df_all['is_legendary'].value_counts().plot.pie(autopct='%1.1f%%',ax=ax[1],colors=['g','r'])
ax[0].set_ylabel('')
ax[0].set_xlabel('is_legendary')
ax[1].set_ylabel('')
ax[1].set_xapproachlabel('is_legendary')
plt.show()

宝可梦数据集剖析

1.2.5 传奇宝可梦的迭代数

  • 第五代和第一代宝可梦数量较多,第六、七代宝可梦数量下降许多
  • 第七代的宝可梦尽管数量少,但传奇宝可梦的数量是最多的
fig,ax=plt.subplots(2,字体下载2,figsize=(15,8))
df_all['generation'].value_counts().大数据与管帐sort_values(ascending=False).plot.bar(ax=ax[0][0],
color='orange')
ax[0][0].set_xlabel('generation')
ax[0][0].set_ylabel('count')
df_all['generation'].valu字体大小怎样调e_counts().plot.pie(autopct='%宫外孕1.1字体大全f%%',ax=ax[0][1APP])
ax[0][1].set_ylabel('')
ax[0][1].set_xlabel('generation')
sns.countplot('generation',hue='is_legendary',data=df_all,ax=ax[1][0],
palette=[宫颈癌'c','g'])
ax[1][0].set_xlabel('is_legendary-generation')
df_all[df大数据专业学什么_all['is_legendary']==1]['generation'].Govalue_counts().plot.pie(autopct='%1.1f%%',ax=ax[1][1])
ax[1][1].se宫颈癌疫苗t_ylabel('')
ax[1][1].set_xlabel('is_legendary-gappreciateeneration')

宝可梦数据集剖析

1.2.6 传奇宝可梦的主、副特征与品种

  • 传奇宝可梦的主特征top4是dragon、flying、psychic、steel;副特征top4是dragon、fairy、fighting、steel
  • 主特大数据杀熟色为dappreciateragon龙族,副大数据技能与使用工作方向及远景特征为steel字体管家钢铁类的宝可梦更有可能是传奇宝可梦
fig,ax=plt.subp大数据技能与使用专业lots(1,2,figsize=(15,8))
df_all[['type1','is_leg宫外孕endar大数据y']].groupb宫颈癌y('type1').mean().plot.b大数据专业工作远景怎样a字体大全r(aappreciatex=ax[0],
color='gray')
df_al字体l[['type2','is_legendary']].groupby('type2').mean().plot.bar(ax=app装置下载ax[1],
color='c')
plt.show()

宝可梦数据集剖析

  • 在龙族宝可梦和精力类宝可梦中,传奇宝可梦占比约33.3%。
fig,ax字体下载=plt.subplots(1,2,figsize=(25,10))
df_all[df_all['i字体管家s_Golegendary']==1appear]['classfication'].value_counts().plot.pie字体规划(ax=ax[0],appleautopct='%1.1f%%')
ax[0].set_ylabel('')
ax[0].set_xlabel('classfication')
df_all[(df_all['classfication']=='Dragon P字体管家okmon') | (df_all['classfica字体管家tion']=='Land Spirit Pokm字体大小怎样调on')]['is_legendary'].value字体大全_couapproachnts(apple).plot.pie(ax=axapprove[1],
autopct='%1.1f%%',colors=['crimson','teal'大数据技能与使用专业]Go)
ax[1].set_ylab大数据修仙el('count')
ax[1大数据技能与使用专业].se枸杞t_xlabel('classfication')

宝可梦数据集剖析

1.2.7 传奇宝可梦的攻防、特攻防与归纳特征

  • 图中能够看到,传奇宝可梦的生命值在较高的规划,攻击力也不弱
  • hp和attac字体辨认扫一扫k极高的宝可梦更可能是传奇等级
plt.figure(figsi宫外孕ze=(25,10))
ax = plt.subplot()
ax.scatter(df_al大数据是什么意思l[大数据df_all['is_legendary'] ==1]['sp_defense'],df_all[df_all['is_legendary']==1]['applesp_attapplicationack'],appearance
color = 'r',s=大数据技能与使用df_all[df_all['is_legendary']==1]['sp_attack'])
ax.scatter(df_all[df_all['is_lGoegendary']==0]['sp字体辨认扫一扫_defense大数据'],df_all[df_all['is_legendary']==0]['sp_attack'],
color = 'g',s=df_al大数据技能l[df_all['is_legendary']==0]['枸杞sp_attack'])
df_all[(df_大数据all['classfication']=='Dragon Pokmon') | (df_all['classfication']=='Land Spirit Pokmon')appointment]['is_legendary'].value_counapproachts().plot.bar(color='r')

宝可梦数据集剖析

  • 攻防散布好像与特攻防有类似的散布,传奇宝可梦的攻或防具有较大的优势
plt.figure(figsize=(25,10))
ax = plt.subplot()
ax.scatter(df_all[df_all['is_legendary'] ==1]['defense'],df_all[df_all['is_legendary']==1]['attack'],
color = 'r',s=df_all[dfappreciate_all['is_legendary']==1]['attack'])
ax.scatter(df_aGoll[df_all['appearanceis_legendary']==0]['defense'],df_all[df_all['is_legendary']==0]['attack'],
color =appointment 'k',s=df_all[df_all['is龚俊_legendary']==0]['attack'])

宝可梦数据集剖析

  • 传奇宝可梦的归纳特征大多较强,也存在少量传奇宝可梦的归纳特征较弱。
plt.figure(figsize=(25,10))
ax = plt.subplot()
ax.scatterappointment(df_all[df_all['is_legendary'] ==1]['hp'],df_all字体管家[df_all['is_legen字体管家dary']==1]['base_total'],
color = 'oranappstorege',s=df_all[df_all['is_legendary']==1]['base_total'])
ax.scatter(df_all[字体管家df_all['is_legendaapproachry']==0]['hp'],df_all[df_all['is_legendary']==0]['base_total'],
color = 'm',s=df_大数据技能与使用专业all[df_all['is_legendary字体大全']==0]['base_total'])

宝可梦数据集剖析

1.3 特征工程

1.3.字体管家1 缺失值处理

1.3.1.1 核算缺失值
  • 核算出每个特征中缺失值的数量
  • 有四个特征呈现缺失值
df_all.isnull().sum().sort_宫颈癌val宫颈癌疫苗ues(ascending=False).head()
_____________________________工商银行____________________________________________
type2              384
percentage枸杞_male     98
height_m            20
weight_kg           20
is_legendary         0
dtype: int64
  • 核算缺失值的占比
missing_pct = df_all.isnull().sum() * 100 / len(df_all) #将列中为空的个数计算出来
missing = pd.DataFrame({
'name': df_all.column大数据杀熟s,
'missing_pct': missing_pct,
})
missing.sort_values(by='missing_pct', asc公积金借款ending=False).head()
————————————————————————————————————————————application——————————————————————————————
name	missing_pct
type2	ty大数据修仙pe2	47.940075
percentage_male	percentage_male	12.234707
weigGoht_kg	weight_kg	2.496879
height_m	heig字体规划在线生成器ht_m	2.496879
name	name	0.000000
1.3.1.2 处理type2
  • 关于缺失值的处理应当慎重,这儿挑选用’U'(unknown’)来填充type工商银行2
df_all['typ大数据是什么意思e2'].fillna('U',inplace=True)
df_all['type龚俊2'].i大数据技能snull().sum()
———大数据技能———————————字体规划在线生成器—————————————————————————————————————————————app装置下载——————————————
1.3.1.大数据技能与使用专业3 处理percentage_male
  • 用-1来标明不知道宝可梦中男性占比
df大数据是什么意思_all['percentage_ma公积金借款le'].fillna(-1,inplacapproache=True)
1.3.1.4 处理weight_kg
  • 对应的宝可梦分别是:

  • 18 Rattata 小拉达 身高 0.3m 体重 3.5kg

  • 19 Raticate 拉达 身高 0.7m 体重 18.5kg

  • 25 Raichu 雷丘 身高 0.8m 体重 30kg

  • 26 Sandshrew 穿山鼠 身高 0.6m 体重 12kg

  • 27 Sandslash 穿山王 身高 1.0m 体重 29.5kg

  • 36 Vulpix 六尾 身高 0.6m 体重 9.9kg

  • 37 Ninetales 九尾 身高 1.1m 体重 19.9kg

  • 49 Diglett 地鼠 身高 0.2m 体重 0.8kg

  • 50 Dugtrio 三地鼠 身高 0.7m 体approve重 33.3kg

  • 51 Meowth 穿山鼠 身高 0.6m 体重 12kg

  • 52 Persian 喵喵 身高 0.4m 体重 4.2kg

  • 73 Geodude 小拳石 身高 0.4m 体重 20.0KG

  • 74 Graveler 隆隆石 身高 1.0m 体重 105.0kg

  • 75 Golem 隆Go隆岩 身高 1.40m 体重 300.00kg

  • 87 Grimer 臭臭泥 身高 0.9m 体重 30kg

  • 88 Muk 姆克儿 身高 0.3m 体重 2.0kg

  • 102 Exeggutor 椰蛋树 身高 2.00m 体重 120.00k字体g

  • 104大数据与管帐 Marowak 嘎啦嘎啦 身高 1.0m 体appear重 34.0kg

  • 719 Hoopa 胡帕 身高 v m 体重 9 kg

  • 744 Lycanroc 鬃岩狼人 身高 0.8m 体重 25.0kg

  • weight

[3.5,18.5,30,12,29.5,9.9,19.9,0.8,33.3,12,4.2,20.0,1枸杞05.0,300,30,2,120,34,9,25]

  • heig宫颈癌ht:

[0.3,0.7,0.8,0.6,1.0,0.6,1.1,0.2,0.7,0.6,0.4,0.4,1.0,1.4,0.9,0.3,2.0,1.0,0.5,0.8]字体全国

df_all[df_all['weight_kg'].isnull()]['name']
——————————————————————————————————————————————————————————————————————————
18       Rat宫颈癌tata
19      Raticate
25        Raichu
26     Sa工商银行ndshrew
27     Sandslash
36        Vulpix
37     Ninetales
49       Diglett
50       Dugtrio
51        Meowth
52       Persian
73       Geodude
74      Graveler
75         Golem
8字体美化大师7        Grimer
88           Muk
102    Exeggutor
104      Marowak
719        Hoopa
744     Lycan大数据技能与使用roc
Name: name, dtype: object
  • 将宝可梦的weight填充到缺失值中
nullname =df_all1[df_all1['weight_kg'].isnull()]['name']
weight =[3.5,18.5,30,12,29.5,9.9,19.appear9,0.8大数据专业学什么,3大数据是什么意思3.字体大小怎样调3,12,4.2,20.0,105.0,300,30,2,120,34,9,25]
weight_kg_dict = dict(zip(nullname,weight))
weight_kg_dict
for i in nullname:
df_all1.loc[df_all1['name']==i,'weight_kg']=weight_kg_dict[i]
1.3.appearance1.5 处理height_m
  • 将宝可梦的heigh工商银行t填充到缺失值中
null_height =df_all[d大数据技能与使用工作方向及远景f_all['height_m'].isnull()]['name']apple
height =[0.3,0.appearance7,0.8,0.6,1.0,0.6,1.1,0.2,0.7,0.6,0.4,0.4,1.0,1.4,0.9,0.3,2.0,1.0,0.5,0.8]
heigGoht_dict = dict(zip(null_height,height))
for i in null_height:
df_all.loc[df_all[字体管家'name']==i,'height_m']=height_宫外孕dict[i]

1.3.2 异常值处理

  • 大数据技能与使用专业可梦的weight,base_e大数据是什么意思gg_steps,experience_growth存在很多异常值,关于异常值的处理需求谨appstore慎,能够通过数据分箱和独热编码来处理。
names= list(df_all宫颈癌前期症状)
fig,ax=plt.subplots(2,2,figsize=(20,10))
sns.boxplot(data=df_all[names[:19]],ax=ax[0][0])
sns.boxplot(data=df_all[names[19:26]],googleax=ax[0][1])
sns.boxplot(data=df_all[na龚俊mes[26:33]],ax=ax[1][0])
sns.boxplot(data=df_all[names[33:42]],ax=ax[1][1])
1.3.2.1 处理capture_rate
  • Minior并不是传奇宝可梦因而其影响较小。
df_all字体辨认扫一扫.loc[df_all['name']=='Minior','capture_rate']=30
df_all['capture_applicationrate']=df_all['ca龚俊pture_rate'].astype(float)
1.3.2.2 处理abilities、classfication
  • 使用正则表达式获取字段数据中的大写字母,再字体美化大师使用独热编码进行处理
def get_first_letter(feature):
global df_all
letter=[]
df_ab=df_all[feature]
for i in range(len(df_ab)-1) :
j=approvei+1
bi=''.join(df_ab[i])
bj=''.join(df_ab[j])
jc= re.findall('[公积金A-Z]+',bi)
kc=re.findall('[A-Z]+',bj)
rei =''.joiapplicationn(jc)
rej=''.join(kc)
if  df_ab[i] != df_ab[j] and rei==rej:
rei += str(i)
letter.append(rei)
continue
else:
letter.append(rei)
continue
last=''大数据技能.join(re.findall('[A-Z]+',''.join(df_ab[:-2:-1])))
letter.append(last)
df_all[feature]=letter
return  df_all
df_all=get_first_letter('APPclassficatio字体n')
df_all=get_first_letter('abilities')
1.3.2.3 数据分箱

宝可梦数据集剖析

  • 数据分箱的阈值依据样本数量散布来承认:

  • capture_rate_list=[60,100,180]

  • sp_aGottac大数据修仙k_list= [50,100,150]

  • spappreciate_defense_list= [50,1appstore00,150]

  • baappointmentse_total_list= [300,500,appear600]

  • speed_list= [40,80,120]

  • height宫颈癌_m_list= [1,2,5]

  • weight_kg_list= [3大数据技能与使用工作方向及远景0,Go100,200]

  • percentage_male_list= [0,50,100]

  • attack_list= [50,大数据技能100,150]

  • defense_公积金list= [50,100,150]

  • hp_list= [40,80,120]

  • 结构分箱函数

def modify_df(feature,字体规划feature_list):
global df大数据专业工作远景怎样_all
df_all.loc[df_all[feature]<feature_list[0],featur大数据技能与使用专业e]=宫颈癌疫苗0
df_all.loc[(df_all[feature] >APP= feature_list[0]) & (df_all[feaapproachture] < feature_l字体全国ist[1]),
feature] = 1
df_all.loc[(df_aapplell[feature] >= feature_list[1]) & (df_a大数据ll[feature] < feature_list[2]),
f字体规划eature] = 2
df_all.loc[(df_all[feature] &字体gt;= feature_list大数据与管帐[2]) , feature] = 3
return df_all
  • 执行数据分箱
df_all=modify_df('attack',attack_list)
df_all=modify_d大数据专业学什么f('defense',defense_lis大数据t)
df_all=modify_df('hp',hp_list)
df_all=modify_df('speed',speed_list)
df_all=modify_df('sp_attack',sp_attack_list)
df_all=modify_df('sp_defense',sp_defense_list)
df_all=modify_df('base_total',base_total_list)
df_all=modify_df('height_m',height_m_list)
df_all=modify_df('weight_kg',weight_kg_list)
df_all=modify_df('percentage_male',percentage_male_list)df_all=modify_df('capture_rate',captur大数据专业学什么e_rate_list)
1.3.2.4 独热编码
  • 对experience_growth、generation、typ大数据杀熟e1、type2、abilities、classf大数据技能与使用工作方向及远景ication进行独热编码
def dummies_coder():google
globa字体下载l df_all枸杞
for name in ['experience_growth','generation','type1',
'type2','abilities','classfication']:
df_dummies = pd.get_dummies(df_all[name],prefix=name)
df_all = pd.concat([df_a枸杞ll,df_dummiegoogles],axis=1)
df_all.drop(name,axis=1,inplace=True)
return dappreciatef_all
df_all =dummies_cod龚俊er()
  • 特征工程完成后,删去对操练模型贡献较低的特征
df_all.drop(['name','japanese_name','pokedex_numbeGor'],axis=1,inp宫外孕lace=T字体管家rue)
1.3.2.5 特征相关性剖析
  • 全体来看,各特征之间的相关性并不高
  • base_egg_steps与猜测值is_le字体下载gendary的相关性较高到大数据技能达0.8枸杞7
  • b龚俊ase_total与sp_attack、sp_defense、attack、defense相关性较高
df工商银行_a枸杞ll2=df_all
df_all2.drop(list(df_all)[1:19],axi大数据技能与使用专业s=1,inplace=True)
plt.figure(figsize=(15,8))
sns.heatmap(df_all2.drop(['name','japanese_name','pokedex_number'],axiappstores=1).corr(),annot=Tru字体美化大师e)
plt.show()

宝可梦数据集剖析

1.4 模型操练

  • 导入相关模块大数据
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.model_大数据技能与使用工作方向及远景selection import GridSearchCV
from sklearn.model_selection import cross_val_scapproachore
from sklearn import metrics
from sklear工商银行n.linear_model import LogisticRegression, Log大数据技能与使用isticRegressionCV
from sk公积金learn.neighbor大数据技能s importappstore KNeighborsClassifier
from sklearn.ensemblAPPe import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.tree import DecisionTreeC字体转换器lassif字体转换器ier
import xgboost as xgb
from sklearn.svm import SVC
from sklearn.ensemble import ExtraTreesClassifier

1.4.1 操练集区分

  • 采用随机取样的方法,区分操练集、验证集和查验集
train, test = train_test_split(df_all, test_字体规划在线生成器size=0.2, random_state=42)
x=train.drop(['is_大数据技能与使用legendary'],axis=1)
y=train.is_le字体大全gendary
x_train, x_val,yappointment_train,y_val = train_test_split(x,y, test_size=0.2, random_state=42)appreciate

1.4.1 使用基础模型及评分

  • 创建分类器
lgr大数据技能与使用专业cv =LogisticRegressionCV()
extree =ExtraTreesClassifier()
rf =RandomForestClassifier()
knn=KNe字体大全ighborsClassifier()
dt=DecisionTreeClassifier()
xgb =xgb.XGBClassifier()
models =[extree,lgrcvappstore, rf,knn ,dt ,xgb]宫颈癌疫苗
  • 核算Accuracy、F1-Score、Auc
for model in models:
model=model.fit(x_train,y_train)
predict_train =字体下载model.predict(x_train)
predicappointmentt_v大数据杀熟al龚俊=model.predict(x_val)
print(model)
print('val Accureacy:',metrics.accuracy_sapplicationcore(y_val,predict_val))
print('val f1-sc宫颈癌前期症状ore :',metrics.f1_score(y_val,predict_val))
print('val mean_squared_error :',metrics.大数据杀熟mean_squared_error(y_val,predict_val))
a = model.predict_proba(x_val)
fpr, tpr, thresholds = metrics.roc_curve(y_val, y_score=[i[1] for i in a], pos_字体下载label=1)
print('appearau大数据专业工作远景怎样c:',metrics.app装置下载auc(fpr, tpr))
print('***********************枸杞***********')
————————————————————————————————————————————————————————
ExtraTree大数据与管帐sClassifier()
va大数据技能与使用工作方向及远景l Accur大数据技能与使用eacy: 0.9765625
val f1-score : 0.8
val mean_squared_error : 0.0234375
auc: 0.9924863387978142
**********************************
LogisticRegressionCV(字体美化大师)
val Accureacy: 0.9765625
val f1-score : 0.8
val mean_squared_error : 0.0234375
auc: 0.9972677公积金595628415
******字体下载****************************
RandomForestClassifier()
va宫颈癌l Acapprovecureacy:字体 0.96875
val f1-score : 0.7142857142857143
val mean公积金借款_squared_error : 0.03125
auc: 0.9904371584699454
**************google********************
KNeighGobor宫外孕sClassifier()
val Accureacy: 0.984375
val f1-score : 0.8571428571龚俊428571
val mean_squared_error : 0.015625google
auc: 0.9918032786885246
********公积金************字体**************
DecisionT字体规划reeClassifier()
val Accurea宫颈癌cy: 0.984375
val字体管家 f1-score : 0.8571428571428571
val mean_squared_error : 0.015625
auc: 0.9918032786885246
**********************************
XGBClasappreciatesifier()
val Accurea工商银行cy: 0.976562枸杞5
val f1-score : 0.8
v龚俊al mean_squared_error : 0.0234375
auc: 0.9918032786885大数据技能245
**********************************

1.4.2 模型猜测与评价

  • 从查验集提取出自变量和应变量
x_test =test.drop(['is_legendary'],axis=1)
y_test = test.is_legendary
  • 通过验证集验证后挑选若干模型进行查验
lgrcv =宫颈癌疫苗LogisticRe字体管家gressionCV()
extree =ExtraTreesClassifier()
knn=KNeighborsClassifier()
dt=Decisi宫外孕onTreeClassifier()
model大数据技能与使用s =[extree,lgrcv,knn ,dt]
for model in models:
model=model.fit(x_train,y_train)
print('val Accureacy:',metri大数据技能与使用专业cs.accuracy_score(y_test,prapproveedict_test))
print('val f1-score :',metri字体美化大师cs.f1_scor枸杞e(y_test,predict_test))
print('val meAPPan_squared_error :',metrics大数据技能与使用工作方向及远景.mean_squared_error(y_test,predict_test))
a = model.predict_proba(x_test)
fpr, tpr, thresholds = metrics.roc_curve(y_test, y_score=[i[1] for i in a], pos_label=1)
pri大数据修仙nt('auc:',大数据专业工作远景怎样metrics.auc(fpr, tpr))
print('**********************************')
——————————————————————————————————————————————————————
ExtrGoaTreesClassifier()
val Accure字体管家acy: 1字体下载.0
val f1-scor公积金e : 1.0
val mean_squared_error : 0.0
auc: 1.0
*****************宫颈癌疫苗**********google*******
LogisticRegressionCV()
val Accureacy: 0.9875appreciate776397515528
val f1-score : 0.9411764705882353
val字体全国 mea宫外孕n_squared_error : 0.012422大数据技能360248447204
auc: 0.9996114996114996
**********************************
KNeighborsClassifier()
val Accureacy: 0.9875776397515528
val f1-score : 0.9411764705882353字体规划
val mean_squared_error : 0.012422360248字体美化大师447204
auc: 1.0
**********************************
DecisionTreeClassifier()
val Accureacy: 1.0
val f1-score : 1.0
val mean_字体大全squared_error : 0.0
auc: 1.0
**********************************

1.4.4 输出效果文件

  • 尽管天池还不能提交效果,可是进程要完善字体转换器
extree =ExtraTreesClassifier()
model =ext宫颈癌前期症状ree.fit(x_train,y_train)
predictions =model.大数据专业工作远景怎样predict(x_test)
df_predictions = pd.DAPPataFrame()
ab宫颈癌c = pd.read_csv(大数据修仙'pokemon0820.csv',en大数据技能coding='utf-8')
df_predictions['pokedex_number'] = abc['pokedex_number'][:161]
df_predictionapplications['is_legendary'] = predictions
df_p字体规划redictions[['pokedex_number','is_legendary']].to_csv('submit.csv', index=False)