sk-learn Facebook数据集猜测报到方位
本次竞赛的意图是猜测一个人即将报到的当地。 为了本次竞赛,Facebook创建了一个虚拟世界,其间包含10公里*10公里共100平方公里的约10万个当地。
关于给定的服务器内存和普通内存有什么区别坐标集,咱们的任务将根据用户的方位,准确性和时刻戳等数据处理包含数据的猜测用户下一次的报到方位。 数据被制作成类似于来自移动设备的方位数据。
特征值:“x”, “y”, “accuracy”, “day”, “hour”, “weekday”
方针值: place_id
本实例运用Facebook上核算的数据,根据地址坐标和报到时刻等特征来练习模型,毕竟得到方针地址的ID。练习集与查验集份额为8:2。
在进行数据模型练习时,首先要进行数据预处理
缩小数据规划:由于数据服务器租借多少钱一年集有2000W+条数据,程序跑起来会非常慢,因此恰当缩小数据规划,假设电脑装备够或许租了服务器请随意~
挑选时刻特征:数据中的时电脑怎样截图间分离电脑截图快捷键ctrl加什么出day,hour,weekend
去掉报到较少的当地:除掉意义不大的特别地址,削减过数据处理的最小单位是拟合电脑黑屏
确认特征值实例化对象的关键字和方针值
切开数据集
穿插验证:将拿到的练习数据,分为练习和验证集。以下图为例:将数据分红4份,其间一份作为验证集。然后通过4次实例化对象的关键字(组)的查验,每次都替换不同的验证集。即得到4组模型的作用,取平均值作为毕竟作用。实例化对象是什么意思又称4折穿插验证。本电脑显示屏不亮可是主机已开机实例cv=5,则为5折电脑怎样截图穿插验证。
def facebook_demo():
"""
sk-learn Facebook数据集猜测报到方位
:return:
"""
# 1、获取数据集
facebook = pd.rea电脑键盘功能基础知识d_csv('/Users/服务器租借maxinze/Downloads/机器学xiday2材料/02-代码/FBlocation/train.csv')
# 2.根本数据处理
# 2.1 缩小数据规划
# 挑选(2,2.5)这一规划的数据,运用 query
facebook_data实例化对象是什么意思 = facebook.query("x>5.0 & x<6 & y>5.0 & y<6.0")
# 2.2 挑选时刻特征
# 提取时刻
time = pd.to_datetime(fac实例化需求ebook_data["time服务器是什么"], unit="s")
time = pd.DatetimeIndex(time)
# 加一列day
facebook_data["day"] = time.day
# 加一列hour
facebook_data["hour"] = t服务器租借ime.hour
# 加一列weekday
facebook_data["weekday"] = time.weekday
# 2.3 去掉报到较少的当地
#数据处理包含哪些内容 分组聚类,按数目聚类
place_count = facebook_data.groupby("place_id").count()
# 挑选报到大于3的
place_count = place_count[place_count["row_id"] > 3]
# 传递数据
facebook_data = faceb服务器租借ook_data[facebook_data["place_id"].isin(place_coun电脑蓝屏了怎样办修复t.index)]
# facebook_data.shape()
# 2.4 挑选特征值和方针值
# 特征值
x = facebook_da服务器ipta[["x", "y", "accuracy", "day", "hour", "weekday"]]
# 方针值
y机器学习 = facebook_data["place_id"]
#数据处理 2.5 切开数据集(数据集区别) 参数特征值, 方针值
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
# 3.特征工程--特征预处理(标准化)
# 3.1 实例化一个转换器电脑
transfer = StandardScaler电脑显示屏不亮可是主机已开机()
# 3.2 调用fit_transform
# 特征练习集
x_train = transfer.fit_transform(x_train)
# 特征查验集
x_test = transfer.fit_transform(x_test)
# 4.机器学习--knn+cv
# 4.1 实例化电脑截图快捷键ctrl加什么一个估服务器怎样搭建量器
estimator = KNeighborsClassifier数据处理的常用办法有哪些()
# 4.2 调用gridsearchCV
# param_grid = {"n_neighbors": [1, 3, 5, 7, 9]}
param_grid = {"n_neighbors": [5, 7, 9]}
estimator = GridSearchCV(estimator, param_grid=param_grid, cv=3 )
# 4.3 模型练习
esti电脑截图快捷键ctrl加什么mator.fit(x_train, y_train)
# 5.模型点评
# 5.1 根本点评实例化办法
score = estimator.s电脑键盘功能基础知识core(x_test, y_test)
print("最后猜测的准确率为:n", score)
y_数据处理包含数据的收集加工和输出predict = estimator.predict(x_test)
print("最后的猜测实例化数组值为:n", y_predict)
print("猜测值和真实值的对比情况:n", y_predict == y_test)数据处理是什么
# 5.2 运用穿插验证后的点评办法
print("在穿插验证中验证的最好作用:n", estimator.best_score_)
print("最好的参数模型:n", estim服务器租借多少钱一年ator.b服务器ipest_estimator_)
print("每次穿插验证后的验证集准确率作用和练习集准电脑黑屏确率作用:n", estimator.cv_results_)
return实例化servlet类反常 None
由于只选用了部分数据跑代码,所以模型练习后查验的准确实例化servlet类反常率不太高,假设可以选用全部数据跑。