本文正在参加「金石方案 . 瓜分6万现金大奖」
一、家庭电力耗费剖析
1.布景描绘
本数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。
这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量1(厨房)、分项计量2(洗衣房)和分项计量3(电热水器和空调)等信息。该数据集共有260,640个测量值,能够为了解家庭用电状况提供重要的见解。
咱们要感谢databeats团队提供这个数据集。假如你在你的研讨中运用这个数据集,请注明原作者:Georges Hbrail 和 Alice Brard
数据阐明
列名 | 阐明 |
---|---|
Date | 日期 |
Time | 时刻 |
Globalactivepower | 该家庭所耗费的总有功功率(千瓦) |
Globalreactivepower | 该家庭耗费的总无功功率(千瓦) |
Voltage | 向家庭运送电力的电压(伏特) |
Global_intensity | 运送到家庭的平均电流强度(安培) |
Submetering1 | 厨房耗费的有功功率(千瓦) |
Submetering2 | 洗衣房所耗费的有功功率(千瓦) |
Submetering3 | 电热水器和空调所耗费的有功功率(千瓦) |
2.数据来历
www.kaggle.com/datasets/th…
3.问题描绘
本数据集能够用于机器学习的目的,如猜测性建模或时刻序列剖析。例如,人们能够运用这个数据集,依据曩昔的数据来猜测未来的家庭用电量。
剖析不同类型的电气设备对耗电量的影响
研讨电力耗费怎么随时刻和地点而改变
构建一个猜测模型来猜测未来的电力耗费
二、数据加载
!pip install prophet -i https://pypi.tuna.tsinghua.edu.cn/simple
data_path="/home/mw/input/Household_Electricity4767/household_power_consumption.csv"
import pandas as pd
import seaborn as sns
import numpy as np
from tqdm.auto import tqdm
from prophet import Prophet
df=pd.read_csv(data_path)
df.head()
index | Date | Time | Global_active_power | Global_reactive_power | Voltage | Global_intensity | Sub_metering_1 | Sub_metering_2 | Sub_metering_3 | |
---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 1/1/07 | 0:00:00 | 2.58 | 0.136 | 241.97 | 10.6 | 0 | 0 | 0.0 |
1 | 1 | 1/1/07 | 0:01:00 | 2.552 | 0.1 | 241.75 | 10.4 | 0 | 0 | 0.0 |
2 | 2 | 1/1/07 | 0:02:00 | 2.55 | 0.1 | 241.64 | 10.4 | 0 | 0 | 0.0 |
3 | 3 | 1/1/07 | 0:03:00 | 2.55 | 0.1 | 241.71 | 10.4 | 0 | 0 | 0.0 |
4 | 4 | 1/1/07 | 0:04:00 | 2.554 | 0.1 | 241.98 | 10.4 | 0 | 0 | 0.0 |
df.describe()
index | Sub_metering_3 | |
---|---|---|
count | 260640.000000 | 256869.000000 |
mean | 130319.500000 | 5.831825 |
std | 75240.431418 | 8.186709 |
min | 0.000000 | 0.000000 |
25% | 65159.750000 | 0.000000 |
50% | 130319.500000 | 0.000000 |
75% | 195479.250000 | 17.000000 |
max | 260639.000000 | 20.000000 |
df.dtypes
index int64
Date object
Time object
Global_active_power object
Global_reactive_power object
Voltage object
Global_intensity object
Sub_metering_1 object
Sub_metering_2 object
Sub_metering_3 float64
dtype: object
df['Date']=pd.DatetimeIndex(df['Date'])
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
def floating(string):
try:
return float(string)
except:
return float(0)
for column in tqdm(make_em_num):
df[column] = df[column].apply(lambda item: floating(item))
HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))
df.dtypes
index int64
Date datetime64[ns]
Time object
Global_active_power float64
Global_reactive_power float64
Voltage float64
Global_intensity float64
Sub_metering_1 float64
Sub_metering_2 float64
Sub_metering_3 float64
dtype: object
df.head()
index | Date | Time | Global_active_power | Global_reactive_power | Voltage | Global_intensity | Sub_metering_1 | Sub_metering_2 | Sub_metering_3 | |
---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 2007-01-01 | 0:00:00 | 2.580 | 0.136 | 241.97 | 10.6 | 0.0 | 0.0 | 0.0 |
1 | 1 | 2007-01-01 | 0:01:00 | 2.552 | 0.100 | 241.75 | 10.4 | 0.0 | 0.0 | 0.0 |
2 | 2 | 2007-01-01 | 0:02:00 | 2.550 | 0.100 | 241.64 | 10.4 | 0.0 | 0.0 | 0.0 |
3 | 3 | 2007-01-01 | 0:03:00 | 2.550 | 0.100 | 241.71 | 10.4 | 0.0 | 0.0 | 0.0 |
4 | 4 | 2007-01-01 | 0:04:00 | 2.554 | 0.100 | 241.98 | 10.4 | 0.0 | 0.0 | 0.0 |
sns.heatmap(df.drop(['index','Date','Time'], axis=1).corr(), annot=True)
<matplotlib.axes._subplots.AxesSubplot at 0x7f31603ed4e0>
三、猜测
1.Prophet介绍
github.com/facebook/pr…
Prophet是一种依据可加性模型猜测时刻序列数据的程序,其中非线性趋势能够按年度、每周和每日的时节性,以及假日效应进行拟合。它最适合于具有激烈时节效应的时刻序列和有几个时节的历史数据。Prophet对于缺失的数据和趋势的改变是稳健的,而且一般能够很好地处理异常值。
2.模型介绍
Prophet模型如下:
-
g(t) 表明趋势函数,拟合非周期性改变;
-
s(s)表明周期性改变,比如说每周,每年,时节等;
-
h(t)表明假期改变,节假日可能是一天或者多天;
-
t为噪声项,用他来表明随机无法猜测的波动,咱们假设t是高斯的。
-
趋势中有两个增加函数,分别是分段线性函数(linear)和非线性逻辑回归函数(logistic)拟合增加曲线趋势。通过从数据中选择改变点,Prophet自动勘探趋势改变;
-
运用傅里叶级数建模每年的时节分量;
-
运用虚变量代表曩昔,将来的相同节假日,属于节假日就为1,不属于就是0;
-
用户提供的重要节假日列表
-
Modeling:建立时刻序列模型。剖析师依据猜测问题的布景选择一个适宜的模型。
-
Forecast Evaluation:模型评价。依据模型对历史数据进行仿真,在模型的参数不确定的状况下,咱们能够进行多种尝试,并根 据对应的仿真效果评价哪种模型更适合。
-
Surface Problems:出现问题。假如尝试了多种参数后,模型的全体表现依然不理想,这个时分能够将差错较大的潜在原因出现给剖析师。
-
Visually Inspect Forecasts:以可视化的方式反馈整个猜测成果。当问题反馈给剖析师后,剖析师考虑是否进一步调整和构建模型。
3.Prophet长处
- 精确,快速,拟合十分快,能够进行交互式探索
- 全自动,无需人工操作就能对混乱的数据做出合理的猜测
- 可调整的猜测,猜测模型的参数十分容易解释,能够用业务知识改善或调整猜测
- 对缺失值和改变剧烈的时刻序列和离散值能做很好有很好的鲁棒性,不需要填补缺失值;
import matplotlib.pyplot as plt
df.shape
(260640, 10)
df=df.sample(n=10000)
def prophet_forecaster(data, x, y, period=100):
new_df = pd.DataFrame(columns=['ds', 'y'])
new_df['ds']= data[x]
new_df['y'] = data[y]
model = Prophet()
model.fit(new_df)
future_dates = model.make_future_dataframe(periods=period)
forecast = model.predict(future_dates)
model.plot(forecast)
plt.title(f"Forecasting on the next {period} days for {y}")
prophet_forecaster(df, x='Date', y='Global_active_power', period=100)
prophet_forecaster(df, x='Date', y='Voltage', period=100)
INFO:prophet:Disabling yearly seasonality. Run prophet with yearly_seasonality=True to override this.
INFO:prophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.