- 作者:韩信子@ShowMeAI
- 教程地址:www.showmeai.tech/tutorials/3…
- 本文地址:www.showmeai.tech/article-det…
- 声明:版权所有,转载请联络平台与作者并注明出处
有人把数据剖析的核心总结为六字,即比照、细分、溯源,也被数据剖析的三板斧,支撑数据剖析的核心应用,详细来说:
比照:成对地比较。
- 横向比照:与『他人』比较,比方,两家公司的离任率。
- 纵向比照:依照时刻维度与『自己』的比较,比方,一家公司去年和今年的离任率。
细分:对数据添加维度、下降粒度地剖析。
- 分维度:添加维度,比方,离任率依照部分维度来剖析。
- 下降粒度:下降数据聚合的程度,比方,离任率不按年份、而依照月份来核算。
溯源:在比照、细分确定到详细维度和粒度之后,仍然没有结论,那就需要检查原始数据,洞悉数据,从数据中寻找灵感。
一、数据『比照』
数据放在那里是没有意义的,只有将数据进行比较,才体现出数据剖析的价值。比照其实很简单,就是把A和B比较。可是,没有可比照性的比照一定是耍流氓。
1.1 目标的可比照性
目标的可比照性,能够从四个“共同”准则来评估:对象共同、时刻特点共同、界说与算法共同、数据源共同。
(1)比价对象共同
比较的对象共同。对象共同是可比的最基本准则,番茄的销量和猪的销量是不可比的,这其实就是由于比较的对象不共同。
(2)时刻特点共同
目标的时刻特点共同。 时刻特点比较特殊,对象所在的时节、月份等时刻特点要有可比性。例如,一家便利店冬天雪糕的销量,和夏季没有可比性,由于对象的时刻特点不同,但做销量的同比是能够的。
(3)界说和算法共同
对剖析对象的界说和核算方法共同。举个比如,青年的界说,我国国家核算局(15-34周岁)和我国共青团(14-28周岁)不同,当核算青年人数占总人数的份额时,二者核算的目标数据,肯定是不同的。
(4)数据源共同
核算的数据样本共同。
1.2 数据比照的“三要”
在做数据比照的相关剖析时,要记住三个“要”:比照要可比、差异要明显、描绘要全面。
(1)比照要可比
比照剖析要有可比性。
(2)差异要明显
组间差异要明显,组内差异要纤细。常用的明显性检验有T检验和方差剖析。
(3)描绘要全面
当刻画一组数据时,不仅要描绘这组数据的一般水平(均值),还要考虑到这组数据的波动水平。假如波动很大,一般水平对数据总体的代表性就会很差。只考虑一般水平而不考虑波动和差异,会使数据的可信度大大缩水。
二、数据『细分』
通过添加维度和下降粒度来细分数据,深挖数据,揭示数据中潜藏的规律。
2.1 添加维度
一个维度是数据表的一列。通常情况下,维度是指定性数据。例如,产品提供的服务的类型、用户散布的地域等。在剖析数据时,添加剖析的维度,改变看待问题的视角,能够在更细分的级别上剖析数据,洞悉到更多的知识,添加数据剖析的深度。
例如,新用户的留存率,通过添加获客来历的维度,能够监控各个来历的新用户的留存率,把有限的经费使用到真实能够带来有用转化的当地。
2.2 下降粒度
粒度是数据的聚合程度。颗粒度最小的数据,是没有聚合的原始数据。
举个比如,每日数据是原始数据,其粒度是日,数据的数量巨大;而每周的核算数据是对日数据的聚合,其粒度是周,数据的数量变成原来的1/7。
三、数据『溯源』
溯源,就是到细节数据中去,检查原始数据,反思用户的行为。在做数据剖析时,一定要明白你剖析得数据是二手的,仍是一手的。
-
一手数据是最原始的数据,包括的内容最丰厚,但数据或许不标准。
-
二手数据是通过处理的,乃至是剖析之后的数据,这些数据或许是片面的、阉割的、面向特定主题的,由此得出的剖析结果也或许有失公允。
资料与代码下载
本教程系列的代码能够在ShowMeAI对应的github中下载,可本地python环境运转,能科学上网的宝宝也能够直接借助google colab一键运转与交互操作学习哦!
本系列教程涉及的速查表能够在以下地址下载获取:
- Pandas速查表
- Matplotlib速查表
- Seaborn速查表
拓展参考资料
- 使用Python进行数据剖析第2版
- w3schools pandas tutorial
- Kaggle的pandas入门教程
ShowMeAI相关文章引荐
- 数据剖析介绍
- 数据剖析思想
- 事务认知与数据初探
- 数据清洗与预处理
- 事务剖析与数据挖掘
- 数据剖析东西地图
- 核算与数据科学核算东西库Numpy介绍
- Numpy与1维数组操作
- Numpy与2维数组操作
- Numpy与高维数组操作
- 数据剖析东西库Pandas介绍
- 图解Pandas核心操作函数大全
- 图解Pandas数据变换高级函数
- Pandas数据分组与操作
- 数据可视化准则与方法
- 根据Pandas的数据可视化
- seaborn东西与数据可视化
ShowMeAI系列教程引荐
- 图解Python编程:从入门到通晓系列教程
- 图解数据剖析:从入门到通晓系列教程
- 图解AI数学根底:从入门到通晓系列教程
- 图解大数据技术:从入门到通晓系列教程