图解数据分析 | 数据分析思维

  • 作者:韩信子@ShowMeAI
  • 教程地址:www.showmeai.tech/tutorials/3…
  • 本文地址:www.showmeai.tech/article-det…
  • 声明:版权所有,转载请联络平台与作者并注明出处

有人把数据剖析的核心总结为六字,即比照、细分、溯源,也被数据剖析的三板斧,支撑数据剖析的核心应用,详细来说:

图解数据分析 | 数据分析思维

比照:成对地比较。

  • 横向比照:与『他人』比较,比方,两家公司的离任率。
  • 纵向比照:依照时刻维度与『自己』的比较,比方,一家公司去年和今年的离任率。

细分:对数据添加维度、下降粒度地剖析。

  • 分维度:添加维度,比方,离任率依照部分维度来剖析。
  • 下降粒度:下降数据聚合的程度,比方,离任率不按年份、而依照月份来核算。

溯源:在比照、细分确定到详细维度和粒度之后,仍然没有结论,那就需要检查原始数据,洞悉数据,从数据中寻找灵感。

一、数据『比照』

数据放在那里是没有意义的,只有将数据进行比较,才体现出数据剖析的价值。比照其实很简单,就是把A和B比较。可是,没有可比照性的比照一定是耍流氓。

图解数据分析 | 数据分析思维

1.1 目标的可比照性

目标的可比照性,能够从四个“共同”准则来评估:对象共同、时刻特点共同、界说与算法共同、数据源共同。

(1)比价对象共同

比较的对象共同。对象共同是可比的最基本准则,番茄的销量和猪的销量是不可比的,这其实就是由于比较的对象不共同。

(2)时刻特点共同

目标的时刻特点共同。 时刻特点比较特殊,对象所在的时节、月份等时刻特点要有可比性。例如,一家便利店冬天雪糕的销量,和夏季没有可比性,由于对象的时刻特点不同,但做销量的同比是能够的。

(3)界说和算法共同

对剖析对象的界说和核算方法共同。举个比如,青年的界说,我国国家核算局(15-34周岁)和我国共青团(14-28周岁)不同,当核算青年人数占总人数的份额时,二者核算的目标数据,肯定是不同的。

(4)数据源共同

核算的数据样本共同。

1.2 数据比照的“三要”

在做数据比照的相关剖析时,要记住三个“要”:比照要可比、差异要明显、描绘要全面。

(1)比照要可比

比照剖析要有可比性。

(2)差异要明显

组间差异要明显,组内差异要纤细。常用的明显性检验有T检验和方差剖析。

(3)描绘要全面

当刻画一组数据时,不仅要描绘这组数据的一般水平(均值),还要考虑到这组数据的波动水平。假如波动很大,一般水平对数据总体的代表性就会很差。只考虑一般水平而不考虑波动和差异,会使数据的可信度大大缩水。

二、数据『细分』

通过添加维度和下降粒度来细分数据,深挖数据,揭示数据中潜藏的规律。

图解数据分析 | 数据分析思维

2.1 添加维度

一个维度是数据表的一列。通常情况下,维度是指定性数据。例如,产品提供的服务的类型、用户散布的地域等。在剖析数据时,添加剖析的维度,改变看待问题的视角,能够在更细分的级别上剖析数据,洞悉到更多的知识,添加数据剖析的深度。

例如,新用户的留存率,通过添加获客来历的维度,能够监控各个来历的新用户的留存率,把有限的经费使用到真实能够带来有用转化的当地。

2.2 下降粒度

粒度是数据的聚合程度。颗粒度最小的数据,是没有聚合的原始数据。

举个比如,每日数据是原始数据,其粒度是日,数据的数量巨大;而每周的核算数据是对日数据的聚合,其粒度是周,数据的数量变成原来的1/7。

三、数据『溯源』

溯源,就是到细节数据中去,检查原始数据,反思用户的行为。在做数据剖析时,一定要明白你剖析得数据是二手的,仍是一手的。

图解数据分析 | 数据分析思维

  • 一手数据是最原始的数据,包括的内容最丰厚,但数据或许不标准。

  • 二手数据是通过处理的,乃至是剖析之后的数据,这些数据或许是片面的、阉割的、面向特定主题的,由此得出的剖析结果也或许有失公允。


资料与代码下载

本教程系列的代码能够在ShowMeAI对应的github中下载,可本地python环境运转,能科学上网的宝宝也能够直接借助google colab一键运转与交互操作学习哦!

本系列教程涉及的速查表能够在以下地址下载获取:

  • Pandas速查表
  • Matplotlib速查表
  • Seaborn速查表

拓展参考资料

  • 使用Python进行数据剖析第2版
  • w3schools pandas tutorial
  • Kaggle的pandas入门教程

ShowMeAI相关文章引荐

  • 数据剖析介绍
  • 数据剖析思想
  • 事务认知与数据初探
  • 数据清洗与预处理
  • 事务剖析与数据挖掘
  • 数据剖析东西地图
  • 核算与数据科学核算东西库Numpy介绍
  • Numpy与1维数组操作
  • Numpy与2维数组操作
  • Numpy与高维数组操作
  • 数据剖析东西库Pandas介绍
  • 图解Pandas核心操作函数大全
  • 图解Pandas数据变换高级函数
  • Pandas数据分组与操作
  • 数据可视化准则与方法
  • 根据Pandas的数据可视化
  • seaborn东西与数据可视化

ShowMeAI系列教程引荐

  • 图解Python编程:从入门到通晓系列教程
  • 图解数据剖析:从入门到通晓系列教程
  • 图解AI数学根底:从入门到通晓系列教程
  • 图解大数据技术:从入门到通晓系列教程

图解数据分析 | 数据分析思维