跟着互联网运用的广泛开展和数据规模的不断增长,传统的数据处理方法现已无法满足对海量数据的存储、处理和剖析需求,因而呈现了大数据技能栈。大数据技能栈是指用于存储、处理和剖析大规模数据的一系列工具、框架和平台。它可以帮助我们从海量的数据中提取有价值的信息,支持事务决策和立异开展。

Google的三篇论文 GFS(2003),MapReduce(2004),Bigtable(2006)为大数据技能奠定了理论基础。随后,根据这三篇论文的开源完成Hadoop被各个互联网公司广泛运用。在此过程中,无数互联网工程师根据自己的实践,不断完善和丰富Hadoop技能生态。通过十几年的开展,如今的大数据技能生态已相对老练,环绕大数据运用建立的平台架构和技能选型也逐步趋向一致。

下图是大致的技能栈结构图

数据剖析 学习笔记  索引

数据剖析技能栈和架构设计

Hadoop 学习笔记