第一章:大数据——超越噱头
没有大数据,你就像盲人和聋子相同,置身于高速公路之中。 ——杰弗里摩尔
假如咱们正在玩职场宾果游戏,有很大的机会你能够经过划掉以下这些术语来赢得成功,这些术语你在曩昔三个月里或许在你的安排悦耳到过:数字化转型、数据战略、颠覆性洞悉、数据湖、数据仓库、数据科学、机器学习和智能。现在众所周知,数据是安排取得成功的要害要素,而依托数据和人工智能的安排显着胜过竞争对手。依据西格特赞助的IDC研讨,到2025年,捕获、搜集或仿制的数据量预计将添加到175ZB。这些捕获、搜集或仿制的数据被称为全球数据范畴。这些数据来自三类来历:
中心
传统或依据云的数据中心
边缘
硬化基础设施,如手机塔
终端
个人电脑、平板电脑、智能手机和物联网(IoT)设备
该研讨还猜测,到2025年,全球数据范畴中有49%将存储在公共云环境中。
假如你从前想过:“为什么需求存储这些数据?它有什么用?”答案十分简单。 将一切这些数据幻想成散落在全球各地的言语片段,每个片段都分享着一小部分信息,就像拼图的碎片。将它们有意义地拼接在一起,讲述的不只仅是告知,还或许改动企业、人们乃至国际运转办法的故事。大多数成功的安排现已运用数据来了解事务添加的驱动要素和顾客体会,并采取适当的举动;调查“出售途径”或顾客获取、选用、参加和保存现已成为产品出资的通用言语。这些类型的数据处理和剖析被称为商业智能(BI),归于“离线洞悉”。实质上,数据和洞悉关于呈现添加趋势十分重要,以便事务领导者能够采取举动;但是,这个作业流程与运转事务自身所运用的中心事务逻辑是分隔的。跟着数据渠道的老练度进步,咱们从一切客户那里得到的不可避免的信号是,他们开端接到更多关于在他们的数据湖上运转更多场景的恳求,真正坚持“数据是新的石油”的说法。
安排运用数据来了解事务添加的驱动要素和顾客体会。然后,他们能够运用数据设定方针并经过更好的支撑和新功用改善顾客体会。他们还能够创立更好的营销战略来推进事务添加,并经过进步功率下降产品和安排建设本钱。
星巴克是一家全球范围内存在的咖啡店,它在尽或许多的当地运用数据来继续衡量和改善事务。正如在这个YouTube视频中所解说的,星巴克运用来自其移动运用程序的数据,并将其与订购体系进行关联,以更好地了解顾客的运用方法并发送有针对性的营销活动。它在咖啡机上运用传感器,每隔几秒钟就会宣布健康数据,这些数据被剖析用于进步猜测性保护。它还运用这些联网咖啡机下载配方,而无需人为干预。
在全球刚刚开端应对COVID-19大流行病的一起,安排们许多运用数据,不只改动他们的事务,还衡量安排的健康和生产力,以协助员工保持联系并减少倦怠感。总的来说,数据还被用于像Zamba项目这样的拯救国际的倡议中,在非洲偏远丛林中运用人工智能进行野生动物研讨和保护,并运用物联网和数据科学创立循环经济,促进环境可继续性。
什么是大数据
之前说到的一切比方有一些共同之处:
- 这些场景阐明数据能够以多种办法进行探索和运用,并且在数据生成时,一般没有清晰的消费方法。
- 这与传统的在线事务处理(OLTP)和在线剖析处理(OLAP)体系不同,传统体系的数据是专门规划和策划的,用于处理特定的事务问题。
- 数据能够以各种形状和格局呈现:可所以从物联网传感器宣布的几个字节,交际媒体数据转储,来自事务线体系和联系数据库的文件,乃至是音频和视频内容。
- 大数据的处理场景大不相同,无论是数据科学、类SQL查询仍是其他定制处理办法。
- 研讨标明,大数据不只具有高容量,并且能够以不同的速度到达:可所以一次大规划的数据转储,例如从联系数据库中批量摄入的数据,也可所以继续流式传输的数据,例如点击流或物联网数据。 这些都是大数据的一些特色。
- 大数据处理指的是用于存储、办理和剖析数据的一组东西和技能,而不对数据的来历、格局或巨细做任何约束或假定。
- 大数据处理的方针是剖析许多的数据,其质量或许各不相同,并生成高价值的洞悉。之前说到的数据来历,无论是物联网传感器仍是交际媒体转储,其间都蕴含着对事务有价值的信号。例如,交际媒体信息中包含了顾客情感的方针:他们是否喜欢某个产品并在推特上发表了评论,或许他们是否遇到了问题并进行了抱怨。这些信号在许多其他数据中隐藏着,形成了较低的价值密度,你需求清洗许多的数据才干获取到少量的信号。在某些状况下,你或许根本没有任何信号。难如登天,听起来很难找到吧?
此外,独自一个信号或许并不能告知你太多信息;但是,当你将两个较弱的信号结合起来时,你会得到一个更强的信号。例如,来自车辆的传感器数据能够告知你刹车的运用频率或加速器的按压状况,交通数据能够供给交通方法,汽车出售数据能够供给有关谁买了什么车的信息。尽管这些数据来历各不相同,但稳妥公司能够将车辆传感器数据和交通方法相关联,树立起一个关于驾驭员安全性的档案,然后为安全驾驭档案的驾驭员供给较低的稳妥费率。
如图1-1所示,大数据处理体系使得许多数据的相关性成为或许,这些数据的价值密度各不相同(价值密度能够被视为信噪比),然后生成具有清晰高价值密度的洞悉。这些洞悉力气能够推进对产品、流程和安排文化的重要改动。
大数据一般以六个V来描绘。风趣的是,几年前咱们只用了三个V来描绘大数据:容量(Volume)、速度(Velocity)和多样性(Variety)。现在,咱们又添加了三个V:价值(Value)、真实性(Veracity)和可变性(Variability)。这标明在短短几年内,咱们发现了更多的维度。谁知道,也许在这本书出书时,或许会添加更多的V!现在让咱们来看一下这些V:
容量(Volume)
这是大数据中的“大”部分,指的是正在处理的数据集的巨细。当数据库或数据仓库说到超大规划(hyperscale)时,这或许意味着处理的数据量为数十或数百太字节(TB),在极少量状况下,乃至是拍字节(PB)。此外,您的数据集中或许有数千个列,这又添加了容量的另一个维度。在大数据处理的国际中,处理拍字节的数据更为常见,跟着越来越多的场景在数据湖上运转,更大的数据湖很简单扩展到数百拍字节。需求注意的是,在大数据中,容量是一个连续的谱。您需求具有一个对TB级数据运作杰出且能够扩展到数百拍字节的体系。这样,您的安排能够从小规划开端,并跟着事务和数据财物的添加而进行扩展。
速度(Velocity)
大数据生态体系中的数据具有不同的“速度”,即生成速度和移动速度以及改动速度。例如,幻想一下交际媒体上的趋势。尽管TikTok上的一个视频或许会迅速走红,但几天后它就彻底无关紧要了,为下一个趋势腾出了空间。同样,在健康护理数据方面,比方您的日常步数,尽管它在当时是衡量您活动的要害信息,但几天后它的信号价值就下降了。在这些示例中,您需求大规划地处理数百万乃至数十亿的事件,并在几乎实时生成洞悉力,无论是实时引荐抢手标签仍是离您的每日方针有多远。另一方面,有些状况下数据的价值会继续很长时刻。例如,出售猜测和预算规划严重依靠曩昔几年的趋势,并运用曩昔几个月或几年继续存在的数据。支撑这两种状况的大数据体系能够批量吸取许多数据并继续流式传输数据,并能够处理它们,让您在数据湖上运转各种场景并关联来自这些不同来历的数据,然后生成曾经不或许完成的洞悉力。例如,您能够运用同一体系依据长时刻方法和交际媒体的快速趋势来猜测出售。
多样性(Variety)
正如咱们在第一个V中所看到的,大数据处理体系能够习惯各种场景。要害在于支撑各种数据的处理。大数据处理体系能够处理数据而不对数据的巨细、结构或来历施加任何约束。它们供给了处理结构化数据(数据库表、LOB体系)的才干,这些数据具有界说清晰的表格结构和强大的确保,半结构化数据(以灵敏界说的结构为特征的数据,如CSV和JSON),以及非结构化数据(图像、交际媒体数据、视频、文本文件等)。这使您能够从有价值的源头获取信号(比方稳妥或抵押文件),而无需对数据格局做任何假定。
真实性(Veracity)
真实性指的是大数据的质量和来历。大数据剖析体系承受数据时没有对格局或来历做任何假定,这意味着并非一切数据都具有高度结构化的洞悉力。例如,您的智能冰箱能够发送一些字节的信息,指示其设备的健康状态,其间一些信息或许会由于完成办法而丢失或不完整。大数据处理体系需求包含数据预备阶段,在进行杂乱操作之前对数据进行检查、整理和整理。
变异性(Variability)
无论是巨细、结构、来历仍是质量,变异性是大数据体系的中心。任何用于大数据的处理体系都需求具有处理各种类型数据的才干。此外,处理体系能够依据需求界说数据的结构,这被称为按需运用方法。例如,假如您有包含数百个数据点的出租车数据的CSV文件,一个处理体系能够专心于源和意图地的值,而疏忽其他部分,另一个处理体系能够专心于司机身份和定价,而疏忽其他部分。这是最大的优势:每个体系自身都包含了谜题的一部分,将它们整合在一起能够揭示前所未有的洞悉力。我从前与一家金融服务公司协作,他们从各个县搜集了关于房地产和土地的数据;这些数据以Microsoft Excel文件、CSV数据导出或高度结构化的数据库备份的方法呈现。他们处理并汇总这些数据,生成了关于土地价值、房子价值和区域购房方法的优秀洞悉力,然后使他们能够适当地确认抵押借款利率。
价值(Value)
这或许现已在前面的观点中强调过了,但需求强调的最重要的V是大数据体系中的数据价值。大数据体系最好的一点是价值不只仅一次性存在。数据被搜集和存储,假定它对不同的受众有价值。数据的价值也跟着时刻的推移而改动,或许会由于趋势的改动而变得不相关,或许显示出曩昔具有先例的方法。让咱们以出售数据为例。出售数据用于推进收入和税收核算,以及核算出售员的佣金。此外,对出售趋势进行的剖析能够用于猜测未来趋势和设定出售方针。在出售数据上运用机器学习技能,并将其与看似无关的数据(如交际媒体趋势或气候数据)进行相关剖析,能够猜测出售中的共同趋势。需求记住的一件重要事情是,数据的价值跟着时刻的推移有或许贬值,这取决于您测验处理的问题。例如,包含全球气候方法的数据集在剖析气候趋势怎么随时刻改动时具有很大的价值。但是,假如您试图猜测雨伞的出售方法,那么五年前的气候方法就不那么相关了。
图1-2阐明晰这些大数据的概念。
弹性数据基础设施——应战
为了让安排能够完成数据的价值,存储、处理和剖析数据的基础设施有必要具有满意不断添加的数据量和多样化格局需求的才干。这种基础设施不只有必要能够存储任何格局、巨细和形状的数据,还需求能够吸取、处理和运用这种多样化的数据,提取有价值的洞悉力。
此外,这种基础设施需求跟上数据的扩散和不断添加的多样性,并且能够在安排需求添加、对数据和洞悉力的需求添加时弹性扩展。
云核算基础知识
现在,像云核算和弹性基础设施这样的术语现已如此遍及,以至于它们现已成为咱们日常言语的一部分,就像“问Siri”或“你在谷歌上查找了吗?”尽管咱们在听到或运用这些术语时不会停顿一下,但它们终究意味着什么,为什么它们是革新的最大潮流?在咱们深化探讨云数据湖之前,让咱们先略微了解一下云核算的基础知识。
云核算与安排传统上对待IT资源的办法有很大的改动。在传统的办法中,安排具有IT部分,该部分购买设备或设备来运转软件。这些设备可所以供给给开发人员和信息作业者的笔记本电脑或台式机,也可所以由IT部分保护并向安排其他部分供给拜访权限的数据中心。IT部分有预算来收购硬件,并与硬件供货商共同办理支撑。他们还有操作程序和相关的人力资源来装置和更新运转在这些硬件上的操作体系和软件。这带来了一些问题:硬件毛病威胁到了事务连续性,由于IT部分资源有限,装置和升级的办理约束了软件开发和运用,并且最重要的是,无法对硬件进行扩展,这阻碍了事务的添加。
云核算术语
简单来说,云核算能够了解为您的IT部分经过互联网供给核算资源。云核算资源自身由云服务供给商具有、运营和保护。云并非一概而论,也有不同类型的云:
公共云
公共云供给商包含微软Azure、亚马逊网络服务(AWS)和谷歌云渠道(GCP)等。公共云供给商具有保管在国际各地的机房中的许多核算机,并且能够让不同安排运用相同的基础设施(称为多租户体系)的核算资源。公共云供给商供给阻隔确保,以确保不同安排能够运用相同的基础设施,但一个安排不能拜访另一个安排的资源。
私有云
诸如VMware之类的供给商供给私有云,其间核算资源保管在彻底专用于一个安排的本地数据中心中。类比一下,能够将公共云供给商看作是一个商业综合体,能够在同一物理建筑中保管三明治店、面包店、牙医诊所、音乐课程和理发沙龙等各种不同的事务。另一方面,私有云就像一个彻底只为一所学校运用的学校建筑。公共云供给商也供给其服务的私有云版别。
您的安排能够运用多个云供给商来满意需求,这被称为多云办法。另一方面,一些安排挑选选用所谓的混合云,在本地基础设施上具有私有云,并运用公共云服务,依据需求在两个环境之间移动资源。图1-3阐明晰这些概念。
咱们现已谈到了核算资源,但它们终究是什么呢?云上的核算资源能够分为三个不同的类别:
基础设施即服务(IaaS)
关于任何服务,都需求一个最根本的基础设施,其间包含供给核算(处理)、存储(数据)和网络(衔接)功用的资源。IaaS 供给的是虚拟化的核算、存储和网络资源,您能够在公共云上创立自己的服务或处理方案,运用这些资源。
渠道即服务(PaaS)
PaaS 资源本质上是供货商供给的东西,运用开发人员能够运用这些东西构建自己的处理方案。这些 PaaS 资源能够由公共云供给商或专门供给这些东西的供货商供给。一些 PaaS 资源的比方包含作为服务供给的运营数据库,如微软的 Azure Cosmos DB、亚马逊的 Redshift、Atlas 的 MongoDB 或 Snowflake 的数据仓库,在一切公共云上都供给此服务。
软件即服务(SaaS)
SaaS 资源供给预先预备好的软件服务,经过订阅办法供给。您能够在任何当地运用它们,无需在核算机上装置任何内容,尽管您能够运用开发人员来定制处理方案,但也能够当即开端运用现成的功用。一些 SaaS 服务的比方包含 Microsoft 365、Netflix、Salesforce 和 Adobe Creative Cloud。
打个比方,假定您想要晚餐吃比萨。假如您挑选运用 IaaS,您将购买面粉、酵母、奶酪和蔬菜,自己制造面团,添加配料,然后烘烤比萨。您需求是一个烹饪专家才干做到这一点。假如您挑选运用 PaaS,您将购买一份预先制造好的比萨,然后将其放入烤箱中烤熟。您不需求是一个烹饪专家,但需求了解怎么操作烤箱,并注意确保比萨不会烤焦。假如您运用 SaaS,您将打电话给当地的比萨店,让他们将热腾腾的比萨送到您家。您不需求有任何烹饪专业知识,并且能够直接享用到比萨。
云核算的价值建议
我经常从客户和安排那里得到的一个最常见的问题是,为什么要首要转向云核算。尽管回报率或许是多方面的,但价值能够分为三个要害类别:
下降TCO(总具有本钱)
TCO指的是您保护的技能处理方案的总具有本钱,包含数据中心本钱、软件本钱以及雇佣人员办理运营所需的薪资。几乎在一切状况下,除了少量破例,与在本地布置在您的自有数据中心的处理方案比较,依据云构建处理方案的TCO明显较低。这是由于您能够专心于雇佣软件团队为您的事务逻辑编写代码,而云供给商则为您处理一切其他硬件和软件需求。下降本钱的一些要素包含以下内容:
硬件本钱
云供给商以较低的本钱具有、构建和支撑硬件资源,而不是您自己树立和运营数据中心、保护硬件以及在支撑完毕时更新硬件。此外,跟着硬件的进步,云供给商能够更快地供给新硬件,而不是您自己树立数据中心。
软件本钱
除了构建和保护硬件之外,IT安排的首要作业之一是支撑和布置操作体系并进行更新。一般,这些更新触及方案停机时刻,或许对您的安排发生搅扰。云供给商在不给您的IT部分添加担负的状况下负责处理这一周期。几乎在一切状况下,这些更新以抽象的办法进行,因而您不需求遭到任何停机时刻的影响。
按需付费 大多数云服务选用依据订阅的计费方法,这意味着您依照实践运用量付费。假如您的资源仅在一天的某个时刻段或一周的某些天运用,您只需支付该时刻段的费用,这比一直具有硬件要廉价得多,即便您不运用它。
弹性扩展 您事务所需的资源具有高度的动态性,有时需求为方案和非方案的运用添加资源。当您保护和运转自己的硬件时,您遭到现有硬件的约束,无法支撑事务的进一步添加。云资源具有弹性扩展的才干,您能够经过几次点击运用额外的资源迅速应对高需求。
跟上立异 云供给商不断立异,并依据从多个客户那里得到的经验为其服务添加新的服务和技能。运用先进的服务和技能,比较于具有内部开发人员或许缺少跨行业所需广度的状况下,有助于您更快地为事务场景立异。
云数据湖架构
要了解云数据湖怎么协助安排满意不断添加的数据需求,首要咱们需求了解几十年前数据处理和洞悉力是怎么运作的。曩昔,企业一般将数据视为处理事务问题所需的弥补。这种办法以事务问题为中心,包含以下过程:
- 确认需求处理的问题。
- 界说一个能够协助处理问题的数据结构。
- 搜集或生成契合结构的数据。
- 将数据存储在OLTP数据库中,如Microsoft SQL Server。
- 运用另一组转化(过滤、聚合等)将数据存储在OLAP数据库中;在这里也运用SQL服务器。
- 从这些OLAP数据库构建仪表板和查询来处理事务问题。
举例来说,当安排想要了解出售状况时,它会构建一个运用程序,供出售人员输入他们的潜在客户、客户和出售数据,而这个运用程序遭到一个或多个操作数据库的支撑。或许有一个数据库存储客户信息,另一个存储出售人员信息,还有一个存储出售信息,引用了客户和出售人员数据库。本地布置(称为“on prem”)有三个层次,如图1-4所示:
*企业数据仓库 *
这是数据存储的组件。它包含一个用于存储数据的数据库组件和一个用于描绘数据库中存储的数据的元数据组件。
数据集市
数据集市是企业数据仓库的一部分,其间包含以事务或主题为要点的数据库,其间的数据已预备好为运用程序供给服务。仓库中的数据经过另一组转化,以存储在数据集市中。
消费/商业智能(BI)
这包含BI剖析师运用的各种可视化和查询东西,用于查询数据集市(或仓库)中的数据以生成洞悉力。
本地数据仓库处理方案的局限性
尽管这种架构在为事务供给洞悉力方面效果杰出,但存在一些要害的局限性:
- 高度结构化的数据:这种架构希望数据在每个过程中都是高度结构化的。正如前面的示例所示,这种假定不再实际;数据能够来自任何源,例如物联网传感器、交际媒体信息和视频/音频文件,可所以任何格局(JSON、CSV、PNG等)。在大多数状况下,无法强制执行严格的结构。
- 数据存储的孤立:相同数据的多个副本存储在专为特定意图而规划的数据存储中。这是一个下风,由于存储相同数据的副本需求付出高昂的本钱,而来回仿制数据的过程既贵重又简单犯错,导致在仿制数据的过程中存在不一致的数据版别。
- 针对顶峰运用率的硬件规划:本地数据仓库要求安排装置和保护运转这些服务所需的硬件。当您预期需求激增时(例如财年完毕预算或假期出售猜测添加),您需求提前方案此顶峰运用率并购买硬件,即便这意味着一些硬件在其他时刻内处于低运用率状态。这会添加总具有本钱。请注意,这特指本地硬件的约束,而不是数据仓库和数据湖架构之间的区别。
什么是云数据湖架构?
正如咱们在《什么是大数据?》一文中所看到的,大数据场景远远超出了传统企业数据仓库的范畴。云数据湖架构旨在处理这些确切的问题,由于它们被规划来满意数据和数据来历的爆炸性添加需求,而无需对数据的来历、格局、巨细或质量做出任何假定。
与传统数据仓库选用以问题为先的办法不同,云数据湖选用以数据为先的办法。在云数据湖架构中,一切数据都被视为有用的,无论是当即运用仍是满意将来的需求。云数据架构的第一步是以原始、自然状态吸取数据,对数据的来历、巨细或格局没有任何约束。这些数据存储在云数据湖中,这是一个高度可扩展且能够存储任何类型数据的存储体系。这些原始数据具有不同的质量和价值,并且需求更多的转化才干生成高价值的洞悉。
如图1-5所示,云数据湖上的处理体系对存储在数据湖中的数据进行处理,并答应数据开发人员按需界说方法,即在处理时描绘数据。然后,这些处理体系对低价值的非结构化数据进行操作,生成一般是结构化且包含有意义洞悉的高价值数据。然后,这些高价值、结构化的数据能够加载到企业数据仓库中供运用,或直接从数据湖中运用。假如一切这些概念好像十分杂乱,无需忧虑——咱们将在第2章和第3章中具体介绍这些处理过程。
云数据湖架构的好处
在较高层面上,云数据湖架构经过以下办法处理了传统数据仓库架构的约束:
- 数据无约束:数据湖架构由专为吸取、存储和处理各种类型数据而规划的东西组成,并且不对数据的来历、巨细或结构施加任何约束。此外,这些体系能够处理实时连续发生的数据以及按方案批量吸取的许多数据。此外,数据湖存储本钱十分低廉,因而能够默许存储一切数据,而不必忧虑费用问题。回想一下,曾经运用胶卷相机摄影时或许会三思而后行,但现在运用手机相机能够毫不犹豫地点击拍摄。
- 单一存储层,无阻隔区:在云数据湖架构中,处理数据发生在相同的存储层,因而不再需求为特定意图运用专用数据存储。这不只下降了本钱,还避免了在不同存储体系之间来回移动数据时或许呈现的过错。
- 在同一数据存储层上运转多样化的核算:云数据湖架构天然地将核算和存储解耦,因而能够在同一存储层上运转各种数据处理核算东西。例如,能够运用相同的数据存储层进行类似数据仓库的商业智能查询、高档机器学习和数据科学核算,乃至是针对特定范畴的定制核算,如高功能核算(如媒体处理或地震数据剖析)。
- 按需付费:云服务和东西一直以依据需求弹性扩展和缩短的办法规划,能够按需创立和删去处理体系。这意味着在节假期时节或预算结算期间需求激增时,能够挑选发动这些体系,而无需将它们保存整年。这极大地下降了总体具有本钱(TCO)。
- 独立扩展核算和存储:在云数据湖架构中,核算和存储是不同类型的资源,它们能够独立扩展,然后使您能够依据需求扩展资源。云上的存储体系十分廉价,能够让您存储许多数据而不会让您债台高筑。比较之下,核算资源传统上比存储资源更贵重;但是,能够依据需求发动或中止核算资源,然后供给经济性的扩展。
以一种本钱效益的办法处理各种类型的数据的这种灵敏性有助于安排完成数据的价值,并将数据转化为有价值的革新性见地。
界说您的云数据湖之旅
我与数百个客户讨论过他们的大数据剖析场景,并协助他们完成了云数据湖之旅的部分作业。这些客户有不同的动机和问题需求处理:一些客户是云核算的新手,希望在数据湖方面迈出第一步;还有一些客户在云上施行了数据湖,支撑一些根本场景,但不确认接下来该怎么做;还有一些客户是云原生的用户,希望从运用架构的角度开端运用数据湖;还有一些客户现已在云上施行了老练的数据湖,并希望运用数据的力气供给与同行和竞争对手比较的差异化价值的下一个层次。假如我有必要总结我从一切这些对话中学到的东西,根本上能够归结为两个要害要素:
- 不管您的云老练度水平怎么,规划数据湖应考虑公司的未来。
- 依据您目前的需求做出施行挑选!
您或许会觉得这听起来太清楚明了和太遍及了。但是,在本书的其他部分中,您将会调查到我为规划和优化云数据湖供给的框架和指导,都是依据您不断将自己与这两个问题进行核对:
- 什么事务问题推进了对数据湖的决策?
- 当我处理了这个问题后,还能做什么来经过数据湖使我的事务具有差异化?
让我给您举一个具体的比方。唆使客户施行云数据湖的常见状况是,他们的本地硬件支撑的Hadoop集群行将到达寿数期限。这个Hadoop集群首要由数据渠道和商业智能团队运用,用于构建仪表板和数据立方体,其间数据来自他们本地事务存储体系。公司需求决定是购买更多硬件并继续保护本地硬件,仍是出资于这个咱们一直谈论的云数据湖。云数据湖承诺弹性弹性、更低的具有本钱、更多可运用的功用和服务,以及咱们在前面部分看到的其他好处。
当这些客户决定转向云时,他们面临一个时限,即硬件到达寿数时需求及时处理。因而,他们挑选了一种将现有的本地施行方案搬迁到云端的提高和搬迁战略。这是一种彻底合理的办法,特别是考虑到这些是为要害事务功用供给服务的生产体系。但是,这些客户很快意识到以下三个问题: 即便是进行提高和搬迁完成也需求许多作业量。 假如他们意识到云的价值并希望添加更多场景,他们会遭到规划挑选的约束,例如安全模型、数据安排等,这些规划开始假定数据湖上运转一组BI场景。 在某些状况下,提高和搬迁架构在本钱和保护方面或许会愈加贵重,然后抵消了开始的意图。
嗯,这很令人惊讶,不是吗?这些意外首要源于本地和云体系之间的架构差异。在本地的Hadoop集群中,核算和存储是共存且紧密耦合的,而在云上,理念是具有一个对象存储/数据湖存储层,例如Amazon S3、Azure Data Lake Store(ADLS)和Google Cloud Storage(GCS),并且供给许多的核算选项,能够作为IaaS(供给虚拟机并运转自己的软件)或PaaS(例如Azure HDInsight、Amazon EMR等)供给,如图1-6所示。在云上,您的数据湖处理方案本质上是您用乐高积木建立的结构,可所以IaaS、PaaS或SaaS的产品。
咱们现已看到了解耦合的核算和存储架构在独立扩展和下降本钱方面的优势;但是,这要求您的云数据湖的架构和规划尊重这种解耦合的架构。
例如,在云数据湖的施行中,核算体系经过网络体系与存储体系进行通信,而不是本地调用。假如您没有对此进行优化,会影响您的本钱和功能。类似地,一旦您完成了首要的商业智能场景的数据湖施行,您现在能够经过启用更多场景、引入不同的数据集或对数据湖中的数据进行更多的数据科学探索性剖析来从数据湖中获取更多价值。与此一起,您希望确保一个数据科学的探索性使命不会意外删去您的数据集,而这些数据集是为您的出售副总裁每天早上要查看的仪表板供给动力的。您需求确保您现有的数据安排和安全模型能够确保这种阻隔和拜访控制。 将这些令人惊奇的机会与您开始搬迁到云的动机联系起来,即您的本地服务器行将到达寿数期限,您需求制定一个方案,协助您准时完成,并为您在云上的成功做好预备。
您搬迁到云数据湖需求完成两个方针:
- 关闭您的本地体系
- 在云上为您的成功做好预备
大多数客户终究只关注第一个方针,在重新架构运用程序之前陷入巨大的技能债务中。当您考虑云数据湖架构时,请确保以下内容成为您的方针:
- 将数据湖搬迁到云端。
- 使数据湖现代化以习惯云架构。
这两个方针将携手助您识别出一个能够习惯事务日益添加的规划和需求的稳健架构。 要完成这两个方针,您需求了解云架构是什么,施行的规划考虑要素是什么,以及怎么优化数据湖的扩展和功能。咱们将在第2-4章中具体讨论这些问题。咱们还将要点供给一个框架,协助您考虑云数据湖之旅的各个方面。
总结
在本章中,咱们首要讨论了数据的价值建议以及能够改动安排的转型性见地。咱们还树立了对云核算的根本了解,以及传统数据仓库和云数据湖架构之间的差异。最终,咱们介绍了大数据、云核算和数据湖的概念。鉴于本地和云架构之间的差异,咱们强调了一种思维办法的改动的重要性,这种改动进而在规划云数据湖时界说了一种架构改动。当咱们深化探讨下一章中云数据湖架构及其施行考虑要素的细节时,我恳请您进行这种思维上的改动。这种思维革新是我在接下来的章节中深化讨论云数据湖架构及其施行考虑要素时强烈引荐您做出的一件事。