从流批一体、湖仓一体、NoETL、数据中台到DataOps,现代数据剖析范畴热词迭出,企业如何捉住本质,运营数据生产力以提质增效?
9月26-27日,ArchSummit全球架构师峰会杭州站举办,网易副总裁、网易杭州研究院履行院长、网易数帆总经理汪源受邀在会上发表主题讲演,浅显易懂地剖析了现代化数据剖析架构中最值得关注的三条主线,包含一致的基础设施、一致的中心层和一致的数据财物,并介绍了国内外的相关技能完成。

一致的基础设施:流式湖仓,Iceberg+Arctic将成中心

一致的基础设施要处理四大问题:湖仓一体、流批一体、标准格局和存算分离——不仅是文件格局,还包含表格局。汪源表明,理想的一致基础设施是流式湖仓的基础设施,即湖仓和流批都做到一体。除了最底层的目标存储,现在已有可用的开源完成。
一致的基础设施包含六层架构。最底层是存储层,往上是Parquet文件格局层,中心加了缓存加速层,用来补偿上层需求和底层目标存储之间的功能距离,现在呈现的有Alluxio、JuiceFS、CurveFS,其间CurveFS是网易数帆开源的一个文件存储系统。

最中心的是最近两三年呈现了两个新的层次,一个是表格局(table format),如Iceberg、Hudi,一个是表服务(table service),如Arctic。这两个层次可以让底层大数据系统支撑湖仓一体、实时更新、版别一致性、ACID等等,之前的大数据没有这些功用,所以它无法做一些实时的剖析服务,只能做T+1的剖析。最上层是剖析引擎层。
汪源以为Iceberg是最有期望成为table format标准的项目。Iceberg从数据层面供给了ACID的才能,而且可以读到任何时间点的数据;第二个从元数据层面处理了HMS功能瓶颈,把本来集中式的元数据变成了分布式的元数据,而且相当于给数据构建了一个多级的索引,可以支撑高级过滤,这能处理许多问题。比方大数据场景常见千万甚至亿级文件的查询,根据Hive的查询启动可能要花20分钟,而Iceberg可以做到一分钟以内,这是一个十分夸大的前进。
Arctic由网易数帆于2022年8月宣告开源,但在网易数帆内部研制现已将近三年。Arctic主要用来协助Iceberg把全体的技能系统构建完整,由于Iceberg只是一种格局,无法单独形成面向剖析功能最优化的状态。Arctic首先供给了根据Iceberg的自优化的才能,以及upsert的功用,支撑高效的数据更新。其次支撑流批一体,流表和批表界说一致,可以复用。最终是兼容Hive和Iceberg,从而可以快速落地。
汪源以为,今天由Iceberg和Arctic共同构建的这一层会成为一个新的现实的标准,在它下面有不同的存储,在它上面有不同的核算系统。“这个中心基本上胜出的只有一家,不行能有多家,否则这个技能栈就紊乱了。”

一致的中心层:数据仓库+HeadlessBI

数据剖析的过程,理想的状态是理论大师们规划的路线:在数据仓库里边做好了一切的数据转化,每一个团队用很好的BI东西只做数据的展示和交互,一切的核算逻辑应该都在数仓里边完结。但实际上每一个团队都会在自己的BI里边去做许多的核算逻辑,这是数据仓库的核算逻辑不够用,导致核算逻辑涣散的问题。汪源指出,我们在不同的BI产品中看到的数据口径和结果的差异,就是由涣散的核算逻辑带来的。
处理该问题的“我国计划”是数据中台,经过OneData、OneService、OneID,处理目标口径不一致的问题,一切的口径界说、核算逻辑都在中台做好。数据中台包含了数据仓库,在数据仓库界说了一套标准的目标层,包含原始目标、派生目标、复合目标。上面是数据服务层,供给一切对外的数据。一起又引入了数据办理来保证中台输出的数据契合质量和安全要求。

世界计划包含三个中心概念:Semantic Layer、HeadlessBI和Metric Layer。汪源以为最恰当的描述是HeadlessBI,以国外的Cube产品规划为例,数据输入来自左边的各种数仓,中心HeadlessBI要做的是数据建模、安全相关的拜访操控、功能加速,最终以API的方法供给给右边的下游消费者,主要是BI东西以及嵌入式的剖析。

在这个方向上,网易数帆着重的是开发和办理一体化,在建数仓、建目标等开发活动的过程中把数据办理同步完结,让目标、模型等继续坚持高质量。此前,网易数帆发现许多客户先找开发的计划来做开发,做完之后发现数据质量不佳,又去做数据办理的项目。汪源表明,在开发环节一起把开发办理做好了,就不会有这样的后遗症。

汪源对一致的中心层的期待,包含数据仓库和HeadlessBI两层,后者能做建模,包含目标,做权限、加速和服务,一起把开发和办理一体化,经过一致的模型目标核算逻辑和口径,完成事前事中过后的继续办理。这样BI层可以真实聚集在展示和交付上,汪源将其命名为“NecklessBI”,与HeadlessBI对应。

汪源还着重,在此过程中,ETL不会被消除,它只能被转移或躲藏,由于从数据源到剖析所需求的数据一定是有许多不匹配的,比较现实的是做ETL的自动化,即AutoETL。

一致的数据财物:Data Fabric已落地

数据财物办理面对的问题,是数据找不到,找到了看不懂,看了之后信不过、不敢用,管不牢等。汪源以为比较可行的思路就是剖析机构提出的Data Fabric,它的意图是完成数据的整合使用,它是一个架构思维或许规划理念,并不绑定一个特定的技能完成。

Data Fabric和其他数据整合使用的方法有明显的差异:数据仓库或许数据中台,比较着重数据的集中,一起也着重数据比较深度的预加工。数据湖着重数据的集中,可是它着重数据不要做太多的预加工,应该按照原始的数据格局都存在湖里边,需求的时候再把它拿出来处理。Data Fabric则着重元数据的集中。
Data Fabric的实际落地需求构建四个方面的中心才能,包含连接数据源、自动元数据(active metadata)、数据虚拟化和逻辑数据湖。汪源以为数据虚拟化能最大程度发挥Data Fabric的才能,由于它可以在数据没有完结集中之前就可以做一定程度的使用,但并非一切的数据剖析都可以根据数据虚拟化来做。网易数帆现已落地的逻辑数据湖,也是Data Fabric的一种完成,它从逻辑上看是一个湖,可是从物理完成上数据仍是涣散存储在Hadoop、Oracle、MySQL等系统里边。

总结

整体来说,现代数据剖析技能的三大主题,第一个是构建一个一致的基础设施,可以支撑实时数据更新与消费,而且是开放、低成本的流式湖仓基础设施。第二个是一致的中心层,包含数据仓库和HeadlessBI两个层次,要做到一致的模型、目标、核算逻辑和口径,并完成事前事中过后继续的数据办理。第三个是一致的数据财物,意图是企业全域数据财物的高效的发现、整合和办理,它在完成上可以兼容各种风格的数据处理技能。
“我期望整个职业可以往这些方向去聚集,不要产生太多的相互分裂的概念。”汪源说。

【点击了解更多网易技能】

本文来历:汪源:数据剖析热词迭出,“三个一致”值得关注