大数据查找运用面对的挑战

企业的数据一般有两种类型:作业数据和剖析数据。前者在事务运行时运用和生成,支撑事务作业;后者在运营时运用和生成,支撑企业做商业决策。前者是后者数据的来历。

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

图表 1 :从作业数据到剖析数据

随着数字技能与事务场景深度交融,人、物被高速网络广泛联接起来,信息交流的速度在提高,数据的规划、复杂度到达不可思议的程度,这时企业会面对如下两个突出问题:

  1. 企业一般知道在哪一个事务环节生成了数据,但在最需求的时候却找不到。数据财物假如无法组织办理好,便是一片“数据沼地”,把原本优良的财物变成企业的负担。
  2. 数据技能还在快速开展迭代中,假如缺乏前瞻性的规划和系统考虑,就会因为技能限制导致在多个大数据引擎和AI引擎之间存在数据割裂的状况。事务人员需求在不同引擎间来回复制数据才能将数据用于剖析,导致重复存储和加工,不只增加了本钱,也大大降低了功能。

华为,因为流程IT和终端大数据的全面云化,华为云大数据处理的数据体量、运算量、事务复杂度在世界上绝无仅有,我们与客户一同探究处理最艰巨的数据集成办理的方法,让数据财物能“理得清”“找得快”,依据一份数据在多个剖析核算引擎间自在流转的能力,为完成AI和数据的交融剖析,本文将结合项目实践介绍数智交融元数据计划。

华为云数智交融元数据计划介绍

元数据中保存了数据的重要信息(如表名、字段名、时刻戳、版别、表大小、格式、拜访操控列表等)和相关联系(即数据的流动链路),在多云、跨事务范畴、不同系统下供给集中式的数据办理,能发现查找、快速理解、剖析数据。

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

图表2:某跨国互联网企业交融元数据计划

上图所示的某跨国互联网企业交融元数据计划针对大数据、数据仓库、机器学习等场景完成了 “五个一致”

一致目录:树立一致完好的数据财物清单,让企业能大局化透视化把握所拥有的数据财物。如图表2所示的一致Metastore Service,用一致的数据视图将大数据和AI引擎、数据剖析团队、办理员三方连接起来,让生产系统中大数据实时可视,所见即所得。一起,经过抓取/Hook等方法支撑异构数据源元数据的及时同步。

一致权限:树立一致的权限办理,让正确的人能操作正确的数据财物。如图表2所示的Metadata Admin,细粒度的权限办理,不只可以做到表级,还可以做到列级和行级权限操控;不只可以办理数据的权限,还可以办理AI模型的权限。权限系统与云上的IAM账号系统和认证系统打通,做到一次授权,所有用数场景都受控,简化办理员的权限办理作业。

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

图表3:一致权限办理

一致索引:树立一致的元数据索引和数据索引。元数据索引完成元数据功能的线性扩展,支撑百万级分区大表的低时延高并发拜访。数据索引使数据剖析时能准确定位数据方位,减少IO,提高功能。经过数据大脑剖析核算用户的数据日常用数行为,自动引荐合适应用场景的索引和物化视图,一起在用户的挑选下完成索引和物化视图的创建和增量改写,进一步提高每次数据拜访的hit rate(命中率)。

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

图表4:一致索引

一致事务:树立大数据、数据仓库、机器学习的ACID(原子性、一致性、隔离性和持久性)事务机制,让数仓开发人员、剖析师、数据科学家等多种用数角色在同一个牢靠的并发系统中协同作业。向用户供给多版别、多分支办理能力,用户可随时挑选运用前史版别做数据复现或模型复现,或做版别回退修正数据问题。一起依据强大的细粒度元数据办理能力,多版别复用一份底层存储,存储不膨胀,用户也可经过操控版别保留时长操控其整体存储本钱。

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

图表5:数据&模型多版别多分支

一致拜访记载:树立数据和AI模型链路的血缘办理,梳理清楚表格与表格之间、表格与模型之间的流调联系。如图表2“血缘、“拜访”、“核算本钱”所示,经过核算引擎中的实时感知,搜集各团队对数据和模型的拜访进程信息,可以做到数据在整个处理进程中的可追溯、可复现、可比照。在典型的数据链路中,每张数据表和模型在整个生命周期中耗费了多少本钱(即运用了多少核算存储资源),都将非常明晰地出现在事务运用者面前,用户可以依据投入产出比,剥离无效使命。例如,某实时报表占用了很多的剖析存储资源,而从事务视点来看隔天生成报表也没有影响,所以可以将Flink实时链路更改成Spark离线链路。在完好地记载信息,融入事务知识后,交融元数据会让企业有一笔明晰明确的用数账本和优化计划。

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

图表6:典型的数据链路

交融元数据本质上是对数据运用的指引和操控,是一个系统考虑的进程,而不是一个单一的活动。因而,杰出的元数据办理需求一起结合事务经历和技能开展。

时下,华为云也在结合本身和客户的诉求,探究如何平衡功能与本钱、降低用数门槛、洞察不知道等等。我们希望打破存储与核算、多个引擎间的“数据墙”,让一份数据贯穿始终,处理“数据搬迁”带来的功能和一致性问题;像办理代码一样办理数据和模型,让数据与AI开发高效无缝互通,在AI算法的加持下,让数据的价值无限开释;赋数以智,让数据办理走向自动化,降低数据研制本钱,让各个系统可以“对话”,处理“数据孤岛”现象。

交融元数据正是处理这些问题的根底,它将为企业数据和数据目录供给一致视图,为数据应用程序、数据工程师、数据科学家和事务运营供给数据服务,在面对海量数据的事务场景中、在无止境的数据办理探究道路上,向企业伙伴展示一幅明晰的地图。

点击关注,第一时刻了解华为云新鲜技能~