更多技能交流、求职机会,欢迎关注字节跳动数据渠道微信公众号,回复【1】进入官方交流群

日前,火山引擎数智渠道 VeDI 直播活动「超话数据」在线举行,来自火山引擎 DataLeap 数据产品专家从数据管理与管理,企业数智化晋级等角度,同享了 DataLeap 在字节跳动内的管理经历和实践。

DataLeap 是火山引擎数智渠道 VeDI 旗下的大数据研制管理套件产品,协助企业快速完结数据集成、开发、运维、管理、财物、安全等全套数据中台建设,进步数据研制功率、下降管理本钱,自 2022 年推出至今,DataLeap 供给的数据研制管理才能已连续被多个行业企业所采用。

本次同享主要环绕以下几个方向展开:

  1. 数据管理是数据中台中心才能之一
  2. 一站式数据管理赋能企业数字化转型
  3. 根据字节经历的数据管了处理方案
  4. 以「在线教育」场景为例,解读数据管理实践

十分钟读懂火山引擎 DataLeap 数据治理实践

企业数字化晋级事务场景及痛点

1、数据孤岛

一种情况是海量数据涣散在各处且形状各异,形成集成困难;另一种情况则是批量数据和实时数据的集成技能不同,导致集成难度。

2、需求呼应慢

一般数据开发的需求是支撑事务,但一般一个需求从提出到到沟通到交给,周期是 2 周以上,甚至更长,会影响到事务的一些敏捷度。其次数据的需求欠好复用,也会涉及到像重复开发以及浪费资源的情况。

3、数据质量差

第三个痛点是数据质量差,由于数据的杂质比较多、质量欠好,清洗难度大,当出现口径不一致的时,会影响到数据产出的时效。

4、财物同享难

终究一个是数据财物的同享难,一般企业有让数据财物可以沉积,可以同享的诉求。如果是遇到源数据不完善,用户无法找到数据,同时短少有效的常识系统的一些沉积,对数据价值的发掘也是一个难点。

十分钟读懂火山引擎 DataLeap 数据治理实践

火山引擎数据中台处理方案

一站式大数据研制管理渠道

火山引擎现在供给的数据中台处理方案由两部分组成:一站式的大数据研制管理渠道+大数据的渠道。一站式的研制管理渠道,它主要处理的包含数据的整合,支撑多元异构的数据的接入。其次是数据的全链路研制管理,包含支撑多引擎以及对接各式各样的 DATA、OPS、 CICD 的才能。第三层是全生命周期的管理,包含到质量基线、 SLA 等等。一站式的大数据研制管理渠道第四层是数据安全同享,供给向细粒度的数据权限管控和审批。

大数据渠道

大数据渠道是一个底座,供给的是数据的存储和核算才能,支撑像 TB 到 PB 级的离线,实时检索各种场景。它有两个引擎,一是根据开源 Hadoop 生态的 EMR,支撑数据湖场景,二是火山引擎自研的湖沧一体剖析服务 LAS,兼容开源生态,支撑数据仓库 &数据湖场景。

十分钟读懂火山引擎 DataLeap 数据治理实践

大数据研制管理套件 DataLeap 产品架构

全链路的数据研制

全链路的数据研制,包含数据源、数据集成、数据处理、数据服务等全流程。为了进步数据开发功率,DataLeap 还供给支撑数仓标准建模、代码检查的发布中心,以及支撑使命运维、数据回溯的运维监控。

全域管理

全域管理,包含管理规划、进度管控到管理收益反应全流程才能,支撑用户完结 SLA 管理、数据质量、数据安全、本钱管理以及报警管理等工作。

财物地图

财物地图,主要是支撑数据财物沉积、数据同享以及数据复用。

十分钟读懂火山引擎 DataLeap 数据治理实践

要害才能 1:一站式数据研制全链路管理

一站式的数据研制全链路管理,主要面向研制场景,掩盖从需求规划到开发、测试、发布、验收、运维等全部流程。

首先能供给稳定、安全、高效的数据集成服务,支撑 20 +以上多元异构数据集成;其次能供给一站式、全栈数据研制服务,兼容 Spark、Flink 等多种核算引擎,供给 HSQL、Spark、Python、Flink 、SQL、Notebook 等 10+数据开发才能;终究是全面的运维才能,丰厚的批、流使命监控规则,归类事务运维管理,监控全链路使命运转。

十分钟读懂火山引擎 DataLeap 数据治理实践

要害才能 2:数据全生命周期管理-分布式数据自治

第二个要害才能是全生命周期的数据管理,也可称为“分布式数据自治”。分布式数据自治场景包含稳定性、质量、安全、本钱优化等内容。

在产品层面,火山引擎 DataLeap 供给规划式管理、管理诊断以及管理之后的方针验收和复盘,还具有 SLA 数据安全资源优化等功能。

十分钟读懂火山引擎 DataLeap 数据治理实践

要害才能 3:数据财物发现及细粒度权限管控

第三个要害才能是数据财物发现以及细粒度权限管控,它主要是供给了痊愈的数据收集,根据血缘可以展示出来一切的元数据,可以发掘数据价值,可以找数、用数等。数据财物供给了强大的检索才能。并且 DataLeap 有很丰厚的元数据的概况信息,结合数据血缘,协助用户可以全面地探究和了解各式各样的数据内容。

DataLeap 供给事前、事中、过后这种全方位的数据安全保证,做到最小授权原则,同时供给强大的数据审计才能,包含权限审计、行为审计等等。

十分钟读懂火山引擎 DataLeap 数据治理实践

中心优势

第一是 DataLeap 是可以和多云多引擎开源兼容的一个大数据管理渠道的软件产品,刚才说到的像 EMR 、LAS 这种渠道。 从产品形状上来看,DataLeap 供给公有云的 SaaS 以及私有化多云部署的才能。在研制上,完结了研制全链路掩盖,这是一整套完善的才能。第三是字节特色的分布式数据自治, SLA 细粒度的权限管控,事中事前、事中过后的全生命周期的数据管理的才能。第四个优势是数据财物、地图同享,供给数据专题,指标渠道、数据血缘链路追寻、数据服务,协助建立企业级数据财物系统和数据同享。

客户事例同享

以得到 APP 为例,得到面临事务数据不稳定、数仓短缺标准性等管理问题。

通过引进数据 BP 机制,结合专家咨询,火山引擎 DataLeap 帮客户建立可持续的管理系统。在提效方面,协助得到推荐以及落地数据质量和 SLA 达成率,处理了产出延迟和脏数据的问题,明显的进步了数据毛病的处理功率,即从 3 天降为 1 天。同时,DataLeap 帮得到沉积出一个标准化数仓,构建出八个事务域,使得数据地图的完整度进步,并进步了找数、用数功率。

从实施效果上来讲,得到团队完结从 0 到 1 的数据管理系统建立,终究完结数据研制提效 50% ,使得 4 人数仓团队管理超过 3000 个数据使命,数仓易用性也进步 60%。

点击跳转 大数据研制管理套件 DataLeap 了解更多