听说火山引擎推出的 DataLeap，已经可以支持万级表的数据血缘图谱了！-六虎

更多技能交流、求职机会，欢迎重视字节跳动数据渠道微信公众号，回复【1】进入官方交流群

数据来历广、量级大、场景多，导致数据之间联系变得异常杂乱。

经过读取、清洗、存储、计算等一系列流程之后，数据终究汇入目标、报表等服务体系中。但怎么对数据溯源、跟踪改变，成为困扰数据研发工程师的难题之一。

数据血缘描述了数据的来历和去向，以及多个处理过程中的转化，是组织内使数据发挥价值的重要根底才能。通过构建数据血缘图谱，能够直接明晰地调查表之间的上、下游依赖联系，乃至是特别场景下用户重视的表特点，更明晰检查数据链路和计算信息。

可是，要构建明晰、灵敏、便当的数据血缘图谱不是易事，特别是在数据量级大的状况下，往往面对层级联系杂乱、表使命紊乱、分组结构不清楚的问题。

在字节跳动内部，有一套支撑万级表血缘的联系展示图谱每天被近万名员工运用，已经沉淀为火山引擎 DataLeap“数据地图”才能，并对外输出。 通过供给快捷的找数、理本领服务，火山引擎 DataLeap 大大节约企业内部数据交流和建造成本。

那么。这套图谱究竟是怎么规划和完成的？

首要，笼统用户运用场景和需求。 经过内部场景的深度用户调研，火山引擎 DataLeap 笼统出如下需求：

表血缘联系检查：能从图中清楚浏览用户重视的表上、下游血缘联系，以及场景的表特点。
表血缘链路检查：能明晰检查某个上游/下游表到用户重视表的链路状况。
按要害目标分组检查：例如当表数据产生变更时，分组检查一切下游表的担任人以便告诉变更。
挑选要害信息检查：例如用户找数据目标的时候，仅看相关的报表更高效。

其次，在技能选型上，选用 React + Canvas 的混合模式来完成血缘图谱。 因为 Canvas 模仿滚动条研发成本高，与 HTML 相比，完成结构样式杂乱的节点定制较杂乱，但结合 React 框架烘托则能够轻松处理以上问题。因而，终究计划为：选用 Canvas 居于底部，仅担任画连线；React 担任烘托节点、呼应 hover 等交互。

最后，在计划规划和完成上，首要从检查联系的功率和特点完备度两个视点出发，完善以下才能：

为了处理数据量大状况下，数据联系不明晰的问题，火山引擎 DataLeap 支撑点击恣意节点，则高亮该节点到主节点的链路功用，并在列表顶部增加层级信息和节点计算，让用户能一起检查每个节点细节和节点全体散布。
当用户找数、理本领或进行归因剖析时，不仅要了解表的上游依赖，更需求了解表的加工逻辑。因而，火山引擎 DataLeap 在节点连线上新增使命信息，当用户 hover 连线即加粗、高亮并弹出使命信息，并匹配大数据开发渠道对应的使命链接，点击即可跳转检查。
在挑选功用上，火山引擎 DataLeap 选用服务端挑选，确保符合要求的数据全量展示。
不同功用的用户在不同场景下运用血缘图谱时，重视的节点特点不相同。火山引擎 DataLeap 血缘图谱上规划了特点展示功用，用户能够勾选自己感兴趣的特点直接显现到图中。

据介绍，火山引擎 DataLeap 能帮助企业快速完成数据集成、开发、运维、管理、资产、安全等全套数据中台建造，其中数据地图首要供给数据检索、元数据概况检查、数据了解等功用，处理找数难、理本领据难的痛点，一起支撑数据专题、血缘图谱、数据发现、库表管理等特征功用。

现在，火山引擎 DataLeap 的数据地图渠道已接入全链路中心元数据，包含 LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive 等，供给可视化的血缘联系展示才能，帮助用户全面的探查了本领据，支撑表、字段级别血缘可视化查询，以及按层级、范围挑选展示，可根据用户需求灵敏适配。

点击跳转大数据研发管理套件 DataLeap 了解更多

听说火山引擎推出的 DataLeap，已经可以支持万级表的数据血缘图谱了！

相关文章

《Delta Lake Up & Running》第三章：Delta表的基本操作

单例模式

2022年一路荆棘一路歌，2023继续在路上

李宏毅机器学习笔记——误差和梯度下降

作者信息