更多技能交流、求职机会,欢迎重视字节跳动数据渠道微信公众号,回复【1】进入官方交流群
数据来历广、量级大、场景多,导致数据之间联系变得异常杂乱。
经过读取、清洗、存储、计算等一系列流程之后,数据终究汇入目标、报表等服务体系中。但怎么对数据溯源、跟踪改变,成为困扰数据研发工程师的难题之一。
数据血缘描述了数据的来历和去向,以及多个处理过程中的转化,是组织内使数据发挥价值的重要根底才能。通过构建数据血缘图谱,能够直接明晰地调查表之间的上、下游依赖联系,乃至是特别场景下用户重视的表特点,更明晰检查数据链路和计算信息。
可是,要构建明晰、灵敏、便当的数据血缘图谱不是易事,特别是在数据量级大的状况下,往往面对层级联系杂乱、表使命紊乱、分组结构不清楚的问题。
在字节跳动内部,有一套支撑万级表血缘的联系展示图谱每天被近万名员工运用,已经沉淀为火山引擎 DataLeap“数据地图”才能,并对外输出。 通过供给快捷的找数、理本领服务,火山引擎 DataLeap 大大节约企业内部数据交流和建造成本。
那么。这套图谱究竟是怎么规划和完成的?
首要,笼统用户运用场景和需求。 经过内部场景的深度用户调研,火山引擎 DataLeap 笼统出如下需求:
-
表血缘联系检查:能从图中清楚浏览用户重视的表上、下游血缘联系,以及场景的表特点。
-
表血缘链路检查:能明晰检查某个上游/下游表到用户重视表的链路状况。
-
按要害目标分组检查:例如当表数据产生变更时,分组检查一切下游表的担任人以便告诉变更。
-
挑选要害信息检查:例如用户找数据目标的时候,仅看相关的报表更高效。
其次,在技能选型上,选用 React + Canvas 的混合模式来完成血缘图谱。 因为 Canvas 模仿滚动条研发成本高,与 HTML 相比,完成结构样式杂乱的节点定制较杂乱,但结合 React 框架烘托则能够轻松处理以上问题。因而,终究计划为:选用 Canvas 居于底部,仅担任画连线;React 担任烘托节点、呼应 hover 等交互。
最后,在计划规划和完成上,首要从检查联系的功率和特点完备度两个视点出发,完善以下才能:
-
为了处理数据量大状况下,数据联系不明晰的问题,火山引擎 DataLeap 支撑点击恣意节点,则高亮该节点到主节点的链路功用,并在列表顶部增加层级信息和节点计算,让用户能一起检查每个节点细节和节点全体散布。
-
当用户找数、理本领或进行归因剖析时,不仅要了解表的上游依赖,更需求了解表的加工逻辑。因而,火山引擎 DataLeap 在节点连线上新增使命信息,当用户 hover 连线即加粗、高亮并弹出使命信息,并匹配大数据开发渠道对应的使命链接,点击即可跳转检查。
-
在挑选功用上,火山引擎 DataLeap 选用服务端挑选,确保符合要求的数据全量展示。
-
不同功用的用户在不同场景下运用血缘图谱时,重视的节点特点不相同。火山引擎 DataLeap 血缘图谱上规划了特点展示功用,用户能够勾选自己感兴趣的特点直接显现到图中。
据介绍,火山引擎 DataLeap 能帮助企业快速完成数据集成、开发、运维、管理、资产、安全等全套数据中台建造,其中数据地图首要供给数据检索、元数据概况检查、数据了解等功用,处理找数难、理本领据难的痛点,一起支撑数据专题、血缘图谱、数据发现、库表管理等特征功用。
现在,火山引擎 DataLeap 的数据地图渠道已接入全链路中心元数据,包含 LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive 等,供给可视化的血缘联系展示才能,帮助用户全面的探查了本领据,支撑表、字段级别血缘可视化查询,以及按层级、范围挑选展示,可根据用户需求灵敏适配。
点击跳转 大数据研发管理套件 DataLeap 了解更多