更多技术交流、求职时机,欢迎关注字节跳动数据渠道微信公众号,回复【1】进入官方交流群

当一家公司的日均处理的数据流量在 PB 等级时,巨大的任务量和数据量会对消息行列(MQ)dump 的稳定性和准确认带来极大的应战。

针对这一问题,火山引擎数智渠道推出的大数据研制管理套件 DataLeap,可认为企业供给完好处理计划,协助处理 MQ dump 在极点场景中遇到的数据丢失问题。

例如,当 HDFS(一种分布式文件系统)集群某个元数据节点因为硬件毛病而宕机。那么在该元数据节点停止半小时后,运维工程师尽管能够经过手动运维操作将 HDFS 切到主 backup 节点,使得 HDFS 康复服务。但毛病康复后, MQ dump 在毛病期间可能有数据丢失,产出的数据与 MQ 中的数据不一致的情况。

此时,技术人员能够在收到数据不一致的反馈后,立即凭借火山引擎 DataLeap 进行毛病排查。

目前,火山引擎 DataLeap 基于开源 Flink,已经完成了流批一体的数据集成服务。经过 Flink Checkpoint 的功用,Flink 在数据流中注入 barriers 将数据拆分为一段一段的数据,在不停止数据流处理的前提下,让每个节点能够独立创建 Checkpoint 保存自己的快照。

每个 barrier 都有一个快照 ID ,在该快照 ID 之前的数据都会进入这个快照,而之后的数据会进入下一个快照。

数据丢失不用怕,火山引擎 DataLeap 提供排查解决方案

在排查过程中,火山引擎 DataLeap 基于对 Flink 日志查看以及 HDFS 元数据查看,能够率先定位症结所在:删除操作的重复执行造成数据丢失。进一步解释就是,在毛病期间,写入数据前的删除操作在 HDFS NameNode 上重复执行,将写入的数据删除造成最终数据的丢失。

溯源后,用户能够经过火山引擎 DataLeap 挑选运用文件 State(当前的 Checkpoint id 和 task id)处理该问题,运用文件 State 前后处理流程比照如下图所示:

数据丢失不用怕,火山引擎 DataLeap 提供排查解决方案

运用文件 State 后,在 Notify 阶段与 HDFS 交互的 metrics(打点监控系统)的平均处理时刻减少了一半。

目前,企业均能够经过火山引擎 DataLeap 体验到上述 Flink Checkpoint 实践与优化计划,提升数据价值交给中的功率和质量。

点击跳转 大数据研制管理DataLeap 了解更多