导读:经过十多年的开展, 数据办理 在传统职业以及新兴互联网公司都现已产生落地实践。字节跳动也在探索一种分布式的数据办理方法。本篇内容来源于 火山引擎 超话数据直播活动的回顾,将从以下四个部分打开同享:

  • 字节的应战与实践
  • 数据办理的开展与分布式
  • 分布式自治架构
  • 分布式自治中心才能

字节的应战与实践

首要来看一个问题:“一家公司,数据系统要怎样树立?”

  • 方案一: 整体规划,系统架构驱动
  • 方案二:问题动身,事务价值驱动

在字节跳动,咱们挑选的是方案二,即从事务遇到的问题动身,注重落地成果与事务进程,去处理实践的办理问题。

依据这个理念,在数据办理进程中,字节跳动也面对以下三个应战与机会:

事务特征: 事务开展快、场景丰富、数据量大且形状各异。 事务的线上服务及立异,都对数据有较强的依靠,中心事务数据推迟,质量问题将直接影响事务体现及开展。

安排特征 :扁平化的安排形式, 分布式 的安排办理 无行政手法或强安排约束,也无大局办理委员会,且数据从收集到运用悉数的生产流程,没有大局规范,事务团队需求自主拟定战略并落地。

文化特征 OKR拆解与对齐文化 事务团队有足够的方针界说与拆解权限,且任何人都或许有动机、有人物、甚至有权限去进行数据办理,导致数据办理的事务流程杂乱

字节数据办理演进阶段

字节数据办理演进阶段分为6个阶段:

  1. 事务榜首准则: 坚持事务榜首准则,处理事务实践遇到的办理痛点
  2. 优先安稳建造 优先处理交给安稳,确保数据链路与产出安稳,削减交给推迟
  3. 确保数据质量 中心链路质量管控,装备强质量规矩,主动熔断,避免全链路数据污染;加强事前检查,从源头加强质量操控;完善过后点评,为每一张表树立健康档案,继续改进。
  4. 注重数据安全 冗余权限辨认,消除授权危险;数据分类分级,危险界说与多战略操控,削减安全危险
  5. 注重本钱优化 依据多种规矩的与齐备的办理元数仓,供给低门槛的办理产品才能,快速优化存储
  6. 进步职工幸福感 在帮忙事务完结数据办理的后,还需求考虑团队的负载压力,报警办理,下降职工起夜率;归因剖析,快速排查修正毛病。

在这里,再介绍字节特征的“0987”量化数据服务规范。这四个数字分别指的是:安稳性 SLA 中心方针要到达 0 个事端,需求满足率要到达 90%,数仓构建掩盖 80% 的剖析需求,一起用户满意度到达 70%。依照这个高规范来要求自己,一起这也是一种自监管的机制,能够有用的防止自嗨,脱离事务需求和价值。

字节的部分场景实践

下面经过两个比方为咱们介绍数据办理在字节的场景实践。

事例一:

  • 问题:字节跳动内部2019年到2020年间,双月内事端数量较多,对事务构成必定影响,且收敛困难,每天都有告警、起夜、对正常开发进度构成影响。
  • 处理方案: 采用了分布式用户自治的SLA办理,经过数据分级确保方针办理,在各事务内部进行【拉齐链路-数据分级-广泛一致-系统办理】的行动闭环,系统化确保方针传递和落地。
  • 作用: 截止2020年中,事端以每双月30%环比下降,在1年内到达安稳性问题彻底收敛。

事例二:

  • 问题:抖音的实时数仓办理人员的精力涣散,以被迫的运动式、“救火”式的工作形式为主。协同功率低,人力投入巨大,短少可继续性。
  • 处理方案: 掩盖质量、本钱、SLA、安全等办理方向,以事务点评系统,构建办理方案进行例行确诊,对存量问题进行辨认和派发,构成一套【点评->辨认->规划->履行->复盘】事务内部分布式自治的办理机制。
  • 作用: 从21年至今,办理人员的精力彻底从”运动式“办理的形式中解放出来,更多精力会会集在监督履行与规矩优化中,团队起夜率下降30%。质量确保掩盖率到达100%。双月存储优化均在20+PB。

数据办理的开展与分布式

众所周知,有许多机构都同享了对数据办理的界说,这里简单同享一下

国际数据办理协会(DAMA): 数据办理是对数据财物办理行使权力和操控的活动集合

IBM:数据办理是对企业中的数据可用性、相关性、 完整性和安全性的全面办理。它帮忙安排办理 他们的信息知识和作为决策依据

维基百科对数据办理的界说:数据办理是一个涉及全体安排的数据办理概念,经过数据办理,确保在数据的整个生命周期中拥有高数据质量的才能,也是对事务方针的支撑。数据办理的关键的重点领域包含可用性、一致性、数据完整性和数据安全性,也包含树立流程来确保整个企业施行有用数据办理。

在传统的数据办理方法论与界说中,留意到他有以下共性特征,一起也是现在大多数公司的实践途径,即:

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

但是在实践的履行进程中,他需求以下几个前提和随之带来的落地难点

  1. 需求明晰安排准则

收拾事务数据部分,建立公司等级数据办理委员会/部分,各事务分设履行部分,公司内各事务宣导评论,一致拟定公司数据办理规章准则

难点一:安排依靠重、建造周期长。需求招聘大量专业的办理专家或引进外部咨询机构,方案拟定周期长;专设部分牵头,若无自顶向下的项目布景,事务协调对齐困难。

  1. 需求明晰权责办理

收拾公司数据财物,迁移、拆分、事务改造。确保财物归属与办理权责明晰,定时收拾财物类目,保护财物元数据的有用性,确保办理鸿沟明晰

难点二:事务影响大,方针对齐难。需完结存量的财物归属区分、改造生产开发系统,对增量定时人力打标,确保财物归属与权责鸿沟明晰,因或许事务系统改造,会对事务开展构成影响

  1. 需求进行复盘抽查

办理安排定时检查各事务办理进程是否契合公司办理准则,定时检查各项办理成果是否落地,线下复盘与推进不契合预期的办理进程

难点三:沟通本钱高,履行推进难。如何拟定适用于不同事务特征与开展阶段的团队的办理点评系统,各团队是否认可点评规范。

为了处理以上三个问题,咱们有些新的思考,即引进「分布式」的理念。

Governance一词在本源上同Government,1990年代被经济学家和政治科学家从头创造,由联合国、世界货币安排和世界银行等机构进行传播。其中心有以下两种论说:

榜首个论说:规范与规范。 指的是必定规模内的一致的办理,一致的方针,某一责任区辅导以及适宜的监管和可问责机制。这种行政力的会集化办理存在一些问题,比方决策本钱高,人力投入高、落地阻力大,精力消耗大。

第二个论说:进程与成果。 指的是只要注重成果和产出以及事务内部实践,经过分布式协作让事务的办理成果、事务痛点和办理方法及手法在内部闭环,而不是由中台层面一致推进。

咱们测验从第二种论说,即注重进程落地和办理成果产出的动身,更快的落地产品,落地数据办理的产品处理方案

从会集式到分布式

依据分布式的数据自治的理念,咱们来处理在落地履行上的两个最困难的点

安排准则分布式 测验将安排的强办理特点转换到监督特点,办理单元与准则规划回归到事务单元。好处是,不强依靠横向中心化安排,事务办理痛点闭环在事务单元,且事务依据本身开展阶段拟定办理方针,ROI证明回归事务。

二、 权责检验分布式 依据产品系统与落地处理方案,支撑事务按需自驱,商场化履行,渠道辅助与按需检验。好处是,无须长周期的财物类目收拾,事务系统改造,权责均由事务区别,依据事务单元与多维视角,按需检验办理成果,事务单元内对齐。

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

如上图展现的饼图,关于一个公司的数据财物,传统来说,能够很明晰地依照事务鸿沟来区分清楚。关于分布式数据办理,咱们一般是由事务单元自行招领,事务单元A自行招领归于自己部分,事务单B也自行招领归于自己部分。招领就意味着,一切办理的动作包含成果,安全性、本钱、质量、安稳都由招领事务单元担任。

当然,这样这样也或许存在两个问题,不过在分布式的理念中能够得到较好处理

榜首是招领规模重合:这种状况往往让事务在线下对齐是否需求去做改造和区分,各自拿到本身需求的办理成果,短期无须重人力投入,不追求绝对的鸿沟区分。长期因不同办理检验需求或团队办理需求,自行进行财物归集和收拾。到达动态的平衡状况

第二是无人招领:针对长期无人招领的财物,咱们能够依据每个事务的前史的规矩和才能,构成一个办理的平均线,再从渠道层面推进无人招领的财物办理,因为无人招领,这样的财物推进起来相对较快。

咱们了解的分布式办理

界说:以事务单元为数据办理闭环单元,经过完善的产品东西,将办理视角转化为监督视角,处理数据办理落地痛点;各事务团队分布式自运转,整体上到达大局最优,从形状上,适配更多事务特性和开展阶段,从作用上,强推进重落实与成果

字节跳动一般以事务单元作为一个数据办理闭环,即在事务单元内部完结数据安稳性、质量、存储、核算等办理。一起每个事务单元不是孤立的,也有相互协作,比方A事务单元的数据办理经历能够沉积为办理模板,供后续其他事务运用。

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

这样的分布式办理方法,有以下一些优势:

  • 影响小,依靠小。 办理下放到各个事务中,各级事务甚至个人都能自驱办理,事务依据本身开展阶段灵敏组合办理东西,无须对安排强依靠。
  • 周期短,见效快。事务自驱收拾中心数据及链路,跨团队对齐线上化、协议签署、进程追寻。办理周期明显缩短,很快就出成效,增强团队信心。
  • 功率高,省人力。 SLA办理进步跨团队协作功率,聚会集心数据使命会集资源确保,会集精力,报警归因削减起夜,帮忙企业节省年度人力消耗
  • 算清帐,降本钱。 各事务口径的存储核算资源消耗、核算本钱,拟定降本方针并追寻落地;事务经历规矩化、战略化、主动化、自驱化继续降本增效。

分布式自治架构

为达到事务分布式自治,产品需求对用户行为途径彻底掩盖,对事务经历彻底承受。渠道供给完善的开放才能,帮忙事务进一步提效

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

产品系统

以上关于分布式的了解,下面将介绍字节分布式自治的产品系统。

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

从办理门户来看,包含办理全景、工作台、规划、确诊、复盘等全流程办理环节。在办理场景中,供给数据质量安全、资源优化、报警、企业复盘办理等一系列笔直场景。在底层,包含数据全生命周期流程,从数据收集、数据传输、数据存储、数据处理、数据同享到数据销毁。

办理双途径

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

为了把用户一切办理经历沉积为渠道才能,咱们笼统了2种办理途径。

  • 榜首种是规划式途径。这是一个比较常见的规划式途径,即从看板和报表动身,自上而下做规划。比方看板现已反映出本钱添加、延时变长或许数据质量变差,团队办理者建议陈述或事端,推进事务单元同事进行数据办理,最终进行复盘。
  • 第二种是响应式。比方生产者收到一个数据质量或延时的报警,随后快速定位原因并做改进方案。

为了更好把事务经历悉数线上化,咱们一般双途径并行运用。

规划式办理途径事例

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

首要看通用模块财物视图,包含财物增量状况点评等,以及事务关于财物的点评,如健康分系统。咱们一般依据财物状况去拟定方针。假如发现问题之后,事务驱动拟定方针,或许是下降存储。一起需求去运用一些事务规矩,比方团队内部以为 TTL(数据生命周期)很重要,需求帮忙辨认出来的一起也需求设定一个确诊周期。在团队方案确认完之后,产品会做监督,包含界说提醒,一起也推进财物owner完结总结。

响应式办理途径事例

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

例如,咱们发现一些使命在深夜履行失利了,需求先做问题排查,发现问题是HDFS丢块导致。在传统状况下,处理方案是去检查API 问题,再去拉相关人员,或许2- 3 小时才能完结,最终合作监控并收归到 wiki 中。而在DataLeap数据办理产品里,能够直接完结归因打标等才能,最终快速复盘。

办理全规矩

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

假如要掩盖事务的悉数特点,办理渠道需求构成有用且全面的规矩模板。现在,咱们的规矩模板包含两个部分:

榜首是 规矩引擎 ,详细包含事务输入、渠道输入、引荐输入。

  • 事务输入:首要依据事务团队的办理经历以及职业经历。
  • 渠道输入:渠道会供给一些根底才能,如存储、核算、质量、报警等几个维度。截止现在现已供给了80多个规矩。
  • 引荐输入:依据事务输入和渠道输入,去做剖析和发掘,发现哪些规矩用得多、哪些规矩阈值更合理。

第二是办理 数仓 ,详细包含行为数据、办理操作、作用数据。

  • 行为数据:包含用户规矩装备等内容是否有重复以及带元素标签的财物数据等。
  • 办理操作:包含生命周期、使命关闭、数据删去、SLA签署等。
  • 作用数据:包含操作收益、财物收益、方针收益等。

不同事务快速灵敏接入办理规矩

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

分布式自治根底是要构建办理生态、建造开放渠道,让不同事务能够快速、灵敏接入。

为了让事务能快速介入,咱们把数据分成了四种类型:表达式、三方元数据、规范元数据、算法包。针对不同的事务,依据当时的经历和才能,咱们会供给不同的接入方法,让事务去更好把规矩和才能去接入到咱们的渠道。

依据事务单元进行智能化提效

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

在获取不同事务的规矩和才能之后,咱们需求再做渠道才能沉积,把好的规矩和才能复用给更多事务。

Case1:使命SLA签署引荐。依据运营时间做权重分配,确保下流使命运转完结,一起也会进行关键链路剖析。这个规矩现在在字节内部广泛运用。

Case2:动态阈值监控。这是依据事务在报警阈值上的实践提取的规矩。

Case3:类似使命辨认。经过序列化和向量化操作,去和底层 spark 引擎做合作。在事务内部运用掩盖99%,且优化使命都千级以上,由此接入渠道并引荐给其他事务。

分布式办理中心才能

办理全景-分布式检验

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

在分布式检验中,会区别为全员视角、团队视角和个人视角。全员视角能够看到公司级财物,包含整体的健康分系统以及中心方针。团队视角中,首要由事务自己收拾,包含内部的点评系统。

办理工作台-会集办理待办

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

上图为个人工作台功能,首要为了把SLA确保、核算使命、数据存储等办理场景展现在一个页面,便利 owner 事务大局检查办理待办事项。

办理规划与确诊-权责与规区分布式

榜首,支撑自界说办理域,灵敏自治,供给多种维度,自界说组合和圈选财物规模。

第二,支撑创立办理方案,例行确诊:建议人依据事务需求,挑选办理域,规划办理规矩,建议存储/核算/质量等类型办理方案。例行确诊与推进施行。

第三,支撑规矩办理,供给80+办理根底规矩,支撑自界说组合和装备规矩与同享。

复盘办理

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

复盘办理是一个通用模块。事务依据本身需求去辨认使命是否需求复盘,或许只是做问题挂号。除此之外,事务还能够用复盘办理才能做内部办理,比方检查、检索一切的事端复盘,检查每个事端产生的原因和改进方案。一起,也可了解归因分布状况,并帮忙下一个值勤同学快速反应和定位问题。

SLA 办理

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

在字节跳动内部,SLA不是渠道级确保,而是源于事务团队内部。首要是事务按需申报,或许是PM、运营或数据研制等任何人物,以为本身使命重要,填写布景、原因、等级、时间等信息之后,即可建议一个SLA。建议之后,在团队内部进行审阅,或许存在同一个团队多个高优使命的状况,这由团队内部自行调整优先级。一起,这个也是跨团队判别该使命重要性的规范。

之后是完结签署,签署也会在产品里边体现出来。每个节点时间都有实时监控,假如产生了推迟,会推进事务做复盘和挂号。咱们也供给根底的DAG,包含申报事务单的检查,一起也能够让咱们去检查每个等级的破线状况,以及团队对事务的服务状况。

数据安全

在数据安全层面,首要专心于清理冗余权限,完善分类分级。不同团队对冗余权限界说不同,有的90天无访问算冗余权限,有的70天,有的7天。因此咱们供给自界说才能,由事务内部建议review,完结冗余权限的辨认和界说规矩,辨认之后复用确诊才能。

资源优化

火山引擎DataLeap:一家企业,数据体系要怎么搭建?

依据每个团队实践履行状况,提炼出一些通用的规矩。例如,某些规矩或许有几十个事务在运用,近 90% 以为近 30 天无查询需求被辨认出来,咱们就会在渠道中供给这类才能,便利新事务或许小白事务去运用。

报警归因

在报警归因方面,咱们能供给一切报警明细,便利检查是否有重复规矩,是否有高频报警规矩,帮忙用户发现无效报警和重复规矩,下降告警量和跟起夜率。除此之外,咱们也供给事务内部的归因挂号和剖析才能。

以上是字节跳动在数据办理相关实践。现在,字节跳动也将沉积的数据办理经历,经过火山引擎大数据研制办理套件DataLeap对外供给服务。作为一站式数据中台套件,DataLeap汇集了字节内部多年堆集的数据集成、开发、运维、办理、财物、安全等全套数据中台建造的经历,助力ToB商场客户提升数据研制办理功率、下降办理本钱。

点击跳转 大数据研制办理套件 DataLeap 了解更多