这是我参加「第四届青训营 」笔记创作活动的的第12天
课程材料
课程链接:live./4354/yc_Dat…
课程PPT:bytedance.feishu.cn/file/boxcnU…
学员手册:/post/713013…
完整手册:bytedance.feishu.cn/docx/doxcnE…
一、企业数据架构
- 企业整体数据架构:根底引擎、数据集成/出产/服务、开发和治理东西
-
要害模块及数据流向
-
数据集成
- 事务数据搜集:数据库变更数据搜集(CDC)、事务日志搜集(事务数据->数据处理体系)
- 大数据体系内传输:基于Flink丰富的connector体系 (数据体系内)
-
数据出产:实时和离线出产pipeline (数据体系内)
- 数据服务:统一数据服务架构(数据体系->事务体系)
-
二、数据中心事例
- 以房产事务举例说明数据中心建造方针和要求
- 房产事务介绍:房产服务渠道、经纪人、客户
- 数据中心核心方针剖析:供需、进程、成果
- 数据中心查询要求:查询条件、数据成果、技术要求
三、实时数据出产
- 事例出产计划剖析:数据探查、明确方针口径和产出粒度、出产架构、核算难点
- 数据探查:剖析数据信息是否齐全,即基于原始数据核算方针可行性
- 数据架构:lambda架构和全量核算架构比对,确定合适的出产架构计划
-
核算难点处理
- 全量数据获取:hybrid source
-
准确核算
- 去重&更新处理:基于retract机制
- 乱序问题处理:流join乱序问题计划
-
核算功率
- MiniBatch-聚合核算
- MiniBatch-join
-
数据质量
- 使命稳定性:消费LAG、JVM、资源、算子
- 数据正确性:和离线比对、趋势比对、异常值占比
-
实时数仓
- 数据分层:数据复用,削减重复开发
- 数据办理:格式、元数据
四、数据服务
- 整体架构:查询引擎、查询优化和履行、稳定性、元数据
-
事例查询计划剖析
-
如何更快的查询
- 原始信息挑选和相关功率
- 核算处理功率
- 只重视方针所需数据
-
-
重视方针信息
- 列存
-
原始信息挑选功率
- OLAP引擎索引计划
-
原始信息相关
- join计划及优化
-
核算功率
- 向量化
- 履行计划优化:RBO、CBO
-
应用层优化
- 宽表构建
- 提高信息密度:bit化、bitmap
-
查询稳定性
- 熔断、限流、降级
- 元数据办理:方针口径办理、查询生成