更多技能沟通、求职时机,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方沟通群

近来,《火山引擎云原生数据仓库 ByteHouse 技能白皮书》正式发布。白皮书简述了 ByteHouse 依据 ClickHouse 引擎的开展历程,初次详细展示 ByteHouse 的全体架构设计及自研核心技能,为云原生数据仓库开展,及企业数字化转型实战运用供给最新的参阅和启迪。

以下为 ByteHouse 技能白皮书【数据导入导出】版块摘抄。

技能白皮书(Ⅰ)(Ⅱ)(Ⅲ)精彩回顾:

xie.infoq.cn/article/5c9…

xie.infoq.cn/article/086…

xie.infoq.cn/article/a0d…

ByteHouse 数据导入导出

ByteHouse 包含一个数据导入导出(Data Express)模块,担任数据的导入导出工作。

火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅳ)

Data Express 模块架构图

Data Express 为数据导入/导出作业供给工作流服务和快速装备模板,用户能够从供给的快速模板创立数据加载作业。

DataExpress 使用 Spark 来履行数据搬迁使命。

主要模块:

  • JobServer

  • 导入模板

  • 导出模板

JobServer 管理一切用户创立的数据搬迁作业,一起运转外部事件触发数据搬迁使命。

发动使命时,JobServer 将相应的作业提交给 Spark 集群,并监控其履行情况。作业履行状态将保存在我们的元存储中,以供 Bytehouse 进一步分析。

ByteHouse 支撑离线数据导入和实时数据导入。

离线导入

离线导入数据源:

  • Object Storage:S3、OSS、Minio

  • Hive (1.0+)

  • Apache Kafka /Confluent Cloud/AWS Kinesis

  • 本地文件

  • RDS

离线导入适用于希望将已准备好的数据一次性加载到 ByteHouse 的场景,依据是否对方针数据表进行分区,ByteHouse 供给了不同的加载模式:

  • 全量加载:全量将用最新的数据替换全表数据。

  • 增量加载:增量加载将依据其分区将新的数据添加到现有的方针数据表。ByteHouse 将替换现有分区,而非进行合并。

支撑的文件类型

ByteHouse 的离线导入支撑以下文件格局:

  • Delimited files (CSV, TSV, etc.)
  • Json (multiline)
  • Avro
  • Parquet
  • Excel (xls)

实时导入

ByteHouse 能够连接到 Kafka,并将数据继续传输到方针数据表中。与离线导入不同,Kafka 使命一旦发动将继续运转。ByteHouse 的 Kafka 导入使命能够供给 exactly-once 语义。您能够中止/恢复消费使命,ByteHouse 将记载 offset 信息,确保数据不会丢掉。

支撑的音讯格局

ByteHouse 在流式导入中支撑以下音讯格局:

  • Protobuf

  • JSON

更多的导入数据源以及导出功能正在不断完善中。

点击链接,立即下载完整版白皮书

www.wjx.cn/vm/Ot0YJFq.…

点击跳转 火山引擎云原生数据仓库ByteHouse了解更多