更多技能沟通、求职时机，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方沟通群

近来，《火山引擎云原生数据仓库 ByteHouse 技能白皮书》正式发布。白皮书简述了 ByteHouse 依据 ClickHouse 引擎的开展历程，初次详细展示 ByteHouse 的全体架构设计及自研核心技能，为云原生数据仓库开展，及企业数字化转型实战运用供给最新的参阅和启迪。

以下为 ByteHouse 技能白皮书【数据导入导出】版块摘抄。

技能白皮书（Ⅰ）(Ⅱ)（Ⅲ）精彩回顾：

xie.infoq.cn/article/5c9…

xie.infoq.cn/article/086…

xie.infoq.cn/article/a0d…

ByteHouse 数据导入导出

ByteHouse 包含一个数据导入导出（Data Express）模块，担任数据的导入导出工作。

Data Express 模块架构图

Data Express 为数据导入/导出作业供给工作流服务和快速装备模板，用户能够从供给的快速模板创立数据加载作业。

DataExpress 使用 Spark 来履行数据搬迁使命。

主要模块：

JobServer
导入模板
导出模板

JobServer 管理一切用户创立的数据搬迁作业，一起运转外部事件触发数据搬迁使命。

发动使命时，JobServer 将相应的作业提交给 Spark 集群，并监控其履行情况。作业履行状态将保存在我们的元存储中，以供 Bytehouse 进一步分析。

ByteHouse 支撑离线数据导入和实时数据导入。

离线导入

离线导入数据源:

Object Storage：S3、OSS、Minio
Hive (1.0+)
Apache Kafka /Confluent Cloud/AWS Kinesis
本地文件
RDS

离线导入适用于希望将已准备好的数据一次性加载到 ByteHouse 的场景，依据是否对方针数据表进行分区，ByteHouse 供给了不同的加载模式：

全量加载：全量将用最新的数据替换全表数据。
增量加载：增量加载将依据其分区将新的数据添加到现有的方针数据表。ByteHouse 将替换现有分区，而非进行合并。

支撑的文件类型

ByteHouse 的离线导入支撑以下文件格局：

Delimited files (CSV, TSV, etc.)
Json (multiline)
Avro
Parquet
Excel (xls)

实时导入

ByteHouse 能够连接到 Kafka，并将数据继续传输到方针数据表中。与离线导入不同，Kafka 使命一旦发动将继续运转。ByteHouse 的 Kafka 导入使命能够供给 exactly-once 语义。您能够中止/恢复消费使命，ByteHouse 将记载 offset 信息，确保数据不会丢掉。

支撑的音讯格局

ByteHouse 在流式导入中支撑以下音讯格局：

Protobuf
JSON

更多的导入数据源以及导出功能正在不断完善中。

点击链接，立即下载完整版白皮书

www.wjx.cn/vm/Ot0YJFq.…

点击跳转火山引擎云原生数据仓库ByteHouse了解更多

火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 （Ⅳ）

ByteHouse 数据导入导出

离线导入

实时导入

点击链接，立即下载完整版白皮书

作者信息

火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 （Ⅳ）

ByteHouse 数据导入导出

离线导入

实时导入

点击链接，立即下载完整版白皮书

相关文章

测试平台系列(114) 七牛云图床初体验

零拷贝浅析

【访谈】Eotalk Vol.02：从极客到 CEO，开发者应该如何提升技术领导力？

面试官问：kafka为什么如此之快？

作者信息