Databend 是一款现代云数仓。专为弹性和高效规划,为您的大规模分析需求保驾护航。自在且开源。立刻体会云服务:app.databend.cn 。
What’s On In Databend
探索 Databend 本周新进展,遇到更靠近你心意的 Databend 。
Flink CDC
Apache Flink CDC(Change Data Capture)是指 Apache Flink 运用根据 SQL 的查询从各种来源捕获和处理实时数据更改的能力。CDC 允许监督和捕获数据库或流体系中发生的数据修改(刺进、更新和删去),并对这些更改进行实时呼应。
Databend 现在提供 Flink SQL Connector,能够将 Flink 的流处理能力与 Databend 集成。经过对连接器进行配置,能够以流的形式从各种数据库中捕获数据更改,并将其载入到 Databend 中以进行实时处理和分析。
假如你想要了解更多信息,请检查下面列出的资源。
- Docs | Loading Data with Tools – Flink CDC
Code Corner
一起来探索 Databend 和周边生态中的代码片段或项目。
Databend 的 Python 绑定支撑注册外部表
Databend 的 Python 绑定 现在支撑注册外部表。你能够运用以下函数在 Python 绑定中注册外部表:
register_parquet
register_ndjson
register_csv
register_tsv
下面的比如展示了如何运用 register_parquet
函数在 Python 绑定中注册名为 ontime
的外部表:
from databend import SessionContext
ctx = SessionContext()
ctx.register_parquet("ontime", "./ontime/", pattern = ".*.parquet")
df = ctx.sql("select * from ontime limit 10").collect()
print(df)
这段代码将坐落 ./ontime/
目录中且符合形式 .*.parquet
的 Parquet 文件注册成名为 ontime
的外部表。你能够在 SQL 查询中运用已注册的表名 ontime
拜访数据。
假如你想要了解更多信息,请检查下面列出的资源。
- PR | feat(python): support register table functions
亮点
以下是一些值得注意的事件,或许您能够找到感兴趣的内容。
- 支撑运用
ALTER TABLE [ IF EXISTS ] <name> RENAME COLUMN <col_name> TO <new_col_name>
改变列名。 - 为 TSV 格式完成列位置支撑。
- 新增
system.background_jobs
和system.background_tasks
体系表。 - 经过
X-DATABEND-DEDUPLICATE-LABEL
标头完成为 HTTP API 支撑去重。 - 支撑分布式删去。
What’s Up Next
咱们一直对前沿技术和创新理念持开放态度,欢迎您加入社区,为 Databend 注入生机。
为 Databend 集群完成只读形式
Databend 正在计划为集群完成一个名为 “只读形式” 的新功能,这将改善用户的拜访控制和资源分配。
一旦完成这一新功能,用户将能够为读取和写入操作别离创立单独的集群。只读形式有助于防止集群中存在可能会导致数据丢失或损坏的意外写入。同时,因为减少了写入操作,可能会进步只读形式下的集群功能。
Issue #11836 | feat: read-only mode for Databend clusters
假如你对这个主题感兴趣,能够测验处理其间的部分问题或许参与讨论和 PR review 。或许,你能够点击 link.databend.rs/i-m-feeling… 来挑选一个随机问题,祝好运!
Changelog
前往检查 Databend 每日构建的改变日志,以了解开发的最新动态。
地址:github.com/datafuselab…
Contributors
非常感谢贡献者们在本周的卓越工作。
Connect With Us
Databend 是一款开源、弹性、低成本,根据目标存储也能够做实时分析的新式数仓。期待您的重视,一起探索云原生数仓处理方案,打造新一代开源 Data Cloud。
- Databend Website
- GitHub Discussions
- Slack Channel