数据infra:DuckDB 以 MIT 协议发布下一代数据仓库 DuckLake
这是 DuckDB 2025年5月27日下午发布的推文
DuckDB:Today we're launching DuckLake, an integrated data lake and catalog format powered by SQL. DuckLake unlocks next-generation data warehousing where compute is local, consistency central, and storage scales till infinity. DuckLake is an open standard and we've implemented it in the "ducklake" DuckDB extension.
DuckDB:今天我们发布了 DuckLake,这是一种由 SQL 驱动的集成式数据湖和目录格式。DuckLake 解锁了下一代数据仓库,其中计算在本地,一致性在中心,存储无限扩展。DuckLake 是一个开放标准,我们已在 "ducklake" DuckDB 扩展中实现了它。
同时发布的,还有一篇日志「DuckLake:将 SQL 作为湖仓式格式」
简而言之:DuckLake 通过使用标准 SQL 数据库管理所有元数据,简化了湖仓,而不是复杂的文件系统,同时数据仍以 Parquet 等开放格式存储。这使得它更可靠、更快、更易于管理。
1. Why should I use DuckLake?
如果您需要数据湖和目录,DuckLake 提供了轻量级一站式解决方案。
您可以使用 DuckLake 进行 “多人协作的 DuckDB” 设置,即多个 DuckDB 实例对同一数据集进行读写操作 —— 这是一种原生 DuckDB 不支持的并发模型。
如果您仅将 DuckDB 用于 DuckLake 入口点和目录数据库,仍然可以从使用 DuckLake 中受益:您可以运行时间回溯查询,利用数据分区功能,并且可以将数据存储在多个文件中,而不是使用单个(可能非常大的)数据库文件。
2. What is DuckLake?
首先,“DuckLake” 是一个朗朗上口的名字,用于源自 DuckDB 的数据湖和湖仓技术。更确切地说,“DuckLake” 一词可以指代三件事:
- DuckLake 湖仓格式的_规范_,
- ducklake DuckDB 扩展,它支持以 DuckLake 规范读取 / 写入数据集,
- 一个 DuckLake,即使用 DuckLake 湖仓格式存储的_数据集_。
3. What is the license of DuckLake?
DuckLake 规范和 DuckLake DuckDB 扩展均在 MIT 许可下发布。
标签:AI