Follow

DeepSeek 开源周第五天:放出两个项目。

第二个 smallpond:基于 DuckDB 和 3FS 构建,轻量级数据处理框架,专为处理 PB 级数据集设计。

该框架提供高性能数据处理能力,无需长期运行服务,操作简便,支持 Python 3.8 至 3.12 版本。

GitHub: github.com/deepseek-ai/smallpo

主要特性:

- 基于 DuckDB 的高性能数据处理

- 可扩展至 PB 级数据集处理

- 简单操作,无需长期运行服务

- 支持数据分区和 SQL 查询

- 在 GraySort 基准测试中达到 3.66 TiB/分钟吞吐量

- 提供完整文档和 API 参考

:icon_weibo: weibo.com/5722964389/PglA9xAV1

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。