DeepSeek 开源周第五天:放出两个项目。
第二个 smallpond:基于 DuckDB 和 3FS 构建,轻量级数据处理框架,专为处理 PB 级数据集设计。
该框架提供高性能数据处理能力,无需长期运行服务,操作简便,支持 Python 3.8 至 3.12 版本。
GitHub: https://github.com/deepseek-ai/smallpond
主要特性:
- 基于 DuckDB 的高性能数据处理
- 可扩展至 PB 级数据集处理
- 简单操作,无需长期运行服务
- 支持数据分区和 SQL 查询
- 在 GraySort 基准测试中达到 3.66 TiB/分钟吞吐量
- 提供完整文档和 API 参考