**GitHubDaily** @[email protected] · 2025-03-01T06:05:19Z

GitHubDaily @[email protected]

DeepSeek 开源周还未结束！今天公开了 V3/R1 推理系统的设计细节。

这套系统的核心优化目标就是：更大的吞吐，更低的延迟。

为此，DeepSeek 巧妙地使用大规模跨节点专家并行，在预填充阶段使用 32 个专家并行，解码阶段则扩展到 144 个。

实际统计数据：峰值达 278 个节点（每节点 8 个 H800 GPU），日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。

详细介绍：网页链接

此前开源的 DeepEP、EPLB、FlashMLA 等项目正是系统的核心组件，而 3FS 则为其提供了关键的 KV 缓存支持。