DeepSeek 开源周还未结束!今天公开了 V3/R1 推理系统的设计细节。
这套系统的核心优化目标就是:更大的吞吐,更低的延迟。
为此,DeepSeek 巧妙地使用大规模跨节点专家并行,在预填充阶段使用 32 个专家并行,解码阶段则扩展到 144 个。
实际统计数据:峰值达 278 个节点(每节点 8 个 H800 GPU),日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。
详细介绍: 网页链接
此前开源的 DeepEP、EPLB、FlashMLA 等项目正是系统的核心组件,而 3FS 则为其提供了关键的 KV 缓存支持。