Follow

DeepSeek 开源周还未结束!今天公开了 V3/R1 推理系统的设计细节。

这套系统的核心优化目标就是:更大的吞吐,更低的延迟。

为此,DeepSeek 巧妙地使用大规模跨节点专家并行,在预填充阶段使用 32 个专家并行,解码阶段则扩展到 144 个。

实际统计数据:峰值达 278 个节点(每节点 8 个 H800 GPU),日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。

详细介绍: 网页链接

此前开源的 DeepEP、EPLB、FlashMLA 等项目正是系统的核心组件,而 3FS 则为其提供了关键的 KV 缓存支持。

:icon_weibo: weibo.com/5722964389/PgwCk8VJK

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。