Follow

DeepSeek 开源周第二天:DeepEP 项目。

第一个开源的混合专家模型 (MoE) 模型训练和推理专家并行 (EP) 通信库。

GitHub: github.com/deepseek-ai/DeepEP

✅ 高效优化的 all-to-all 通信

✅ 同时支持节点内(NVLink)和节点间(RDMA)通信

✅ 高吞吐量内核用于训练和推理预填充

✅ 低延迟内核用于推理解码

✅ 原生支持 FP8 dispatch 操作

✅ 灵活的 GPU 资源控制实现通信-计算重叠

并基于 DeepSeek-V3 中提出的算法优化,为大规模 AI 模型提供卓越的通信性能。

在 H800 GPU 上,节点内通信可达 150+ GB/s,节点间通信可达 40+ GB/s,解码延迟低至 186 μs。

:icon_weibo: weibo.com/5722964389/PfTIDiUWw

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。