Follow

DeepSeek 开源周第四天:直接放出三个项目。

第三个DeepSeek Infra Profiling Data:公开了 DeepSeek 模型训练和推理过程中的真实性能剖析数据,为 AI 系统优化提供了独特价值。

通过 PyTorch Profiler 捕获的详细执行轨迹,研究人员能够直观观察大规模模型在不同阶段的计算与通信模式。

GitHub: github.com/deepseek-ai/profile

在训练阶段,数据展示了 DualPipe 如何在 EP64 配置下实现计算块的高效重叠;

在预填充阶段,记录了系统如何在 EP32 配置下平衡注意力计算负载;

在解码阶段,则呈现了 EP128 环境中通信与计算任务的协同策略。

这些数据反映了 DeepSeek-V3 的实际生产环境配置,为社区改进大型 AI 模型的分布式训练与推理提供了宝贵参考。

并且数据可在 Chrome 或 Edge 浏览器中直接可视化,便于研究分析分布式 AI 系统性能瓶颈和优化空间。

:icon_weibo: weibo.com/5722964389/PgdMvDe4o

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。