DeepSeek 开源周第四天:直接放出三个项目。
第二个 EPLB:一款专注于解决 MoE (混合专家)模型训练负载均衡问题的工具。
在使用专家并行(EP)时,不同专家被分配到不同 GPU 上,但各专家负载可能因工作负荷而显著不同,导致 GPU 资源利用不均衡。
EPLB 基于 DeepSeek-V3 论文提出的冗余专家策略,通过复制高负载专家并启发式地将其打包到不同 GPU,实现负载平衡。
GitHub: https://github.com/deepseek-ai/EPLB
同时,结合 DeepSeek-V3 的组限制专家路由技术,尽可能将同组专家放置在同一节点,减少节点间数据传输。
并提供了层次化和全局两种负载均衡策略,分别适用于不同场景,确保在大规模 MoE 模型训练中获得最佳性能。