近日,随之 DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。
为了帮助更多开发者,以低成本打造高质量私有模型,提升业务竞争力与价值。
GitHub 上知名开源项目 Colossal-AI 通过后训练(post-training)结合专业领域数据,正式发布了「开源大模型后训练工具箱」!
GitHub: https://github.com/hpcaitech/ColossalAI
该工具箱包括以下内容:
- DeepSeek V3/ R1 满血 671B LoRA 低成本 SFT 微调;
- 完整的强化学习工具链 PPO,GRPO,DPO,SimPO 等;
- 无缝适配 DeepSeek 系列蒸馏模型在内的 HuggingFace 开源模型;
- 兼容支持英伟达 GPU、华为昇腾 NPU 等多种硬件;
- 支持混合精度训练,gradient checkpoint 等训练加速降低成本;
- 灵活的训练配置接口,支持自定义奖励函数、损失函数等;
- 提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO 和 Offload 等,以适应不同硬件规模。
DeepSeek V3/R1 满血版参数高达 6710 亿,通过该项目,开发者仅需简单几步,即可快速实现低成本微调。
目前,该方案已在 GitHub 正式开源,感兴趣的同学可以深入了解,学习一下。