DeepSeek 开源周第一天:FlashMLA 项目。
专门针对 Hopper GPU 优化了 MLA 解码内核,特别适合处理变长序列的场景,不仅让 GPU 性能得到显著提升,还是提高推理效率的最佳选择。
GitHub: https://github.com/deepseek-ai/FlashMLA
主要优势:
- 在内存受限配置下可达到 3000 GB/s 的吞吐量
- 在计算受限配置下在 H800 SXM5 上可实现 580 TFLOPS
- 支持 BF16 数据格式
- 集成 64 块大小的分页 kvcache
此外,项目提供简洁的 API 接口,使用起来非常简单,只需添加几行代码即可。