**GitHubDaily** @[email protected] · 2025-02-24T02:30:10Z

GitHubDaily @[email protected]

DeepSeek 开源周第一天：FlashMLA 项目。

专门针对 Hopper GPU 优化了 MLA 解码内核，特别适合处理变长序列的场景，不仅让 GPU 性能得到显著提升，还是提高推理效率的最佳选择。

主要优势：

- 在内存受限配置下可达到 3000 GB/s 的吞吐量

- 在计算受限配置下在 H800 SXM5 上可实现 580 TFLOPS

- 支持 BF16 数据格式

- 集成 64 块大小的分页 kvcache

此外，项目提供简洁的 API 接口，使用起来非常简单，只需添加几行代码即可。