Follow

DeepSeek 开源周第一天:FlashMLA 项目。

专门针对 Hopper GPU 优化了 MLA 解码内核,特别适合处理变长序列的场景,不仅让 GPU 性能得到显著提升,还是提高推理效率的最佳选择。

GitHub: github.com/deepseek-ai/FlashML

主要优势:

- 在内存受限配置下可达到 3000 GB/s 的吞吐量

- 在计算受限配置下在 H800 SXM5 上可实现 580 TFLOPS

- 支持 BF16 数据格式

- 集成 64 块大小的分页 kvcache

此外,项目提供简洁的 API 接口,使用起来非常简单,只需添加几行代码即可。

:icon_weibo: weibo.com/5722964389/PfK7fFj09

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。