Follow

前不久,麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。

但 StreamingLLM 使用原生 PyTorch 实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。

因此,知名 AI 框架 Colossal-AI 开源了 SwiftInfer,基于 TensorRT 实现了 StreamingLLM,可以 进一步提升大模型推理性能 46%,为多轮对话推理提供了高效可靠的落地方案。

GitHub: github.com/hpcaitech/SwiftInfe

:icon_weibo: weibo.com/5722964389/NAS7K9B1u

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。