**GitHubDaily** @[email protected] · 2024-01-08T04:00:19Z

GitHubDaily @[email protected]

前不久，麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM，能够在不牺牲推理速度和生成效果的前提下，可实现多轮对话总共 400 万个 token 的流式输入，22.2 倍的推理速度提升。

但 StreamingLLM 使用原生 PyTorch 实现，对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。

因此，知名 AI 框架 Colossal-AI 开源了 SwiftInfer，基于 TensorRT 实现了 StreamingLLM，可以进一步提升大模型推理性能 46%，为多轮对话推理提供了高效可靠的落地方案。