**GitHubDaily** @[email protected] · 2025-04-27T03:05:16Z

GitHubDaily @[email protected]

月之暗面开源了一个音频基础模型：Kimi Audio，能同时处理音频理解、生成和对话。

基于 Kwen 2.5 7B 模型构建，实现既能输出高质量文本又能生成自然语音，解决了我们处理音频时来回切换不同工具的痛点。

模型下载：huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

主要特性：

- 语音识别（ASR）性能超越多个基准，在 AISHELL-1 上 WER 仅为 0.60%；

- 支持音频理解任务，包括声音分类、音频问答和情感识别；

- 端到端语音对话能力，支持语速、口音和情感控制；

- 高效的流式处理机制，实现低延迟音频生成；

- 开源评估工具包，可轻松复现和对比不同模型性能；

- 预训练于超过 1300 万小时的多样化音频和文本数据。

模型 Kimi-Audio-7B-Instruct 已发布，可通过 HuggingFace 下载使用。