月之暗面开源了一个音频基础模型:Kimi Audio,能同时处理音频理解、生成和对话。
基于 Kwen 2.5 7B 模型构建,实现既能输出高质量文本又能生成自然语音,解决了我们处理音频时来回切换不同工具的痛点。
GitHub: https://github.com/MoonshotAI/Kimi-Audio
模型下载:huggingface.co/moonshotai/Kimi-Audio-7B-Instruct
主要特性:
- 语音识别(ASR)性能超越多个基准,在 AISHELL-1 上 WER 仅为 0.60%;
- 支持音频理解任务,包括声音分类、音频问答和情感识别;
- 端到端语音对话能力,支持语速、口音和情感控制;
- 高效的流式处理机制,实现低延迟音频生成;
- 开源评估工具包,可轻松复现和对比不同模型性能;
- 预训练于超过 1300 万小时的多样化音频和文本数据。
模型 Kimi-Audio-7B-Instruct 已发布,可通过 HuggingFace 下载使用。