Follow

月之暗面开源了一个音频基础模型:Kimi Audio,能同时处理音频理解、生成和对话。

基于 Kwen 2.5 7B 模型构建,实现既能输出高质量文本又能生成自然语音,解决了我们处理音频时来回切换不同工具的痛点。

GitHub: github.com/MoonshotAI/Kimi-Aud

模型下载:huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

主要特性:

- 语音识别(ASR)性能超越多个基准,在 AISHELL-1 上 WER 仅为 0.60%;

- 支持音频理解任务,包括声音分类、音频问答和情感识别;

- 端到端语音对话能力,支持语速、口音和情感控制;

- 高效的流式处理机制,实现低延迟音频生成;

- 开源评估工具包,可轻松复现和对比不同模型性能;

- 预训练于超过 1300 万小时的多样化音频和文本数据。

模型 Kimi-Audio-7B-Instruct 已发布,可通过 HuggingFace 下载使用。

:icon_weibo: weibo.com/5722964389/PpaOBbaHP

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。