在开发应用有集成语音识别功能,往往选择调用各种云端 API,不仅需要担心网络问题,还需要为每次调用付费。
为了解决这个问题,在 GitHub 上发现一个强大的离线开源语音识别工具包:Vosk,已斩获了 10.1k+ Star。
它支持 20 多种语言识别,模型仅 50MB 却能提供连续大词汇量转录,还支持流式 API 和说话人识别等高级功能。
GitHub: https://github.com/alphacep/vosk-api
主要特性:
- 支持英语、中文、俄语、德语、法语等 20+ 种语言
- 完全离线运行,无需网络连接和 API 费用
- 零延迟响应,提供流式 API 接口
- 模型小巧(50MB)支持连续大词汇量转录
- 支持说话人识别和可重新配置词汇表
- 提供 Python、Java、C++、Node.js 等多语言绑定
- 适用于聊天机器人、智能家居、字幕生成等场景
提供了详细安装说明和使用示例,可通过官网下载对应语言模型。