Follow

在开发应用有集成语音识别功能,往往选择调用各种云端 API,不仅需要担心网络问题,还需要为每次调用付费。

为了解决这个问题,在 GitHub 上发现一个强大的离线开源语音识别工具包:Vosk,已斩获了 10.1k+ Star。

它支持 20 多种语言识别,模型仅 50MB 却能提供连续大词汇量转录,还支持流式 API 和说话人识别等高级功能。

GitHub: github.com/alphacep/vosk-api

主要特性:

- 支持英语、中文、俄语、德语、法语等 20+ 种语言

- 完全离线运行,无需网络连接和 API 费用

- 零延迟响应,提供流式 API 接口

- 模型小巧(50MB)支持连续大词汇量转录

- 支持说话人识别和可重新配置词汇表

- 提供 Python、Java、C++、Node.js 等多语言绑定

- 适用于聊天机器人、智能家居、字幕生成等场景

提供了详细安装说明和使用示例,可通过官网下载对应语言模型。

:icon_weibo: weibo.com/5722964389/PvAzADkeX

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。