英伟达开源了一个超强的语音识别模型:Parakeet TDT 0.6B V2,登顶 OpenASR 榜单。
它能够在 1 秒内实现高质量转录 60 分钟的音频,而且参数仅仅 0.6B,轻松击败了所有主流闭源模型。
模型下载:huggingface.co/nvidia/parakeet-tdt-0.6b-v2
排行榜单:huggingface.co/spaces/hf-audio/open_asr_leaderboard
不过目前仅支持识别英文,采用的是 CC-BY-4.0 开源许可,允许商业使用。