Follow

GitHub 上一个基于 Whisper 的自动语音识别与说话人分离的框架:whisper-diarization。

该框架处理的步骤具体如下:

  1. 提取音频中的语音,以提高说话人嵌入的准确性。

  2. 使用 Whisper 生成转录。

  3. 利用 WhisperX 校正和对齐时间戳,以减少由于时间偏移引起的分离错误。

  4. 使用 MarbleNet 进行 VAD(语音活动检测)和分段,以排除静音部分。

  5. 使用 TitaNet 提取说话人嵌入,以识别每个分段的说话人。

  6. 将提取的说话人信息与 WhisperX 生成的时间戳关联起来,通过标点模型进行重新对齐,以弥补小的时间偏移。

GitHub: github.com/MahmoudAshraf97/whi

如果你正打算开发如会议记录、视频字幕翻译、音频分析之类的工具,不妨看看该框架。

:icon_weibo: weibo.com/5722964389/OsdjncpW2

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。