GitHub 上一个基于 Whisper 的自动语音识别与说话人分离的框架:whisper-diarization。
该框架处理的步骤具体如下:
提取音频中的语音,以提高说话人嵌入的准确性。
使用 Whisper 生成转录。
利用 WhisperX 校正和对齐时间戳,以减少由于时间偏移引起的分离错误。
使用 MarbleNet 进行 VAD(语音活动检测)和分段,以排除静音部分。
使用 TitaNet 提取说话人嵌入,以识别每个分段的说话人。
将提取的说话人信息与 WhisperX 生成的时间戳关联起来,通过标点模型进行重新对齐,以弥补小的时间偏移。
GitHub: https://github.com/MahmoudAshraf97/whisper-diarization
如果你正打算开发如会议记录、视频字幕翻译、音频分析之类的工具,不妨看看该框架。