在Windows系统上部署openai-whisper模型
本文介绍如何在Windows系统上部署openai/whisper模型。除开ffmpeg的安装外,其余步骤都可参见openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision。建议使用scoop安装ffmpeg,因为Chocolatey无法更改自定义默认下载目录。
安装Scoop和ffmpeg音频处理库
1 | # 安装powershell |
安装whisper
1 | # 安装稳定版 |
python用法
转录也可以在Python中进行:
1 | import whisper |
在内部, transcribe()
方法读取整个文件并使用一个滑动30秒的窗口来处理音频,并在每个窗口上执行自回归序列到序列预测。
以下是whisper.detect_language()
和whisper.decode()
的示例用法,可提供对模型的低级访问。
1 | import whisper |
关于语音质量和声音预处理
通常音视频文件我们是可以直接拿来用的,例如:
1 | whisper audio.mp4 --model medium |
但为了提高精度和处理效率,我们可以对音频进行一些预处理
Whisper通常在16kHz采样率的单声道音频下表现最佳
所以我们可以使用
1 | ffmpeg -i input_file.wav -ar 16000 -ac 1 output_file.wav |
把音频文件进行预处理,这里输入文件也可以是MP4或者其他格式的音视频文件
如果遇到音频音量过小,就也可以使用
1 | ffmpeg -i input_file.wav -filter:a "volume=1.5" output_file.wav |
进行音频的标准化预处理。
音频处理部分,参考了: Windows本地部署OpenAI的强大语音识别系统Whisper| 支持CPU/GPU运算 | - 米拉一频道
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hexo Blog!