感谢 Notion AI 为本篇提供了不少废话

<aside> 🧰 **语音识别(STT)**技术将语音信号转换成文本,应用于自动字幕生成、语音助手和翻译等领域。

Whisper 是 OpenAI 开发的 ASR 系统,支持多种语言和口音,利用机器学习和大规模数据训练,准确处理复杂语音输入,为用户提供高质量转录服务。

Whisper 的字幕制作功能:

自动转录:将音频自动转录为文本,提高字幕制作效率。

多语言支持:为多语言音频生成字幕,适用于多语言视频制作。

高准确性:准确识别和转录复杂语音,保证字幕内容准确。

时间戳生成:生成与音频时间轴对应的文本时间戳,字幕精确同步视频。

降噪功能:在背景噪音情况下准确识别语音,生成清晰字幕。

综上,Whisper 可简化和加速字幕制作流程,提高字幕质量和准确性。

</aside>

1. GUI 客户端

  1. **Whisper Transcription**

Mac客户端,免费使用 Tiny 和 Small 模型,够用

  1. https://github.com/CheshireCC/faster-whisper-GUI

Windows客户端,免费,没用过,估计还行吧

2. CLI

  1. https://github.com/Softcatala/whisper-ctranslate2
  2. https://github.com/Purfview/whisper-standalone-win

(2有神秘力量加持,比1快,但并不是开源软件,GitHub并没有该程序的源代码)

3. Colab

<aside> 🐍 Google Colab 是一个基于云的 Jupyter 笔记本环境,允许用户编写和执行 Python 代码。它特别适用于机器学习、数据分析和深度学习等领域,因为它提供了免费的 GPU 和 TPU 资源,用户可以利用这些资源进行高性能计算,而无需配置本地环境。

</aside>

  1. https://github.com/ChanJianHao/Faster-Whisper-Google-Colab
  2. https://github.com/cnbeining/Whisper_Notebook

两个不知道有什么区别,我用1。免费算力免费GPU,省电又省心