1.简介
whisper是一个离线语音识别软件。可以将视频/音频转为文字。
https://github.com/openai/whisper
https://github.com/m-bain/whisperX
前者是openai原版,后者是在前者基础上修复了一些字幕时间对齐问题。
其实原版已经很不错。
2.安装
2.1 前提
最好安装python3.9,其余版本未测试
2.2 安装whisper/whisperX
先去git clone到自己电脑上,略过
然后安装命令为
pip install -e .
中途如果出现某个模块安装报错,诸如Module not found src 之类的,
解决方法就是去pypi把这个包单独下载下来,然后加入C:\python-3.9.13\python39._pth
我们需要把future,docopt,whisper,whisperx都加入,然后这4个模块都单独安装,命令都是进到该模块目录,执行pip install -e .
./Lib/site-packages
D:/soft/python/future-0.18.3/future-0.18.3
D:/soft/python/docopt-0.6.2
D:\git\opensource\whisperX
D:\git\opensource\whisper
2.3 安装ffmpeg
whisper读取视频/音频用的是ffmpeg,所以需要自行安装ffmpeg。
只需要把ffmpeg加入PATH即可。
ffmpeg可以上https://www.gyan.dev/ffmpeg/builds/下载,
或者如果你用过javacv的话也可以到以下这个目录把它挖出来
C:\Users\{xx}\.javacpp\cache\ffmpeg-5.0-1.5.7-windows-x86_64.jar\org\bytedeco\ffmpeg\windows-x86_64
3.运行测试
language我们指定中文,model可以指定tiny/base/small/medium/large,模型越大解析的准确率越高,当然速度也越慢。
基本在我的电脑上medium就跑不动了,然后用small就足够了,转出来的的文字准确率已经很高了。
whisperx --model tiny --language zh 1.mp3
whisper --model small --language zh 1.mp3
第一次运行会下载模型到以下目录
C:\Users\{xx}\.cache\whisper
C:\Users\{xx}\.cache\huggingface
分享到:
相关推荐
在本文中,我们将深入探讨whisper库的功能、安装过程以及如何使用它来实现语音合成和识别。 1. **whisper库介绍** whisper库是由OpenAI开发的,它提供了高效、快速的语音处理功能。该库不仅支持语音合成,即把文本...
whisper客服系统是一款面向企业和组织的开源在线客服解决方案,它的服务端是整个系统的核心部分,名为"whisper_server"。这款客服系统旨在提供高效、便捷的客户交流渠道,帮助企业提升服务质量,增强用户满意度。 ...
1. 安装与配置:下载Whisper软件的源码包(如"Whisper-master"),通过C++编译环境进行编译和安装。配置过程中可能需要依赖于特定的库和工具,如音频处理库或NLP工具包。 2. 接口调用:Whisper通常会提供API接口供...
3. 安装其他依赖:Whisper可能依赖一些特定库,查看官方文档获取详细信息。 三、获取源代码 1. 打开终端,使用Git克隆Whisper 2.1的源代码仓库:`git clone https://github.com/whisper-project/whisper-2.1.git` 2...
Faster-Whisper使用CTranslate2重新实现了OpenAI的Whisper模型,CTranslate2是Transformer模型的快速推理引擎。这种实现比openai/whisper在使用更少内存的情况下达到相同精度的4倍。对于需要高效Transformer模型推理...
开发者会列出如numpy、torch、transformers等Whisper运行所必需的库及其版本,用户只需运行相应的命令(如`conda env create -f environment.yaml`或`pipenv install --dev -r requirements.txt`),就能一键安装...
Whisper语音识别技术是当前人工智能领域的一个重要分支,它涉及到语音信号处理、深度学习和自然语言处理等多个领域的知识。在这款名为"Whisper语音识别.rar"的压缩包中,可能包含了一个完整的Whisper语音识别系统...
网页多商户客服系统Whisper-v2.1.11是一个专为在线商家设计的高效、一体化的客户服务解决方案。此系统的主要目标是提供一个统一的平台,以便商家能够轻松地与多个商户及其客户进行实时交流,提升服务质量,提高客户...
C#使用whisper.net实现语音转文本 源码博客地址:https://blog.csdn.net/lw112190/article/details/134557417
【Ubuntu安装Whisper-ctranslate2语音识别工具】\n\nWhisper-ctranslate2是一款基于Faster-Whisper的语音识别工具,相比于原始的Whisper模型,它提供了更快的识别速度和更低的内存占用。这款工具利用CTranslate2作为...
1. 使用说明.txt - 这可能是一个包含如何安装和使用"Faster Whisper"库的指南,对于用户来说是非常重要的资源,它可能涵盖了安装步骤、基本用法、示例代码以及可能的错误处理等内容。 2. faster_whisper-0.10.0-py3-...
由于提供的标签是“综合资料”,我们可以合理推测该文档可能包含了关于Whisper III降噪阀的多方面信息,如技术参数、安装指南、故障排除以及性能数据等。这些信息对于设备的正确安装、使用和维护至关重要。 至于...
"Whisper-main"是一个与语音识别技术相关的项目或软件包,其名称暗示它可能是一个核心组件,专注于处理和理解人类语音。在IT行业中,语音识别是人工智能(AI)的一个重要领域,尤其在智能助手、智能家居、自动驾驶...
对于在windows与cpu下,对whisper语音模型进行微调,并进行评估,推理。针对在微调与推理过程中出现的错误,已经在本文中有相关解决方法。按照文件中所给数据集的形式,可以根据自身需求对自己的数据进行处理,放到...
C# vs2019 .net framework编程whispernet demo源码,详情参考博客 blog.csdn.net/FL1623863129/article/details/135236329
本文将深入探讨Laravel中的`whisper`组件及其在开发过程中的应用,特别是如何使用它来处理外部API。 `Whisper`是Laravel的一个扩展,主要目的是为了方便地与外部API进行交互,利用Laravel的Eloquent ORM(对象关系...
whisper small model
"ChineseWhisper"可能已经转化为Web字体格式(如WOFF或WOFF2),允许网页设计师在网页上直接使用,无需用户电脑安装特定字体即可正确显示。 最后,考虑到“ChineseWhisper”这个名字,该项目可能还包含了一些独特的...
开源语音识别模型whisper.cpp库的使用demo
模块: fast_whisper pyaudio 博客地址:blog.csdn.net/FL1623863129/article/details/135319194 视频演示:bilibili.com/video/BV1fQ4y1j7wb