`
w7849516230
  • 浏览: 20325 次
文章分类
社区版块
存档分类
最新评论

3个开源TTS(一)——安装使用

 
阅读更多
项目在身,要求分析几款开源的TTS引擎(不需要是中文的),然后选择一个为系统朗读英文文本提供接口。先从eGuideDog的余音(Ekho)开始,Ekho(余音)是一个把文字转换成声音的软件。它目前支持粤语、普通话(国语)、诏安客语和韩语(试验中),英文则通过Festival间接实现。先是找到了它的英文实现方式,不过之前看到过这样一篇文章《7个开源的TTS(文本转语音)系统推荐》,因此从中选择了3个。忘了提项目还要求C/C++为主设计的,因此初步筛选为(1)Festival (2)eSpeak (3)Flite 。目前情况是仅在安装有debian 6的虚拟机上安装使用了下3个软件,进一步分析后续再补上。
(1)Festival
Festival提供了一个通用的框架,用于构建语音合成系统,该系统包含了各种模块示例。它提供了完整的文本转语音的API,可以通过shell、C++静态库等多种方式调用,原生支持Mac OS,支持的语言包括英语和西班牙语;而且系统是使用c++编写,底层调用Edinburgh Speech Tools;
首先阅读它的手册得知,下载需要的压缩包(http://festvox.org/packed/festival/2.1/):
festival-2.1-release.tar.gz Festival语音合成系统源文件
speech_tools-2.1-release.tar.gz Edinburgh语音工具库
festlex_CMU.tar.gz festlex_POSLEX.tar.gz词典
festvox_kallpc16k.tar.gz 语料库
前两个解压后需要配置编译,后三个解压后自动解压在festival文件夹中。首先编译speech_tools,进入该文件夹,输入
#./configure 配置
#make 编译
其它如在Cygwin、vc下的编译在INSTALL文件中有说明。
然后进入festival文件夹,按照INSTALL文件中的说明进行安装,是可以看到详细的安装说明,以及需要文件夹festival speech_tools的。还是一般的./configure make即可,由于仅是在本地使用,没有了Site initialization这一步,在安装完成后运行bin/festival,如无错误提示出现:
Festival Speech Synthesis System 2.1:release November 2010
Copyright (C) University of Edinburgh, 1996-2010. All rights reserved.

clunits: Copyright (C) University of Edinburgh and CMU 1997-2010
clustergen_engine: Copyright (C) CMU 2005-2010
hts_engine:
The HMM-based speech synthesis system (HTS)
hts_engine API version 1.04 (http://hts-engine.sourceforge.net/)
Copyright (C) 2001-2010 Nagoya Institute of Technology
2001-2008 Tokyo Institute of Technology
All rights reserved.
For details type `(festival_warranty)'
festival>
可以输入help或者(SayText "Hello World!")测试。如果出现Can't open /dev/dsp的错误,可以在~/.festivalrc文件写入:
(Parameter.set 'Audio_Method 'Audio_Command)
(Parameter.set 'Audio_Command "aplay -q -c 1 -t raw -f s16 -r $SR $FILE")
(2)eSpeak
eSpeak是c语言写的一个小型的、开放源码的语音合成系统,支持多种语言。eSpeak使用共振峰合成方法,这可以使提供的语言文件非常小,但是缺点是不如采用基于人录音的语料库的声音平滑自然。该系统支持 Windows、Linux同时已被移植到其它平台,如Solaris and Mac OSX,支持命令行、动态链接库,支持Windows平台上的SAPI5,所以能用于屏幕阅读程序和其他支持Windows SAPI5接口的程序。eSpeak可以将文本转换成音素代码,因此它也可以用于另一个语音合成引擎的前端。它的安装比较简单,下载ZIP压缩包(http://espeak.sourceforge.net/download.html),在Windows上直接安装即可。
(3)Flite
Flite是一个小型、快速的TTS系统,是festival的C版本,可用于嵌入式系统,支持WinCE、Palm OS 。下载压缩包(http://www.speech.cs.cmu.edu/flite/download.html)./configure make即可,安装使用参考文件夹下的README即可,如阅读一段文本,并生成.wav文件
#flite example example.wav在example文件中有英文文本,输出为example.wav。我这里使用有些问题,example.wav文件在debian中无法播放,用Windows Media player也播不了,结果用QQ影音可以。还有就是直接运行flite读文本出现oss_audio: failed to open audio device /dev/dsp的错误,而且即使是生成语音文件也会出现failed to open file "example" for reading的错误,具体情况还不知道。
参考文章:
【1】7个开源的TTS(文本转语音)系统推荐 http://sd.csdn.net/a/20111228/309754.html
【2】archlinux Festival https://wiki.archlinux.org/index.php/Festival
分享到:
评论

相关推荐

    java将文本转换成语音

    3个开源TTS(一)——安装使用:http://blog.csdn.net/gaohuanjie/article/details/22648139 3个开源TTS(二)eSpeak的简要分析使用:http://blog.csdn.net/gaohuanjie/article/details/22648499 3个开源TTS(三)...

    ubuntu安装笔记——part3

    ### Ubuntu安装笔记——part3 #### 星际译王(Stardict)安装与配置 星际译王是一款开源的电子词典应用程序,适用于多种操作系统,包括Linux。在Ubuntu中安装星际译王可以通过终端执行以下命令: ``` sudo apt-get ...

    spring 达内tts课件

    《Spring框架深度解析——基于达内TTS课件》 Spring框架是Java开发中的核心组件,尤其在企业级应用开发中扮演着至关重要的角色。达内的TTS课件以其高清、详尽的特点,为学习者提供了深入理解Spring的宝贵资源。本文...

    Qaryan Hebrew TTS-开源

    总的来说,Qaryan Hebrew TTS是一个针对希伯来语的高效、灵活的开源TTS引擎,它的模块化设计、强大的语言处理能力和开源特性使其在同类产品中脱颖而出。无论你是希伯来语学习者、开发者还是教育工作者,Qaryan都能为...

    Android源码——英文电子词典源码.zip

    这个开源项目为开发者提供了一个了解Android应用开发,尤其是词典类应用开发的实践平台。通过对源码的学习和分析,我们可以深入理解Android应用程序的架构设计、数据存储、UI交互以及网络通信等多个关键知识点。 ...

    AI视频创作,开发使用python支持多国语音配音,ffmpeg+openai-whisper+tts

    —— 博主领域:嵌入式领域&人工智能&软件开发。 有任何使用问题欢迎随时与博主沟通(公主呺:阿齐Archie)。 适合学习/练手、毕业设计、课程设计、期末/期中/大作业、工程实训、相关项目/竞赛学习等。 # 注意 1. ...

    打造个人听书神器:使用pyttsx3实现文字转语音

    要使用pyttsx3库实现文字转语音,首先需要在计算机上安装Python环境,然后通过pip包管理器安装pyttsx3。安装完成后,通过几行简单的代码,就能够创建一个基础的文字转语音应用程序。利用pyttsx3,用户不仅可以控制...

    Android源码——仿Siri的中文语音助理源码.7z

    3. **对话管理**:一个完整的语音助理需要有对话管理机制,确保与用户的交互流畅。这部分可能包含对话历史记录、会话状态管理和上下文关联的回答生成。 4. **服务调用**:语音助理的功能往往包括打电话、发短信、...

    Android代码-[安卓开源]仿Siri的中文语音助理源码.zip

    本篇文章将详细探讨一个基于Android平台的开源项目——仿Siri的中文语音助理源码。这个项目旨在实现类似苹果Siri的语音交互功能,为用户提供便捷的语音操作体验。我们将深入源码,分析其核心技术和实现机制。 1. **...

    安卓Android源码——语音合成和语音听写,科大讯飞,代码有详细注释.zip

    【标题】中的“安卓Android源码——语音合成和语音听写,科大讯飞,代码有详细注释”指的是一个关于Android平台上的语音处理应用程序的源代码,它使用了科大讯飞的语音技术,包括语音合成功能(TTS,Text To Speech...

    PyPI 官网下载 | deepvoice3_pytorch-0.0.1.tar.gz

    《PyPI官网下载 | deepvoice3_pytorch-0.0.1.tar.gz——探索Python语音合成框架》 PyPI(Python Package Index)是Python开发者的重要资源库,它提供了丰富的Python软件包供全球用户下载和使用。在PyPI上,我们可以...

    Java语言实现文本转语音

    Jacob是一个Java和COM交互的桥梁,它允许Java应用程序调用COM组件,比如Windows的Text To Speech (TTS)服务。 Jacob库包含了两个版本的DLL文件——`jacob-1.20-x64.dll`和`jacob-1.20-x86.dll`,分别对应64位和32位...

    ASP.NET轻松实现验证码3种方法

    这种方法是最常见的验证码生成方式之一,它通过创建一个包含随机字符的图像来实现。这种方法可以有效地防止自动程序进行恶意登录或表单提交。 #### 技术要点: 1. **生成随机字符串**:通常会使用`Random`类来生成...

    TestMusic.zip

    其内部可能使用了开源的TTS引擎,如eSpeak、Festival 或 Google Text-to-Speech API的本地版本,或者使用了自定义的语音合成技术。使用这个工具,用户可以轻松地将文字内容转化为可听的音频形式,提高了信息的获取和...

    安卓Android源码——轻松实现语音识别.zip

    要启动语音识别,我们需要创建一个`Intent`对象,并设置其类别为`RecognizerIntent.ACTION_RECOGNIZE_SPEECH`。同时,我们还可以设置其他参数,如语言、显示提示语等: ```java Intent intent = new Intent...

    Anonymous; Text-to-Speech:匿名的; 文字转语音-开源

    Anonymous TTS 是一个专为文本到语音转换设计的开源应用程序。其主要功能是将用户输入的文字转换成语音输出,生成.wav格式的音频文件。这个程序的独特之处在于它的匿名性,意味着开发者鼓励用户自由地使用和改进这个...

    IOS应用源码——OpenEars_0.9.02.zip

    OpenEars 是一个开源的 iOS 应用开发框架,专为实时的语音识别和语音合成而设计。这个框架允许开发者在 iOS 设备上实现离线的、低延迟的语音交互功能,无需依赖云端服务,对于那些对数据隐私有较高要求或者在网络不...

    语音朗读源码2.0

    此外,还提到了一个更新的版本——VB语音朗读5.0,这是该项目的最新迭代,可能包含更多的功能优化和性能提升。用户可以通过提供的链接在CSDN下载站获取这个最新版本。 【标签】"VB 语音朗读"强调了这个项目的核心...

    安卓Android源码——仿Siri的中文语音助理源码.zip

    在安卓(Android)平台上开发一个类似Siri的中文语音助理是一项技术挑战,涉及到多个关键的技术领域。这个压缩包文件提供了一套源码,用于帮助开发者理解如何构建这样的应用。以下是一些相关的知识点: 1. **语音...

    ASSP Library-开源

    ASSP(Advanced Speech Signal Processing)库是一个专为这些领域设计的开源软件,它提供了一个全面的框架,用于分析、处理和理解语音信号。 ASSP库的核心优势在于其灵活性和模块化设计。通过这个库,开发者可以...

Global site tag (gtag.js) - Google Analytics