- text2wfreq < weather.txt | wfreq2vocab > weather.tmp.vocab
最近研究Android上的语音识别,在此记录下遇到的问题。
先引用一篇博文,http://leiwuluan.iteye.com/blog/1287305。根据这篇博文的内容,要是没遇到问题的话,应该可以生成一个apk,在手机上可以运行,能进行识别,但是效率很低,识别率也不咋地。现在我们需要自己来构建识别的库。
根据代码
- c.setString("-dict",
- "/sdcard/Android/data/edu/edu.cmu.pocketsphinx/lm/zh_CN/mandarin_notone.dic");
- c.setString("-lm",
- "/sdcard/Android/data/edu/edu.cmu.pocketsphinx/lm/zh_CN/gigatdt.5000.DMP");
程序会引用到两个文件,第一个是字典文件,第二个是声音模型文件,程序先将输入的声音和声音模型文件对比,生成音节编码,再将音节编码在字典中查找,返回最后的字符结果。Sphinx是个很完善的引擎,除了开源之外,官方还提供了各种工具供开发者构建自己的声音对比模型,字典,记忆语言模型。本文参考http://cmusphinx.sourceforge.net/wiki/tutoriallm,用CMUCLMTK构建自己的语言模型。
1.首先,假设你已经根据本文开头的那篇博文成功编译了PocketSphinx并且成功在手机上运行。
2.下载CMUCLMTK,http://sourceforge.net/projects/cmusphinx/files/cmuclmtk/0.7/cmuclmtk-0.7.tar.gz/download
3.将下载的文件解压到Sphinx根目录,参见开篇引用博文。
4.命令行下进入到CMUCLMTK目录,我的为
- /workspace/VoiceRecognition/cmuclmtk-0.7#
我的电脑系统是linux,如果是windows需要用cgwin
5. ./configure
6.make install
7.cd src
8.make install
9.在4的目录下,新建weather.txt,输入
- <s> generally cloudy today with scattered outbreaks of rain and drizzle persistent and heavy at times </s>
- <s> some dry intervals also with hazy sunshine especially in eastern parts in the morning </s>
- <s> highest temperatures nine to thirteen Celsius in a light or moderate mainly east south east breeze </s>
- <s> cloudy damp and misty today with spells of rain and drizzle in most places much of this rain will be
- light and patchy but heavier rain may develop in the west later </s>
10.命令行下输入,
- text2wfreq < weather.txt | wfreq2vocab > weather.tmp.vocab
这时报错,如下
- text2wfreq: error while loading shared libraries: libcmuclmtk.so.0: cannot open shared object file: No such file or directory
参考error while loading shared libraries解决。
11.输入
- text2idngram -vocab weather.tmp.vocab -idngram weather.idngram < weather.txt
12.输入
- idngram2lm -vocab_type 0 -idngram weather.idngram -vocab weather.tmp.vocab -arpa weather.arpa
如果无误,在目录下会生成weather.tmp.DMP文件。
官网说在http://www.speech.cs.cmu.edu/tools/lmtool.html也可以在线提交txt文件,在服务器生成DMP文件,但是我在试的时候,发现访问不了,可能是太多人用了,CMU把这个服务给关了?
哈哈,在查资料的时候,又发现有这方面的博文,再引用一下,http://www.cnblogs.com/huanghuang/archive/2011/07/14/2106579.html,http://archive.cnblogs.com/a/2111834/,http://www.cnblogs.com/huanghuang/archive/2011/07/18/2109101.html,这三篇应该讲的很全面了。
相关推荐
Pocketsphinx是Sphinx的一个轻量级版本,适用于移动设备和嵌入式系统,它在处理实时语音识别方面表现出色。 1. **Sphinx基础知识**: - **语音识别原理**:Sphinx采用 Hidden Markov Model (HMM) 理论,通过识别...
PocketSphinx是一款开源的、轻量级的语音识别引擎,主要由Carnegie Mellon University的CSL(计算机科学实验室)开发。它主要用于离线语音识别,尤其适合在资源有限的设备上,比如嵌入式系统或者移动应用。这个...
《PocketSphinx语音识别系统语言模型的训练与声学模型改进》 Sphinx是一个由美国卡内基梅隆大学研发的开源大词汇量、非特定人连续语音识别系统,受到CMU、DARPA等机构的支持。Sphinx系列中,Sphinx-4是一款基于JAVA...
3. **初始化引擎**:在Android应用中创建并初始化PocketSphinx实例,设置识别器的参数,如采样率、词汇表、语言模型等。 4. **录音和处理**:使用Android的MediaRecorder API来捕获音频流,然后将其传递给Pocket...
通过结合Google Voice在线语音识别服务和PocketSphinx离线语音识别库,开发者能够为Android应用提供强大的语音交互功能。本文介绍了语音识别的基础知识,探讨了在Android平台上实现语音识别的关键技术和方法,为相关...
泛微协同办公平台E-cology9.0版本后台维护手册(X)--建模引擎. 泛微协同办公平台E-cology9.0版本后台维护手册(X)--建模引擎. 泛微协同办公平台E-cology9.0版本后台维护手册(X)--建模引擎. 泛微协同办公平台E-...
PocketSphinx是CMU Sphinx语音识别引擎的一个轻量级版本,特别适合于移动设备。它不需要网络连接,可以在本地处理音频数据,从而快速响应用户的语音输入。它的主要优点包括低功耗、快速响应以及对特定词汇集的高识别...
该系统可能包括录音、语音转文字以及结果显示等功能,并且可能具有错误处理和用户体验优化的考虑。 **详细知识点** 1. **语音识别技术**:语音识别是将人类语音转化为文本的过程,常使用深度学习模型如RNN(循环...
在IT领域,语音技术是人工智能的一个重要分支,主要包括语音朗读和语音识别两大技术。这两个技术在日常生活中有着广泛的应用,如智能助手、无障碍设施、语音操控设备等。本资料"语音朗读-语音识别-语音.zip"可能包含...
在Python世界中,反向工程通常是通过分析源代码来生成UML(统一建模语言)图表,帮助开发者理解代码结构和类之间的关系。 Sphinx-PyReverse可能是Sphinx的一个插件,允许用户在文档生成过程中添加代码结构的图形...
**语音识别:原理与应用** 本课程源自厦门大学智能语音实验室,由洪青阳老师主讲,主题聚焦于“语音识别:原理与应用”。通过学习这门课程,我们可以深入了解语音识别这一前沿领域的核心技术及其实际应用。 一、...
HMM是一种常用的统计建模工具,常用于语音识别、自然语言处理等领域。它假设观察序列是由不可见的状态序列生成的,而这些状态之间的转移遵循一定的概率分布。 1. **隐马尔科夫模型(HMM)**:在语音识别中,HMM通常...
标题中的“语音识别数据集-speech analytic--性别识别--Voice Gender Detection using GMMs-1”揭示了这个压缩包文件的主要内容,它是一个用于语音识别的特定任务——性别识别的数据集,采用的方法是基于高斯混合...
该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括 CNN-CTC、GRU-CTC、CNN-RNN-CTC,语言模型包含 transformer、CBHG,数据集包含 stc、primewords、Aishell、thchs30 四个数据集。...
《语音识别技术白皮书-12发布_V1.0.2》是针对自主开发的语音识别系统(ASR:Automatic Speech Recognition)的一份详细技术文档。这份文档旨在揭示该系统的特性和功能,为相关领域的开发人员、算法工程师、产品经理...
Sphinx4是一个强大的开源语音识别框架,主要由Java语言编写,提供了一整套完整的工具和库,用于构建高质量的语音识别系统。这个压缩包“sphinx4-5prealpha-src.zip”包含了Sphinx4的最新预发行版本(5prealpha)的源...
基于迁移学习的喀尔喀蒙古语语音识别声学建模 人工智能语音识别技术在近年来得到了快速发展,语音识别系统的性能提高了许多。但是,仍然存在一些挑战,特别是在低资源语音识别系统中。喀尔喀蒙古语是一种低资源语言...
Sphinx4是一个开源的、Java实现的语音识别引擎,它为开发者提供了构建语音识别应用的能力。这个"**sphinx4-1.0beta6-bin.zip**"文件是Sphinx4的1.0 beta 6版本的二进制发行包,包含预编译的库和必要的资源,使得用户...
1. **源代码**:解压后的文件通常包含Java源代码,这些代码展示了如何在Android应用中集成PocketSphinx库,包括初始化语音识别器、设置监听器以及处理识别结果。 2. **资源文件**:项目可能包含语言模型(.lm)、...