没真的智能机的孩子你伤不起啊有木有!成天都是倒霉Symbian60啊有木有!上次超流量下载了Google Search for S60,里面神奇的有“语音搜索”……然后就是今天碰到android手机了,自带一个语音输入法啊!这准确率杆杆地!不过根据我多秒经验,S60的废柴API库绝对没有这么完美的语音识别(玩过诺基亚的应该都知道,待机状态长按右软件那个出来的是自带的识别功能),所以肯定Google留了一手!
(软件见
http://www.google.com/intl/zh-CN_ALL/mobile/google-mobile-app/)
废话多了,现在看看Google的猥琐API之STT!(属于speech-api v1的recognize)
http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN
不过使用不是那么简单的哦……
如何调用
要使用这个API,你得先有一些心理素质:面对倒霉的FLAC格式,因为这个API只支持FLAC格式的数据,杯具啊。
不过你找到了我的博客,那么你是幸福的,因为我已经为你准备了不少好东西了。(顺便说一句,如果要转载记得清楚地标注“来自http://blog.laobubu.net”,我信任你。)
现在看看如何请求数据:
【URL】
http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN
【方式】POST
【请求头】Content-Type:audio/x-flac; rate=16000
【POST】flac文件的数据
如果你人品大爆发,你成功了,可以得到类似这个的结果
{"status":0,"id":"54e1babccaa58682ffbb02ceb42aa47c-1",
"hypotheses":[{"utterance":"测试程序","confidence":0.8556527}]}不过不简单哦
实例:用于Python
#By laobubu.net
import urllib2
FILE='1.flac' #这里假设在当前文件夹下有一个叫1.flac的文件被识别
url = 'http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN'
audio=open(FILE,'rb').read()
headers = {'Content-Type' : 'audio/x-flac; rate=16000'}
req = urllib2.Request(url, audio, headers)
response = urllib2.urlopen(req)
print response.read().decode('UTF-8')头疼:FLAC文件格式
这里我长话短说,google的flac也有限制,22050 Hz+201kbps还正常,如果比这个大多了就不对了。
不过还有最要命的问题,怎么生成FLAC文件?
没关系,这里有救星:flac.exe包下载
http://datastorage.laobubu.net/FLAC.zip (
具体使用方法是【flac.exe 文件.wav】这样在命令行调用即可,测试得知:不支持MP3等格式,但是支持基本的wav格式。
好了,你可以去制造你的app了,哈哈。
爱你:来自laobubu实验室的福音
为了方便,我写了一个python程序,放在Google App Engine上面,只要提交一个音频文件的URL(支持MP3、wav等常见格式),且文件不大,就可以得到结果了哦。(再次强调,跟你说的,上laobubu.net没错的)
API入口:
http://laobubumf.appspot.com/stt/
备用入口:
http://glab.laobubu.net/stt/
喜欢的话记得+1哦,当然捐赠我最不介意
转
http://blog.laobubu.net/546 Google的语音识别API,支持各种语言
关于将其他格式的多媒体文件转换成flac格式可以参照:
http://wujie2008.iteye.com/blog/1237788
分享到:
相关推荐
本章我们将分别介绍这些吸引开发者眼球的特色开发,主要包括:传感器系统(Sensor)、语音识别技术(RecognizerIntent)、Google Map 和用来开发桌面的插件(Widget)。 9.1 传感器 传感器是一种物理装置或生物...
- GPS导航应用开发:展示了如何利用Android平台的API接口开发特定功能应用,例如GPS导航和Google Map电子地图的应用。 - 语音识别技术应用:虽然在提供的内容中未详细展示语音识别功能的实现,但可以推测文档涉及...
Google搜索应用,拥有非常方便的中文语音搜索、Google Goggles、我的位置、Google Map等Google软件,使得用户能方便和快捷地访问Google的服务,获得更好的手机Google搜索体验。 Google Goggles:通过使用iPhone...
语音识别技术在此处起到了关键作用,它可以将用户的口述转化为文字,快速输入到地图信息中。 4. **数据同步**:扩展可能还包含了自动保存和同步功能,确保用户在编辑过程中的所有更改都能及时存储,并在不同设备间...
Python中常见的语音识别库有SpeechRecognition,它可以与Google Speech Recognition API或其他第三方服务接口结合使用。 实现这些功能的关键组件包括: - **语音合成(Text-to-Speech, TTS)**:用于将文本转化为...
百度提供了丰富的API服务,包括地图、搜索、语音识别、自然语言处理等。例如,百度地图API允许开发者在自己的网站或应用上嵌入地图功能,实现定位、导航、路线规划等。要使用百度地图API,你需要先注册一个百度...
Hummingbird使Google能够处理更为复杂和自然的语音搜索请求。 6. **Mobile-First Indexing**:随着移动设备的普及,Google于2017年开始优先考虑移动版本的网页内容来构建其索引,确保移动用户的搜索体验。 7. **...
14. 语音识别的常见应用包括拨号、导航和设备控制,聊天则不是典型的语音识别应用。 15. 自由学习不属于人工智能算法的学习方法,常见的有迁移学习、对抗学习和强化学习。 16. 机器学习通过数据训练出模型,以提高...
近年来,深度学习在语音识别和图像识别等领域取得显著成果,腾讯希望通过深度学习技术改进其产品功能,如微信的语音识别和图像识别,以及QQ和QZone的广告精准投放。 在实现深度学习的高效运用时,腾讯面临三大挑战...
26. 语音识别产品体系包括语音合成、语音识别和语义理解,语音播放不是其组成部分。 27. 第一代算法模型代表是 MapReduce,用于批处理任务。 28. Spark 是基于内存的迭代计算框架,尤其适合需要多次操作数据的场景...
26. 语音识别产品的体系包括语音合成、语音识别和语义理解,语音播放不是体系之一。 27. 第一代算法模型通常是MapReduce,Tez、Spark和Pig是后续的改进和发展。 28. Spark是一个基于内存的迭代计算框架,适用于需要...
9.7 语音识别 9.8 tts语音合成 第10章 数据存储 10.1 shared preferences 第11章 无线网络通信 11.1 初认识无线局域网 11.2 socket通信 11.3 android与javaschpt交互 第2章 goog-emap与gps 12.1...
首先,kinectV2用于手势和语音识别。 在此应用程序中,可以识别两种类型的手势,一种是基于视觉手势构建器,另一种是使用骨骼关节,因为kinect v2具有捕获手中的小骨头的能力,因此可以使用闭合,打开或套索等手势...
26. 语音识别产品体系中的四部分是语音合成、语音识别和语义理解,不包括语音播放。 27. 第一代算法模型通常是MapReduce,Tez、Spark和Pig是后来的改进或替代方案。 28. Spark是一个基于内存的迭代计算框架,尤其...
《探索大数据与人工智能》习题库提供了关于大数据和人工智能领域的知识点,涵盖 Spark Streaming、Kafka、大数据发展趋势、人工智能算法、自然语言处理、语音识别、机器学习、数据结构等方面的内容。 1. Spark ...
26. 语音识别产品体系通常包括语音合成、语音识别和语义理解,语音播放不是体系的一部分。 27. 第一代算法模型在数据生态中通常是MapReduce,它在Hadoop框架下运行。 28. Spark是基于内存计算的,它可以高效地处理...
26. 语音识别产品体系包括语音合成、语音识别和语义理解,语音播放不是其组成部分。 27. MapReduce 是第一代算法模型,而 Tez、Spark 和 Pig 是后续发展的迭代计算框架。 28. Spark 基于迭代计算,提供更快的数据...
26. 语音识别产品体系:语音识别、语音合成、语义理解是其中的一部分,语音播放通常不被视为核心部分。 27. 第一代算法模型:MapReduce,Tez、Spark和Pig是基于MapReduce的改进或替代方案。 28. Spark的迭代计算...
这种方法对于需要处理大量数据的深度学习和机器学习任务,如蛋白质结构分析、语音识别、图像处理等领域,具有重要的实践意义和应用价值。通过MapReduce并结合输入分片扰乱,可以使得BP神经网络在处理大数据时的训练...