`

google map 语音识别

 
阅读更多
没真的智能机的孩子你伤不起啊有木有!成天都是倒霉Symbian60啊有木有!上次超流量下载了Google Search for S60,里面神奇的有“语音搜索”……然后就是今天碰到android手机了,自带一个语音输入法啊!这准确率杆杆地!不过根据我多秒经验,S60的废柴API库绝对没有这么完美的语音识别(玩过诺基亚的应该都知道,待机状态长按右软件那个出来的是自带的识别功能),所以肯定Google留了一手!


(软件见http://www.google.com/intl/zh-CN_ALL/mobile/google-mobile-app/

废话多了,现在看看Google的猥琐API之STT!(属于speech-api v1的recognize)
http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN
不过使用不是那么简单的哦……
如何调用
要使用这个API,你得先有一些心理素质:面对倒霉的FLAC格式,因为这个API只支持FLAC格式的数据,杯具啊。

不过你找到了我的博客,那么你是幸福的,因为我已经为你准备了不少好东西了。(顺便说一句,如果要转载记得清楚地标注“来自http://blog.laobubu.net”,我信任你。)

现在看看如何请求数据:

【URL】http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN
【方式】POST
【请求头】Content-Type:audio/x-flac; rate=16000
【POST】flac文件的数据
如果你人品大爆发,你成功了,可以得到类似这个的结果

{"status":0,"id":"54e1babccaa58682ffbb02ceb42aa47c-1",
"hypotheses":[{"utterance":"测试程序","confidence":0.8556527}]}不过不简单哦


实例:用于Python
#By laobubu.net

import urllib2
FILE='1.flac' #这里假设在当前文件夹下有一个叫1.flac的文件被识别
url = 'http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN'
audio=open(FILE,'rb').read()
headers = {'Content-Type' : 'audio/x-flac; rate=16000'}
req = urllib2.Request(url, audio, headers)
response = urllib2.urlopen(req)

print response.read().decode('UTF-8')头疼:FLAC文件格式
这里我长话短说,google的flac也有限制,22050 Hz+201kbps还正常,如果比这个大多了就不对了。

不过还有最要命的问题,怎么生成FLAC文件?

没关系,这里有救星:flac.exe包下载

http://datastorage.laobubu.net/FLAC.zip

具体使用方法是【flac.exe 文件.wav】这样在命令行调用即可,测试得知:不支持MP3等格式,但是支持基本的wav格式。

好了,你可以去制造你的app了,哈哈。

爱你:来自laobubu实验室的福音
为了方便,我写了一个python程序,放在Google App Engine上面,只要提交一个音频文件的URL(支持MP3、wav等常见格式),且文件不大,就可以得到结果了哦。(再次强调,跟你说的,上laobubu.net没错的)

API入口:http://laobubumf.appspot.com/stt/
备用入口:http://glab.laobubu.net/stt/

喜欢的话记得+1哦,当然捐赠我最不介意


http://blog.laobubu.net/546 Google的语音识别API,支持各种语言


关于将其他格式的多媒体文件转换成flac格式可以参照:
http://wujie2008.iteye.com/blog/1237788
分享到:
评论

相关推荐

    Android特色开发之传感器和语音识别.doc

    本章我们将分别介绍这些吸引开发者眼球的特色开发,主要包括:传感器系统(Sensor)、语音识别技术(RecognizerIntent)、Google Map 和用来开发桌面的插件(Widget)。 9.1 传感器 传感器是一种物理装置或生物...

    Android语音识别的应用与开发.pdf

    - GPS导航应用开发:展示了如何利用Android平台的API接口开发特定功能应用,例如GPS导航和Google Map电子地图的应用。 - 语音识别技术应用:虽然在提供的内容中未详细展示语音识别功能的实现,但可以推测文档涉及...

    Google搜索 v3.1.24.941712.arm

    Google搜索应用,拥有非常方便的中文语音搜索、Google Goggles、我的位置、Google Map等Google软件,使得用户能方便和快捷地访问Google的服务,获得更好的手机Google搜索体验。 Google Goggles:通过使用iPhone...

    gmmplus:Google Map Maker Plus

    语音识别技术在此处起到了关键作用,它可以将用户的口述转化为文字,快速输入到地图信息中。 4. **数据同步**:扩展可能还包含了自动保存和同步功能,确保用户在编辑过程中的所有更改都能及时存储,并在不同设备间...

    语音助手

    Python中常见的语音识别库有SpeechRecognition,它可以与Google Speech Recognition API或其他第三方服务接口结合使用。 实现这些功能的关键组件包括: - **语音合成(Text-to-Speech, TTS)**:用于将文本转化为...

    百度,谷歌,天气预报API应用实例

    百度提供了丰富的API服务,包括地图、搜索、语音识别、自然语言处理等。例如,百度地图API允许开发者在自己的网站或应用上嵌入地图功能,实现定位、导航、路线规划等。要使用百度地图API,你需要先注册一个百度...

    google搜索算法重要核心

    Hummingbird使Google能够处理更为复杂和自然的语音搜索请求。 6. **Mobile-First Indexing**:随着移动设备的普及,Google于2017年开始优先考虑移动版本的网页内容来构建其索引,确保移动用户的搜索体验。 7. **...

    《探索大数据与及人工智能》习题及答案.pdf

    14. 语音识别的常见应用包括拨号、导航和设备控制,聊天则不是典型的语音识别应用。 15. 自由学习不属于人工智能算法的学习方法,常见的有迁移学习、对抗学习和强化学习。 16. 机器学习通过数据训练出模型,以提高...

    腾讯深度学习平台(译)

    近年来,深度学习在语音识别和图像识别等领域取得显著成果,腾讯希望通过深度学习技术改进其产品功能,如微信的语音识别和图像识别,以及QQ和QZone的广告精准投放。 在实现深度学习的高效运用时,腾讯面临三大挑战...

    《探索大数据与及人工智能》习题及答案.docx

    26. 语音识别产品体系包括语音合成、语音识别和语义理解,语音播放不是其组成部分。 27. 第一代算法模型代表是 MapReduce,用于批处理任务。 28. Spark 是基于内存的迭代计算框架,尤其适合需要多次操作数据的场景...

    《探索大数据与人工智能》题库.pdf

    26. 语音识别产品的体系包括语音合成、语音识别和语义理解,语音播放不是体系之一。 27. 第一代算法模型通常是MapReduce,Tez、Spark和Pig是后续的改进和发展。 28. Spark是一个基于内存的迭代计算框架,适用于需要...

    Android手机交互应用开发创意之钥 源代码

     9.7 语音识别  9.8 tts语音合成  第10章 数据存储  10.1 shared preferences  第11章 无线网络通信  11.1 初认识无线局域网  11.2 socket通信  11.3 android与javaschpt交互  第2章 goog-emap与gps  12.1...

    Kinect-V2-Map-Visualisation

    首先,kinectV2用于手势和语音识别。 在此应用程序中,可以识别两种类型的手势,一种是基于视觉手势构建器,另一种是使用骨骼关节,因为kinect v2具有捕获手中的小骨头的能力,因此可以使用闭合,打开或套索等手势...

    《探索大数据与人工智能》习题.pdf

    26. 语音识别产品体系中的四部分是语音合成、语音识别和语义理解,不包括语音播放。 27. 第一代算法模型通常是MapReduce,Tez、Spark和Pig是后来的改进或替代方案。 28. Spark是一个基于内存的迭代计算框架,尤其...

    《探索大数据与人工智能》题目.docx

    《探索大数据与人工智能》习题库提供了关于大数据和人工智能领域的知识点,涵盖 Spark Streaming、Kafka、大数据发展趋势、人工智能算法、自然语言处理、语音识别、机器学习、数据结构等方面的内容。 1. Spark ...

    《探索大数据与人工智能》习题库教学资料.docx

    26. 语音识别产品体系通常包括语音合成、语音识别和语义理解,语音播放不是体系的一部分。 27. 第一代算法模型在数据生态中通常是MapReduce,它在Hadoop框架下运行。 28. Spark是基于内存计算的,它可以高效地处理...

    《探索大数据与人工智能》习题库教学资料.pdf

    26. 语音识别产品体系包括语音合成、语音识别和语义理解,语音播放不是其组成部分。 27. MapReduce 是第一代算法模型,而 Tez、Spark 和 Pig 是后续发展的迭代计算框架。 28. Spark 基于迭代计算,提供更快的数据...

    中国移动网络大学全员5G+通用知识《探索大数据与人工智能》题库答案.docx

    26. 语音识别产品体系:语音识别、语音合成、语义理解是其中的一部分,语音播放通常不被视为核心部分。 27. 第一代算法模型:MapReduce,Tez、Spark和Pig是基于MapReduce的改进或替代方案。 28. Spark的迭代计算...

    基于输入分片扰乱的BP神经网络MapReduce训练方法.pdf

    这种方法对于需要处理大量数据的深度学习和机器学习任务,如蛋白质结构分析、语音识别、图像处理等领域,具有重要的实践意义和应用价值。通过MapReduce并结合输入分片扰乱,可以使得BP神经网络在处理大数据时的训练...

Global site tag (gtag.js) - Google Analytics