TrulyHandsfree™ - The Important First Step in a Voice User Interface - 坚持,淡定

laiyangdeli

浏览: 1515794 次
性别:
来自: 南京

最近访客更多访客>>

bitzgx

u012363178

二冲2010

u012361334

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

TrulyHandsfree™ - The Important First Step in a Voice User Interface

博客分类：

TTS&ASR

http://sensoryinc.com/blog/?p=494

An interesting blog post (from PC World) came out following Apple’s iPhone 4s intro with Siri. I think everyone knows what Siri is…it’s the Apple acquisition that has turned into a big part of the Apple user experience. Siri technology allows a user to not only search but control various aspects of a smartphone by voice in a “natural language” manner.

The blog post depicts a looming showdown between Sensory and Apple’s Siri. It is quite kind to Sensory, pointing out our near-flawless performance in noise and how TrulyHandsfree™ does not require button presses. While those points are true, Sensory is certainly NOT a competitor to Siri. We do partner with companies like Vlingo that might be considered a Siri competitor, but Sensory’s TrulyHandsfree is just the first part of a multi-stage process for creating a true Voice User Interface.

Here is the basic process:

How to create a successful Voice User Interface

It’s just that first step that Sensory does better than anyone else. However, it’s an important step that requires a few critical characteristics:

Extremely fast response time. Since it basically competes with a button press, it has to have a similar or faster response time. Because TrulyHandsfree uses a probabilistic approach, it can respond without having to wait for the recognizer to determine if the word is even finished! Slow response times lead users to speak before the Step 2 recognizer is ready to listen, which is a major cause of failure.
Low power consumption. If it’s always on and always listening, it can’t be a power hog. Sensory can perform wake-up triggers with as little as 15 MIPS, and has the ability to operate in the 1-10mA range on today’s smartphones.
Highly accurate with poor S/N ratios. This means several things:
- Works in high noise. TrulyHandsfree Voice Control performs flawlessly in extremely loud environments, including music playing in the background or even outdoors in downtown Portland !
- Works without a microphone in close proximity. TrulyHandsfree is responsive even at distances of 20 feet (in a relatively quiet environment) and at arms length in noise. This is critical because many VUI based applications of the future will become commonplace in a wide variety of consumer electronics devices, and users won’t want to get up and walk over to their devices to control them.

Companies like Nuance, Vlingo, Google and Microsoft are pretty good at the second step, which is a more powerful (often cloud-based) recognition system.

The third step “Understanding Meaning” is what the original Siri was all about. This was an AI component developed under DARPA funding at SRI and later spun off and acquired by Apple. Apple is rumored to be using Nuance as the “Step 2” in Siri.

Vlingo does a really nice job of implementing Steps 1-3 (using Sensory as its partner for Step 1.) I’m sure Google, Microsoft, Apple and Nuance all have efforts underway in the area of AI and natural language understanding. It’s really not that different than what they have needed for text-based “meaning” recognition during traditional searches.

The SEARCH in Step 4 is done via typical search engines (Google, Microsoft, Apple) and I’d guess Vlingo and other independent players (are there any still around???) have developed partnerships in these areas.

Step 5 is basically a good quality TTS engine. Providers like Nuance, Ivona, ATT, NeoSpeech, and Acapella all have nice TTS engines, and I believe Apple, Microsoft and Google all have in-house solutions as well!

The important point in comparing Sensory’s technology is that we provide the logical entryway to a successful Voice User Interface experience–with a lightning-fast voice trigger that replaces tactile button presses. It is a given that noise immunity and extremely high accuracy are also required, and Trulyhandsfree accomplishes this without requiring a prohibitive amount of power to function reliably and consistently.

AND…while we appreciate the comparison to the most profitable company on the planet, we’d like to focus on what we do better…making Truly Hands-Free really mean Trulyhandsfree™.

分享到：

基本JNI调用技术(c/c++与java互调) | A Faster Emulator with Better Hardware S ...

2012-04-14 18:16
浏览 1185
评论(0)
分类:移动开发
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Dialog新增两款全新音频DSP编解码器: 这一特性得益于Sensory的TrulyHandsFree语音控制和识别软件，该软件提供了语音搜索、自定义声控命令、说话人验证和身份识别，且支持多种语言。 DA7322和DA7323的波束成形技术允许麦克风在不同位置灵活布置，适应端...

分布式电源接入配电网的技术挑战与解决方案：风光互补无功补偿及PSO优化: 内容概要：本文探讨了分布式电源（DG）接入配电网所带来的技术挑战及其解决方案。首先介绍了DG接入对配电网潮流分布和电压稳定性的影响，随后详细讨论了风光互补无功补偿技术的应用，旨在稳定电压和提高电能质量。接着，文章阐述了粒子群算法（PSO）在电气互联和故障点位定位中的应用，展示了其在优化电网拓扑结构和快速准确定位故障方面的优势。最后，通过Simulink建模和仿真实验，验证了所提出的方法和技术的有效性。适合人群：从事电力系统研究、分布式电源集成、智能电网优化的专业人士，以及对相关技术感兴趣的工程技术人员。使用场景及目标：适用于分布式电源接入配电网的设计与优化，特别是在解决电压波动、无功补偿不足和故障定位不准等问题时。目标是提升配电网的稳定性和效率，确保电力系统的可靠运行。其他说明：文中提供了多个Matlab和Python代码示例，用于具体实现风光互补无功补偿、粒子群优化算法以及Simulink仿真模型，便于读者理解和实践。

基于博途V15的1500系列PLC六层电梯SCL编程与梯形图实现: 内容概要：本文详细介绍了使用博途V15软件和1500系列PLC实现单部六层电梯控制系统的SCL编程方法及其梯形图实现。主要内容涵盖电梯的基本控制逻辑，如楼层升降、平层停靠、呼叫响应等。文中通过具体代码示例展示了如何定义关键变量、处理楼层呼叫信号、实现电梯运行和平层停靠逻辑。此外，还讨论了状态机的设计、方向决策算法以及开关门控制等重要环节。文章强调了SCL语言在处理复杂逻辑方面的优势，并对比了梯形图在故障诊断时的直观性。适合人群：对工业自动化控制感兴趣的技术人员，尤其是熟悉西门子PLC编程的工程师。使用场景及目标：适用于需要深入了解电梯控制系统编程原理和技术实现的人群。目标是帮助读者掌握SCL语言和梯形图在电梯控制中的应用，提高编程技能。其他说明：文章提供了完整的代码片段和详细的解释，有助于读者理解和实践。同时提醒读者关注实际应用中的细节问题，如安全保护机制、信号防抖处理等。

电力电子领域LLC谐振变换器的MATLAB/Simulink仿真及软开关实现: 内容概要：本文详细介绍了如何使用MATLAB/Simulink对全桥和半桥LLC谐振变换器进行仿真，涵盖驱动配置、谐振参数计算、软开关验证以及闭环控制等方面。首先，文章讲解了半桥LLC的基本配置，包括PWM生成、死区时间和谐振参数的设定。接着，讨论了全桥LLC的扩展及其相对于半桥的优势，如更宽的增益范围和更好的输入电压适应性。然后，深入探讨了软开关的验证方法，强调了ZVS（零电压开关）的重要性和实现方式。最后，介绍了闭环控制的设计思路，包括PID控制器的应用和参数调整技巧。适合人群：从事电力电子设计的研究人员和技术工程师，尤其是那些希望深入了解LLC谐振变换器仿真和优化的人群。使用场景及目标：适用于需要进行LLC谐振变换器仿真的项目，旨在帮助工程师掌握从基本配置到高级控制的完整流程，确保高效稳定的电源转换系统设计。其他说明：文中提供了大量MATLAB代码片段，便于读者理解和实践。此外，还给出了许多实用的调试建议和注意事项，有助于避免常见错误并提高仿真成功率。

居民健康监测系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

宿舍管理系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

电力系统中同步发电机短路与电弧仿真的关键技术及其实现: 内容概要：本文详细介绍了同步发电机短路仿真和电弧仿真的重要性及其具体实现方法。首先讨论了同步发电机短路仿真的核心基础——派克变换，展示了如何利用Python进行派克变换的代码实现，并解释了短路电流的计算方法，包括次暂态电流、暂态电流和稳态电流。接着，文章探讨了电弧仿真的物理特性和数学模型，特别是经典的Mayr电弧模型，并给出了Matlab代码示例。此外，还提到了电弧在不同环境条件下的特性研究，如气压、湿度等因素对电弧的影响。最后，文章强调了这两种仿真在电力系统动态分析中的应用场景，特别是在评估短路故障对发电机及周边设备的影响方面的作用。适合人群：从事电力系统研究的专业人士、电气工程师、高校师生及相关领域的研究人员。使用场景及目标：适用于需要深入了解同步发电机短路和电弧仿真原理的研究人员和技术人员，旨在提高电力系统的安全性、可靠性，优化保护措施的设计。其他说明：文中不仅提供了理论知识，还附带了具体的代码实现，便于读者理解和实践。同时，文章指出了仿真过程中可能出现的问题及解决方案，如数值稳定性问题和接口时序处理等。

学生选课系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明: 基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明，个人经导师指导并认可通过的高分设计项目，评审分99分，代码完整确保可以运行，小白也可以亲自搞定，主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者，可作为毕业设计、课程设计、期末大作业。基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模拟浏览器行为的小红书关键词搜索和笔记爬取源码+文档说明基于Selenium模

医笙小程序系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

工业自动化中高速追剪飞锯系统的维伦通触摸屏与台达PLC程序解析: 内容概要：本文深入探讨了高速追剪飞锯系统的实现细节，特别是维伦通触摸屏和台达PLC之间的协同工作。触摸屏作为人机交互界面，允许操作员设置如切割长度、运行速度等参数，并通过与PLC寄存器的关联实现数据传输。台达PLC则负责执行复杂的电子凸轮追剪算法，确保切割过程的高精度和稳定性。文中还介绍了关键的PLC指令，如MC_GearIn和CAM_GEN，以及它们在速度同步和位置控制中的应用。此外，文章揭示了一些调试技巧和潜在问题，如数据类型对齐、补偿算法和参数调整方法。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些对PLC编程和人机界面设计感兴趣的人。使用场景及目标：适用于需要理解和优化高速追剪飞锯系统的场合，旨在提高生产效率和产品质量。通过学习本文，读者可以掌握如何设置和调试此类系统，从而减少故障率并提升性能。其他说明：文章不仅提供了理论知识，还包括了许多实用的操作建议和经验分享，有助于读者更好地应对实际工作中遇到的技术挑战。

高速永磁同步电机Maxwell仿真：50000-100000rpm转速区间的电磁与机械设计挑战: 内容概要：本文详细探讨了高速永磁同步电机（HSPMSM）在50000-100000rpm转速范围内的设计与仿真挑战。首先介绍了高速电机的应用背景及其面临的离心力和电磁损耗等问题。接着，通过具体实例展示了如何利用Maxwell软件进行电机的几何建模、材料设置、边界条件与激励设置，并进行了详细的模拟结果分析。文中特别强调了在极端转速条件下，如10万转时，电机内部的物理现象以及相应的优化措施，如采用碳纤维护套增强机械强度、调整损耗计算模型以提高精度等。适合人群：从事电机设计与仿真的工程师和技术研究人员，尤其是对高速永磁同步电机感兴趣的从业者。使用场景及目标：适用于希望深入了解高速永磁同步电机设计原理及仿真技巧的人群，旨在帮助他们掌握Maxwell软件的具体应用方法，解决实际工程中遇到的技术难题，如高转速下的电磁兼容性和机械可靠性问题。其他说明：文章不仅提供了理论指导，还包括大量实用的操作步骤和代码示例，有助于读者快速上手并应用于实际工作中。此外，文中提到的一些特殊处理方式（如碳纤维护套的应用），为解决特定工况下的技术瓶颈提供了新思路。

浪潮英信服务器 SA5212M5 用户手册: 浪潮英信服务器 SA5212M5 用户手册

COMSOL仿真中放电电极击穿空气的电场分布与击穿电压计算: 内容概要：本文详细介绍了如何使用COMSOL进行放电电极击穿空气的仿真。首先构建了一个针尖电极和球头圆柱电极组成的模型，设置了静电和电流耦合的物理场，并进行了网格优化。通过参数化扫描和MATLAB脚本，计算不同间隙距离下的击穿电压，并利用Paschen曲线进行验证。同时探讨了电场强度在尖端的集中现象及其对击穿的影响，提出了改进网格质量和求解器设置的方法。最后，通过电场矢量图和电势分布图展示了仿真的结果。适合人群：从事电磁场仿真、电气工程、等离子体物理等相关领域的研究人员和技术人员。使用场景及目标：适用于需要精确计算电极间击穿电压和电场分布的研究项目，帮助设计高压设备和评估电极结构的安全性和可靠性。其他说明：文中提供了详细的建模步骤和代码片段，便于读者复现实验结果。同时强调了网格质量、边界条件和求解器设置对仿真准确性的重要影响。

家居项目后端资源采用ssm架构: 家居项目后端资源采用ssm架构

互联网大厂面试题合集：并发编程面试题-重点.pdf: 整理一线大厂面试题合集

牵牛花铅笔素材儿童教学课件模板.pptx: 牵牛花铅笔素材儿童教学课件模板

我的日记 2025/4/19: 2024年的记录。

互联网大厂面试题合集：Linux操作系统面试题.pdf: 整理一线大厂面试题合集

Apollo 7.0行为预测模块升级：轨迹交互与评估器设计详解及其应用: 内容概要：本文详细解析了Apollo 7.0行为预测模块的关键升级点，主要包括新增的Inter-TNT模式、VECTORNET_EVALUATOR以及JOINTLY_PREDICTION_PLANNING_EVALUATOR。这些组件通过引入轨迹交互模拟、动态归一化、联合预测规划等创新机制，显著提高了障碍物轨迹预测的准确性和场景适应性。特别是在处理复杂交通场景如高速公路变道、十字路口交汇时表现出色。此外，文中还介绍了增量式特征更新机制的应用，有效减少了CPU占用，提升了系统的实时性能。适用人群：适用于对自动驾驶技术感兴趣的开发者、研究人员和技术爱好者，尤其是那些希望深入了解Apollo平台行为预测模块工作原理的人群。使用场景及目标：①帮助读者理解Apollo 7.0行为预测模块的技术细节；②指导开发者如何利用这些新技术提升自动驾驶系统的预测精度；③为研究者提供有价值的参考资料，促进相关领域的进一步探索。其他说明：文章不仅提供了详细的代码解读，还包括了实际应用场景中的效果对比，使读者能够全面掌握新旧版本之间的差异。同时，附带的思维导图有助于快速理清各个子模块之间的调用关系和数据流向。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

TrulyHandsfree™ - The Important First Step in a Voice User Interface

评论

发表评论

相关推荐

Voice detection for Android

Google hired one of Nuance soft engineers to help work around all Nuance patents

The Voice Browser Working Group

Nuance网站

Nuance HTTP Services

Nuance - Dragon Mobile SDK - Speech Kit Library Guide (for Android)

Nuance - Dragon Mobile SDK - Speech Kit

Nuance’s Dragon ID Lets You Unlock Your Smartphone Or Tablet By Talking To It

Android 4.1 Jelly Bean adds Offline Voice Typing

The http request header of Vlingo request

三星已经禁止运行在其他手机上的S Voice应用访问服务器了

三星的S Voice应用

Samsung S Voice

The response from Vlingo

eyes-free - Speech Enabled Eyes-Free Android Applications

Biometric Identification (生物特征识别)

详解wave头格式(尽可能详细并附代码)

关于数字音频处理的一些常识

[AndroidTips]调用TextToSpeech朗读的时候如何中间停顿

The speech energy endpointer implementation from Chrome

最近访客更多访客>>