一些语音识别的概念

laiyangdeli

浏览: 1510990 次
性别:
来自: 南京

最近访客更多访客>>

bitzgx

u012363178

二冲2010

u012361334

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

TTS&ASR

        ■ 大词汇量、独立于说话人的健壮识别功能
        识别系统能对多种语言进行大词汇量的识别，在中文识别方面使用了讯飞TTS引擎使用的词典和文本分析技术，能够对语法内容进行分词处理，保证多音字的识别效果。
        ■ 端点检测与打断（End Pointer && Barge-In）
        端点检测是对输入的音频流确定语句的起始和终止的处理过程。当找到语句的起始和终止点后，语句区向前后分别延伸预定的长度。一旦检测到语句的起始点，语音开始流向识别引擎，直到检测到语句的终止点。通过这种方式，识别引擎在用户在讲话的同时，已经开始处理讲话的内容，而又不需要处理语音的起止处多余的静音，从而节约CPU时间和网络带宽。
        打断功能使用户可以打断提示、作出响应，无需等到提示音结束播放。打断功能使得用户和系统间的交流更加快捷、自然，特别是系统的熟练用户。
        ■ 多识别结果和置信度（N-Best && CM）
        对于有些应用程序，可能需要识别引擎产生可能的识别结果集，而不是一个最好的结果。系统提供了可能的识别结果列表，并按可能性从高到低排列。
        语音识别引擎在返回识别结果时会携带该识别结果的置信度，对多个识别结果给出其可能性的指标，准确的置信度输出可以为识别结果的分析和后续处理提供依据，改善在用户语音不清晰、语义不明确时的效果体验。
        ■ 语音录入（Voice Enrollment）
        允许用户通过本人语音来向动态语法增加命令或词表。这种方式不但能够有效利用用户个性化的语音，提高系统的识别准确率；而且能够提高用户输入词表的方便性和灵活性。例如，在语音通讯录的应用中，用户可以通过语音的方式来添加通讯录，从而使用户可以随时随地修改自己的通讯录。
        ■   动态语法
        动态语法是由应用程序在运行时动态创建和修改的语法。这在应用程序词汇必须在运行时才能完全确定的情况下是必不可少的。

       ■ 呼叫日志（Call Logging）
        语音识别的调用日志在系统中有着非常重要的作用，该日志记录了输入的音频、加载的语法、识别过程的中间结果、识别模块调用过程、识别使用的各种参数、识别结果以及当时的系统环境信息。这些数据是效果分析的依据，详尽的Call-Log是效果优化的基础。
        ■ 说话人自适应
        当用户多次使用同一识别系统时，识别引擎能够逐步适应其口音，使该使用者的识别效果逐步提高。同时，如果预先给定特定说话人的数据，系统可以针对特定说话人进行自适应训练以获得更加适合其发音特征的语音模型，使该说话人在使用系统时，识别效果更好。
        ■ 多槽识别
        语音识别的槽（Slot）代表一个关键字，即在一次识别中可以识别多个关键字，这种识别模式可以提高语音识别的使用效率和用户体验。
        ■ 模型自适应
        针对每个应用专门优化通用模型从而更加适合应用：包括方言和口音的说话人特征，无线设备、VoIP设备等通道特征，词汇和环境噪声等应用特征。

分享到：

Some tts&asr links | Android中文语音合成（TTS）各家引擎对比 ...

2012-03-04 19:43
浏览 1649
评论(0)
分类:移动开发
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论