`

VAD打断方案

 
阅读更多

什么是打断

打断,就是机器人说话的时候,用户没等机器人说完,就开始说话。一般做法是检测到用户声音持续100-200ms就停止机器人说话,这样存在一个弊端,就是如果噪音很大的环境,或者用户身边有人说话,会导致错误的打断,本文主要介绍几个方法,来避免这个问题。

动态最小声音时间

VAD有这样一个参数 min_speak_ms [数字] 可选参数 默认100ms 最小的声音时间 单位毫秒,默认值 100ms。

这个参数的含义是,设置一个最小的声音时间,只有声音持续时间超过这个值才认为是有效声音,触发打断和提交到ASR服务器识别。

为什么我选择了这个100ms作为这个默认值呢,因为电话接通后,很多人习惯说一声”喂”,或者”您好”, “喂”的持续时间一般是100-200s,”您好”的持续时间是 200-300ms.

开发业务流程的时候,可以动态设置这个值,来避免无效声音打断,比如电话接通后的第一个声音,设置100ms,后续声音设置,200-300ms。就可以非常有效避免错误打断。

关键词打断

2.1版本已经实现,用户停顿一下就提交ASR识别,把识别结果发送给业务程序,就是让业务程序控制是否需要打断。

检测到说话声音先暂停放音,识别不到有效文字后,恢复放音

VAD模块检测到用户声音后,暂停播放机器人说话声,同时开始提交声音流到ASR服务器识别,如果ASR服务器返回的不是有效语句, 恢复机器人说话(不是简单的从暂停的地方开始,而是利用VAD算法,定位到最近声音的起点,然后开始播放)下面举个例子说明。

机器人:你好,我是XX售楼部,请问你最近有(这个时候检查到用户端声音,暂停播放)

ASR识别到的文字不是有效回答。可能是环境噪音等。机器人恢复说话。

机器人:请问你最近有打算买房吗。(利用VAD检测到 打断点最近一个句子的开始位置开始放音,不再重复播放“你好,我是XX售楼部”,也不是简单的从打断点开始播放)。

这个方案,可以有效的解决 环境噪音等打断,导致机器人说话给停止,可以像真人一样,听到用户声音停顿一下继续接着说下去。 

 

转自:http://www.ddrj.com/smartivr/break.html

分享到:
评论

相关推荐

    vad.zip_vad_webrtc_webrtc VAD_webrtc vad_witch

    标题中的"vad.zip_vad_webrtc_webrtc VAD_webrtc vad_witch"暗示了这是一个关于WebRTC中的VAD算法的压缩包,其中可能包含了用C++编写的实现。"witch"可能是该项目或算法的一个特定名称,或者是开发者对代码库的一个...

    vad-master_c语言编写的基于webrtc的vad算法_webrtc的vad_语音端点检测_端点检测_uphde_

    标题"vad-master_c语言编写的基于webrtc的vad算法_webrtc的vad_语音端点检测_端点检测_uphde_"提到了一个项目,这个项目是用C语言实现的,它基于WebRTC的语音活动检测(Voice Activity Detection, VAD)算法。...

    DNN实现的VAD

    **深度神经网络(DNN)实现的语音活动检测(VAD)** 语音活动检测(Voice Activity Detection,简称VAD)是语音处理中的一个重要技术,它主要用于识别音频中的语音段和非语音段,如静音、噪声等。在自动语音识别...

    vad1.rar_VAD matlab实现_matlab端点检测_vad 噪声_vad检测_端点

    语音端点检测(Voice Activity Detection,VAD)是语音处理中的关键步骤,它主要用于识别音频信号中的语音段和非语音段,例如静音、噪声或背景音乐。在本压缩包中,"vad1.rar"包含了一个基于MATLAB实现的VAD算法,名...

    VAD算法的源程序_vad_

    VAD,全称为Voice Activity Detection,即语音活动检测,是一种在通信、音频处理和语音识别等领域广泛应用的技术。它主要用于识别音频流中是否存在有效的人声,从而过滤掉背景噪声或者静音段,提高信号处理的效率和...

    webrtc静音检测(vad)部分单独封装使用

    在WebRTC中,语音活动检测(Voice Activity Detection,VAD)是一项关键的技术,用于识别并区分语音和非语音信号,从而有效地节省带宽和提高通信质量。 静音检测(VAD)是一种音频处理技术,用于判断输入的音频流...

    通过VAD树枚举进程DLL(通过processID)

    ### 通过VAD树枚举进程DLL(通过processID) #### 概述 在Windows操作系统中,每一个进程都拥有自己的虚拟地址空间。为了管理和维护这些虚拟地址空间,系统使用了一种特殊的平衡二叉搜索树——VAD树(Virtual Address...

    VAD实验用数据集

    适合VAD算法研究用的数据集,主要以噪声为主,16kz的wav格式,可自行合成

    vad语音活动检测

    这些代码通常会定义一些关键函数,如`vad_init()`用于初始化VAD模块,`vad_process_frame()`用于处理单个音频帧,以及`vad_deinit()`用于释放资源。通过阅读和理解这些代码,开发者可以学习到如何在实际项目中应用...

    vad_2010_03_01

    【标题】"vad_2010_03_01"可能指的是一个与语音活动检测(Voice Activity Detection, VAD)相关的资料集,发布于2010年3月1日。在这个领域,VAD是一种技术,用于在音频流中识别和分离出人声部分,通常用于语音通信、...

    MyHider.zip_peb_peb模块隐藏_vad_模块隐藏_进程隐藏

    本文将深入探讨标题“MyHider.zip_peb_peb模块隐藏_vad_模块隐藏_进程隐藏”所涉及的知识点,包括PEB(Process Environment Block)、PEB模块隐藏、VAD(Virtual Address Descriptor)以及进程隐藏技术。 首先,PEB...

    webrtc中的vad检测

    在WebRTC中,Voice Activity Detection(VAD)是一种关键技术,它用于判断音频流中是否存在语音活动,从而帮助优化带宽使用和提高通信质量。 VAD的主要目标是区分语音和非语音段,例如背景噪声、静默时段等。它通常...

    Voice activity detection (VAD) toolkit including DNN, bDNN

    这个工具包结合了这些先进的深度学习模型,旨在提供一个全面且高效的VAD解决方案。用户可以通过训练和调整不同的模型参数,以适应特定的环境和应用场景。例如,在移动通信中,VAD可以帮助节省带宽资源,只传输有语音...

    VAD.rar_NOISE_silk VAD_silk VAD_vad

    在这个名为"VAD.rar_NOISE_silk VAD_silk VAD_vad"的压缩包中,我们可以看到与Silk VAD(Voice Activity Detection)相关的资源。Silk是Skype开发的一种高效音频编码器,尤其适合低延迟和宽带语音通信。Silk VAD是...

    音频断句/语音端点检测(android-webrtc-vad).zip

    【Android WebRTC VAD】是基于Google开源项目WebRTC的一款语音活动检测(Voice Activity Detection,简称VAD)技术,主要用于音频处理,特别是实时通信场景。WebRTC是一个强大的、开源的实时通讯框架,广泛应用于...

    android webrtc vad(静音检测) demo

    android webrtc vad(静音检测) demo webrtc的vad静音检测音频处理模块,含源码。VAD 录音过程中,实时检测当前是否有人在讲话(语音活动检测,或者叫静音检测)。讲话时webRtcVad_Process返回true,不讲话时返回...

    VAD语音活动检测库,linux下编译

    VAD,全称为Voice Activity Detection,是语音处理领域的一个关键技术,用于识别音频流中的语音片段与静音时段。在WebRTC(Web Real-Time Communication)框架中,VAD库扮演着重要角色,它可以帮助优化网络带宽使用...

    VAD.rar_vad

    声音变化检测(Voice Activity Detection,简称VAD)是一种在音频处理和通信技术中广泛应用的技术,其主要目的是识别和分离音频信号中的语音部分与非语音部分,例如静音、背景噪音等。VAD能够帮助系统有效地节约带宽...

    vad.m.zip_VAD.m matlab_vad_vad matlab_vad.m_zip

    【标题】"vad.m.zip_VAD.m" 指的是一个包含名为 "VAD.m" 的 MATLAB 脚本的压缩文件。这个脚本是用于实现语音活动检测(Voice Activity Detection,简称 VAD)的算法。在语音处理领域,VAD 是一项关键技术,它能识别...

Global site tag (gtag.js) - Google Analytics