阅读更多

0顶
0踩

行业应用
引用
作者简介:
李通旭,清华大学博士后,主要从事说话人识别方向的研究。现于清华大学与得意音通声纹识别联合实验室。
刘乐,得意音通研发部经理,主攻声纹识别及语音识别算法研究。有丰富的模式识别算法研发和工程实现经验,曾负责声密保系统的设计和研发工作。
责编:何永灿(heyc@csdn.net)
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅《程序员》

“声纹”作为一种典型的行为特征,相比其他生理特征在远程身份认证中具有先天的优势,文章介绍了声密保在远程身份认证中的应用,解析了一些在声纹识别准确率、时变问题和噪音问题等方面的技术难点和工程解决经验,最后针对远程身份认证的安全性问题,分享了得意音通在防录音闯入上的最新研究成果。希望对广大读者有所帮助。

声纹在远程身份认证中的应用

网络安全面临重大挑战

无线互联网以及智能手机的迅速发展,给人们日常生活带来极大便利的同时也带来了不容忽视的安全隐患,如何准确、迅速、安全地实现远程身份认证成为摆在人们面前急需解决的问题。人们在实践中发现,生物特征具有唯一且在一定时间内较稳定不变的特性,这种独特的优势使得生物特征识别技术被认为是终极的身份认证技术。

生理特征和行为特征

生物特征可分为生理特征和行为特征两类,现在人们熟知的基本都是生理特征,包括指纹、人脸、掌纹、虹膜、DNA等,这些特征的特点是具有稳定性和持续的唯一性,因此基于这些特征建立的身份验证系统识别率高,但存在容易丢失和被复制的问题。相比于生理特征,行为特征也具有唯一性,但是其复制成本极高,由于行为特征具有变化性,不慎丢失后或被窃取后,也难以直接使用来闯入系统。声纹就是一种典型的行为特征。

声纹——更好的远程身份认证方式

基于生物特征的远程身份认证的一个巨大挑战是终端和网络的安全性很难被保证,若黑客从网络或终端上获取用户的生物特征,则可以轻易地侵入系统。基于声纹行为特征的特点,若系统能确认每次进入系统的声纹数据的实时性,则可以解决此问题,因为丢失的行为数据(录音)并不能通过系统的实时性检测。我们的声密保系统即这方面解决方案的一个例子。图1为声密保系统的处理流程图,声密保系统通过对动态密码语音中的密码内容及请求人身份的双重识别,实现对操作人身份合法性的双重验证。当需要认证时,系统会随机产生一组动态码(如6位或8位数字)要求用户朗读,系统对用户读出的声音进行语音识别并将识别的内容与发出的动态码数字进行比对,同时系统对用户的发音进行声纹比对,两种认证手段都通过时才判断通过。这种随机性的引入使得文本相关识别中每一次采到的声纹都有内容时序上的差异。

图1 声密保系统的处理流程图

声纹识别的一些工程经验

形简意丰的语音信号

语音信号具有得天独厚的优势,形简意丰。语音表现形态简单,仅表现为一维信号,但所涵盖的信息非常丰富。如图2所示,语音信号包含语义内容信息,语种(语言、方言)信息,说话人身份(唯一身份证明)、性别信息,情感信息(高兴、悲伤、恐惧、焦虑……)等等。声纹结合内容和情感等信息是阻止声纹假冒和人身胁迫的最佳武器。

图2 形简意丰的语音信号

语音信号这一特点,使其具有极强的安全性,但同时给精确的声纹识别也带来挑战,因为很难从语音中提取纯粹的声纹特征。我们在这些方面进行了大量的算法和工程方面的工作,并取得了不错的效果。

识别准确率

虽然现在已经有许多成熟的算法使声纹识别的准确率得到了明显的提高,但相对于其它的生理特征,声纹识别仍需要做更多的工作才能达到相同的水准。

我们使用了十万人级别的数据库对系统进行训练,相比小数量级的系统,性能提升十分明显,在万人的测试数据库上,EER仍可以保持在1%以下。

图3总结了声纹识别发展的历史以及对应的三个重要阶段。图中所展示的各类声纹识别技术我们均有深入研究,并且针对不同的应用场景我们合理的实现了“新老”技术的结合。

图3 声纹识别发展史

基于不同的算法,我们提出了虚拟引擎的概念,专门用于将各种算法进行融合。这种融合可以有效提高系统的识别性能,例如我们使用基于GMM-UBM和DNN-iVector的两个引擎相同的数据集上进行测试,其错误重合率仅有20%左右。图4表现了这一概念的实现,实际的引擎根据算法和配置的不同分为group、virtual-engine(虚拟引擎),调用这些实际引擎提供的接口并对算法进行融合处理,上层只需要和标准的虚拟引擎接口通讯即可。

图4 虚拟引擎

时变问题

人的整个发声系统随着时间的推移会产生一定的变化,这些变化直接导致了其语音信息中的声纹信息的变化,如果算法或系统不考虑这些变化,那么一段时间后,系统的识别性能将有所下降。为此我们录制了长达4年的100人的时变语音库,基于此语音库分析,我们找到了和时变相关的一些特征信息和规律,并试用其对MFCC和PLP特征的提取过程进行了修改。另外在工程方面,以声密保系为例,其在架构设计中就考虑到了模型的在线更新问题,并设计了专门的语音筛选算法,系统会定期的挑选用户符合条件的最新语音进行模型的重新训练。

噪音问题

正如软件工程中所提的没有银弹的概念一样,任何技术都有一定的局限性,不可能无限制地应用于任何场景,声纹技术在大噪音环境下并不适用。针对此我们开发了一套语音质量检测的库来对环境噪音和语音的信噪比进行检测,将不符合条件的语音排除在系统之外并对用户进行提示。此套噪音检测系统采用了传统的基于能量、包络、自相关系数等特征的检测算法和RNN/LSTM相结合方法,能准确的检测出96%以上不符合条件的场景。

防录音重放攻击措施

在解决这些传统问题的同时,为了保证用声纹进行远程身份认证的安全性,我们还提出了一系列防攻击措施,包括动态密码语音、用户自定义密码、多特征活体检测和录音重放等。由于篇幅有限,下面详细介绍我们在录音重放上的工作。

录音重放是一种常见的声纹特征盗取手段,由于采用动态密码的方式,很难将一个人的各种发音组合全部录制下来。但我们还是假设如果把这个人所有的文本发音(在声密保系统中为0~9的数字发音)全部录下来,然后根据系统提示的数字密码进行拼接重放,那么还是同一个人的声音,是否能够通过声纹识别系统验证呢?

我们先分析一个典型的录音重放过程:

正常语音信号:y(t)=x(t)*a(t)
录音重放语音信号:y’(t)=x(t)*a’(t) *d’(t)*a(t)

图5中录音ADCs(模数转换)和重放DACs(数模转换)是对语音信号的两次传输,均会对原始信号产生影响,且ADCs和DACs是非连续可逆的,除了ADCs和DACs外,传输过程还包括噪音、混响等因素,录音重放会造成信道失配和信号强度衰减等现象。

图5 典型的录音重放过程

图6给出了一段真实语音和其录音重放后语音的时频分析,可以看出在这种情况下真实语音和录音重放语音很难被区分,录音重放可以说是最容易实施和最难被检测的假体攻击方式。

图6 一段真语音和录音重放语音的时频分析

2017年的Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge中,首次将录音重放检测纳入到说话人识别的防闯入比赛中,一个理想的录音重放检测系统应该在已知和未知的条件下都很鲁棒,包含与训练数据不同的说话人、不同的录音重放内容和不同的录音重放设备。ASVspoof针对录音重放检测进行的比赛中,全球近100个团队参加,最终提交了49个,我司的结果排在第5。相关的声纹确认防录音论文发表在Interspeech上。

《A Study on Replay Attack and Anti-Spoofing for Automatic Speaker Verification》论文主要分两部分:第一部分分析了不同的说话人、文本和设备对录音重放检测性能的影响;第二部分给出了有效的录音重放检测算法实现。

论文用F-ratio来分析不同因素对重放检测性能的影响。F-ratio是一个简单的频域加权方法,频带的权重可以由其对任务的判别能力决定。假设在分析语音谱时采用的滤波器个数为M,第i个滤波器的F-ratio可以定义为:

Cg表示真实语音,Cr表示重放语音。xi表示第i个滤波器语音帧x的值,uig和uir分别是滤波器内真实语音和重放语音所有帧的均值,Ng和Nr分别是两类语音的语音帧数。最后用M个滤波器的F-ratio值组[F1,F2,…,FM]来分析真实语音和重放语音在不同频带上的区分性。

在ASVspoof中,开发集和测试集中含有比训练集种类更多的录音重放设备。在训练集中利用少量设备的录音重放语音进行模型训练非常容易导致过拟合,弱化了提取的特征和训练的模型的概化能力。为了提高概化能力,降低这种变化对重放检测的影响,论文采用了频率弯折的方法,如图7所示,Mel方法增强了特征在低频段的区分能力,IMel方法增强了特征在高频段的区分能力。

图7 三种频率弯折曲线

图8给出了在Mel和IMel两种频率弯折方法下,不同的说话人、文本内容、和录音重放设备在滤波器组上的F-ratio值,从(c)列图中可以看出用Mel方法,不同的录音重放设备对滤波器组的F-ratio值影响很明显;但是IMel方法大大降低了设备间差异对F-ratio的影响,这对后面建立概化能力更强的模型具有非常重要的意义。

图8 Mel和IMel方法在不同的说话人、文本和设备情况下对F-ratio的影响

在录音重放检测部分,论文使用(MFCC,LPCC和IMFCC)三种特征在训练集上建立了基于GMM、ivector/SVM和DNN的重放检测系统,并在开发集中进行了测试。从下面结果可以看出IMFCC特征是最有效的,最简单的GMM模型取得了最好的效果,DNN模型虽然在表中也取得了不错的效果,但是存在不稳定的问题,不同的初始化将导致不同的结果,有的差异很大。

其实在日常生活中用手机进行录音重放是最方便的。相比于多样性的录音重放设备,手机等移动设备上的录音重放检测要简单的多,我们曾经对60种不同型号的手机进行了接近十万条的录音重放检测,结果重放的检出率基本为100%。

总结

声纹作为生物特征中的行为特征,配合语音识别技术,通过互动方式在远程身份认证“用自己来证明自己”方面有其他生物特征难以替代的优势。当然,就像前面提到的任何技术都有一定的局限性,不可能无限制的应用于任何场景。只有通过结合声纹和其他生物特征组成多因子认证手段,才能更好地保证远程身份认证安全。
  • 大小: 9.3 KB
  • 大小: 237.3 KB
  • 大小: 43.2 KB
  • 大小: 50.4 KB
  • 大小: 41.8 KB
  • 大小: 193.5 KB
  • 大小: 25.1 KB
  • 大小: 25.3 KB
  • 大小: 132.1 KB
  • 大小: 143.7 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • (转)追MM与23种设计模式

     1、FACTORY—追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory    工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时,工厂类也要做相应的修改。如:如何创建及如何向...

  • 数字化时代如何“适老”?快商通声纹识别技术前来助力

    11月21日,湖北一位94岁的老人为激活社保卡,被子女抬着在银行柜机前进行人脸识别。11月23日,湖北宜昌一名老人冒雨用现金交医保被拒,工作人员告诉老人:“不收现金,要么告诉亲戚,要么你自己在手机上支付。”新冠...

  • 声纹识别应用:除了人脸识别,声纹识别技术也能帮警察抓逃犯!

    为全力落实扫黑除恶百日追逃行动,11月4日,公安部发布A级通缉令,公开通缉20名重大黑恶在逃人员。...事实上,随着人工智能技术逐渐的落地应用,公安部门抓捕逃犯的工作也较以前有了很大变化。不同于...

  • 一文读懂声纹采集、声纹识别、声纹数据库系统等声纹识别技术在公安业务领域的应用场景

    查指纹、查人脸、查DNA,这些都已成为了公安机关打击违法犯罪分子的重要技术手段,然而还有另外一种技术手段,在上述无法做到的情况下,依然可以让犯罪活动无所遁形,那就是声纹识别技术。 声纹识别是生物识别技术的...

  • 声纹识别技术如何助力金融反欺诈?

    我国金融业务下沉的同时,其风险也在不断扩张。各类金融机构,无论是银行、互联网金融平台,还是私募基金、保险等,都将面临愈发严峻的风控挑战。 与此同时,基于新技术...为什么声纹识别可以应用于人工智能金融反欺

  • 声纹识别开源工具 ASV-Subtools

    分享的主题是声纹识别开源工具ASV-Subtools,主要有5个部分的内容,分别是背景介绍、工具介绍、实验结果、Subtools工程化、总结与展望。

  • 声纹识别数据:让疫情期间的“闻声识人”更安全

    相比之下,声纹识别技术以其安全性与便捷性,成为身份认证方式强有力的武器。声音通过空气传播途径,不受口罩的影响,用户也无需接触设备终端,能有效避免疫情情况下的病毒传染风险。 声纹,就是对语音中所蕴含的、...

  • 人工智能助力网络金融反欺诈,声纹识别受追捧

    与此同时,基于新技术和新场景的诈骗手段不断升级,软、硬件攻击,社会工程学等方式并举,犯罪分子欺诈能力不断提升,欺诈方式更具专业化、智能化,欺诈手段迅速翻新。 在此背景下,反欺诈成为了金融系统中必不可少...

  • 人工智能界的逃犯克星不止人脸识别,声纹识别也能助力公安追逃

    为全力落实扫黑除恶百日追逃行动,11月4日,公安部发布A级通缉令,公开通缉20名重大黑恶在逃人员。...事实上,随着人工智能技术逐渐的落地应用,公安部门抓捕逃犯的工作也较以前有了很大变化。不同于以往的人海战术...

  • 六大场景,看懂声纹识别技术怎样“抗疫防疫”

    在这场全民参与,全科技保卫的防控之战中,声纹识别技术将在哪些场景和环节中发挥作用呢? image/20200215/683d2cc8a7764d32790ae32d021a378f.jpeg 疫情防控时期,声纹识别效用明显 随着人工智能对传统行业的赋能...

  • 人工智能老司机带你认识声音黑科技:声纹识别

    作者:micos 全文共 3249 字 4 图,阅读需要 8 分钟 ...声纹识别算法的技术指标 影响声纹识别水平的因素 声纹识别的应用流程 声纹识别的应用场景 一、什么是声纹? 声纹(Voiceprint),

  • 声扬科技声纹识别技术,为工商银行构建多模态反欺诈能力

    工商银行是中国资产规模最大的银行之一,也是国内银行业中信息技术运用的领军者,2020年工商银行信息科技投入为238.19亿,信息科技人员达3.54万人,且在中国银保监会全国性银行信息科技监管评级中获评银行业第一。...

  • 声纹识别:走出实验室,迈向产业化 | 会员专栏

    人们通过听觉来判断说话人的身份,古已有之,正所谓“闻声知人”。对计算机来说,这种能力就是声纹识别,又称说话人识别,它基于语音中所包含的说话人特有的个性信息,自动鉴别当前语...

  • mysql 向量查找_AnalyticDB向量检索+AI 实战: 声纹识别

    1. 背景近年来,随着人工智能对传统行业的赋能改造,越来越多的基于人工智能的业务解决方案被提出来,声纹识别在保险行业中的身份认证便是一个很好的例子. 声纹识别是根据说话人发音的生理和行为特征,自动识别说话...

  • 厦门移动推出适老化服务,快商通声纹助力老年人不再成为“数字遗民”

    2019年,快商通发布了基于声纹识别的“智慧社保资格认证解决方案”,为社保认证提供高效精准的远程身份识别服务。 方案以快商通KICP智能人机对话平台与语音技术平台为核心,搭建RPA+智能外呼应用,工作人员通过...

  • 一篇文章了解生物特征识别六大技术

    点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达生物识别技术,通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性(如指纹、...

  • MATLAB声纹识别开源工具 ASV-Subtools

    Subtools是厦门大学智能语音实验室在2020年5月发布的一个开源工具,当时开发这个工具的目的是希望能够提升声纹识别研究的效率,因为在19年之前不管是用Kaldi还是用其他的一些不完整的开源代码去复现一些别的论文架构...

  • AVR单片机项目-ADC键盘(源码+仿真+效果图).zip

    使用adc功能来判断不同电压,那必定是通过电压的不同来区分的,这就需要按键与电阻进行组合,我设计打算使用正比关系的按键阻值,这样会比较好在程序判断,最后就如仿真图那样设计,按键按下让某部分电路短路,剩下的电路得到不同的电压值,而不同按键按下,对应的电阻值是10k的倍数,很好区分。而基地的电阻设为10k,按键靠近gnd的电压值最小,远离则慢慢增大,可大概计算出来的,分压的电压为5v。按键不按时为0v,有按键按的电压范围为2.5v~0.238v。然后用以前编写好的数码管驱动拿过来用,也就是用动态扫描的方式进行显示的。然后编写adc代码,根据atmega16的数据手册就可以慢慢写出来了,即配置好ADMUX、ADCSRA寄存器,使用单次触发的方式,写好对应的函数,在初始化之后,使用定时器1中断进行adc的读取和数码管的刷新显示。而adc对应按键的判断也使用了for循环对1024分成1~21份,对其附近符合的值即可判断为按键i-1,可直接显示出来,而误差值可以多次测量后进行调整。 使用adc功能来判断不同电压,那必定是通过电压的不同来区分的,这就需要按键与电阻进行组合,我设计打算使用正比关系的按

  • java毕设项目之基于SpringBoot的失物招领平台的设计与实现(完整前后端+说明文档+mysql+lw).zip

    项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java 框架:springboot,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3

Global site tag (gtag.js) - Google Analytics