陈孝良的小我专栏分享 /u/brygid 交融声学与人工智能,分享科学与创新知识

博文

语音辨认技术简史 精选

已有 2194 次阅读 2019-9-17 16:45 |体系分类:科普集锦

(作者:陈孝良,冯大航,李智勇

语音辨认,通常称为主动语音辨认,英文是Automatic Speech Recognition,缩写为ASR,重要是将人类语音中的词汇内容转换为计算机可读的输入,一样平常都是可以或许懂得的文本内容,也有可能是二进制编码或许字符序列。但是,咱咱们一样平常懂得的语音辨认其实都是狭义的语音转文字的过程,简称语音转文本辨认(Speech To Text, STT)更合适,如许就能与语音合成(Text To Speech, TTS)对应起来。

 

语音辨认是一项交融多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键关键。但是,语音辨认自降生以来的半个多世纪,不停没有在实际应用过程获得普遍承认,一方面这与语音辨认的技术缺点无关,其辨认精度和速率都达不到实际应用的请求;另外一方面,与业界对语音辨认的期望过高无关,实际上语音辨认与键盘、鼠标或触摸屏等应是交融相干,而非替代相干。

 

深度学习技术自2009年兴起之后,已经取得了长足提高。语音辨认的精度和速率取决于实际应用环境,但在安静环境、模范口音、常见词汇场景下的语音辨认率已经超过95%,意味着具有了与人类相仿的语言辨认能力,而这也是语音辨认技术以后睁开比较火热的原因。

 

跟着技术的睁开,如今口音、方言、噪声等场景下的语音辨认也到达了可用状况,分外是远场语音辨认已经跟着智能音箱的兴起成为全球消费电子领域应用最为胜利的技术之一。因为语音交互供给了更自然、更便利、更高效的相同情势,语音一定将成为未来最重要的人机互动接口之一。

 

当然,以后技术还存在很多不敷,如对付强噪声、超远场、强干扰、多语种、大词汇等场景下的语音辨认还必要很大的晋升;另外,多人语音辨认和离线语音辨认也是以后必要重点解决的成就。虽然语音辨认还无法做到无穷制领域、无穷制人群的应用,但是至少从应用实践中咱咱们看到了一些盼望。

 

本篇文章将从技术和产业两个角度来回想一下语音辨认睁开的过程和现状,并阐发一些未来趋向,盼望能帮助更多年青技术职员了解语音行业,并能发生兴趣投身于这个行业。


语音辨认的技术历

 

现代语音辨认可以或许追溯到1952年,Davis等人研制了世界上第一个能辨认10个英文数字发音的试验体系,今后正式开启了语音辨认的过程。语音辨认睁开到本日已经有70多年,但从技术偏向上可以或许大体分为三个阶段。

 

下图是从1993年到2017年在Switchboard上语音辨认率的进展环境,从图中也可以或许看出1993年到2009年,语音辨认不停处于GMM-HMM时代,语音辨认率晋升缓慢,特别是2000年到2009年语音辨认率基本处于停滞状况;2009年跟着深度学习技术,分外是DNN的兴起,语音辨认框架变为DNN-HMM,语音辨认进入了DNN时代,语音辨认精准率获得了显著晋升;2015年以后,因为端到端技术兴起,语音辨认进入了百花齐放时代,语音界都在训练更深、更复杂的网络,同时利用端到端技术进一步大幅晋升了语音辨认的机能,直到2017年微软在Swichboard上到达词错误率5.1%,从而让语音辨认的精确性初次超出了人类,当然这是在一定限定条件下的试验结果,还不具有普遍代表性。

 

clip_image002.jpg

 

GMM-HMM

 

70年月,语音辨认重要会合在小词汇量、孤立词辨认方面,应用的办法也重要是简略的模板匹配办法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数停止一一比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该办法对解决孤立词辨认是有用的,但对付大词汇量、非特定人连续语音辨认就无能为力。因此,进入80年月后,研究思绪发生了严重变更,从传统的基于模板匹配的技术思绪开端转向基于统计模子(HMM)的技术思绪。

 

HMM的实践基础在1970年前后就已颠末Baum等人树立起来,随后由CMUBakerIBMJelinek等人将其应用到语音辨认傍边。HMM模子假定一个音素含有35个状况,同一状况的发音相对稳固,分歧状况间是可以或许按照一定概率停止跳转;某一状况的特征散布可以或许用概率模子来描述,应用最普遍的模子是GMM。因此GMM-HMM 框架中,HMM 描述的是语音的短时安稳的静态性,GMM 用来描述 HMM 每一状况内部的发音特征。

 

基于 GMM-HMM 框架,研究者提出各种改良办法,如结合高低文信息的静态贝叶斯办法、区分性训练办法、自顺应训练办法、HMM/NN 混合模子办法等。这些办法都对语音辨认研究发生了深远影响,并为下一代语音辨认技术的发生做好了准备。自上世纪 90 年月语音辨认声学模子的区分性训练原则和模子自顺应办法被提出以后,在很长一段内语音辨认的睁开比较缓慢,语音辨认错误率那条线不停没有显著下降。


DNN-HMM

 

2006年,Hinton提出深度置信网络(DBN),促使了深度神经网络(DNN)研究的复苏。2009 年,Hinton DNN 应用于语音的声学建模,在 TIMIT 上取得了其时最佳的结果。2011 年末,微软研究院的俞栋、邓力又把 DNN 技术应用在了大词汇量连续语音辨认任务上,大大低落了语音辨认错误率。今后语音辨认进入DNN-HMM时代。

 

DNN-HMM重要是用DNN模子代替本来的GMM模子,对每个状况停止建模,DNN带来的好处是不再必要对语音数据散布停止假设,将相邻的语音帧拼接又包含了语音的时序布局信息,使得对付状况的分类概率有了显著晋升,同时DNN还具有壮大环境学习能力,可以或许晋升对噪声和口音的鲁棒性。clip_image004.jpg

简略来说,DNN便是给出输入的一串特征所对应的状况概率。因为语音信号是连续的,不只各个音素、音节和词之间没有显著的界限,各个发音单位还会遭到高低文的影响。虽然拼帧可以或许增长高低文信息,但对付语音来说还是不够。而递归神经网络(RNN)的出现可以或许记住更多历史信息,更有利于对语音信号的高低文信息停止建模。

 

因为简略的RNN存在梯度爆炸和梯度消散成就,难以训练,无法间接应用于语音信号建模上,因此学者进一步探究,开拓出了很多得当语音建模的RNN布局,此中最有名的便是LSTMLSTM颠末过程输入门、输入门和遗忘门可以或许更好的节制信息的活动和传递,具有长短时记忆能力。虽然LSTM的计算复杂度会比DNN增长,但其全体机能比DNN有相对20%阁下稳固晋升。clip_image005.gif

 

BLSTM是在LSTM基础上做的进一步改良,不只考虑语音信号的历史信息对以后帧的影响,还要考虑未来信息对以后帧的影响,因此其网络中沿光阴轴存在正向和反向两个信息传递过程,如许该模子可以或许更充足考虑高低文对付以后语音帧的影响,可以或许极大提高语音状况分类的精确率。BLSTM考虑未来信息的价值是必要停止句子级更新,模子训练的收敛速率比较慢,同时也会带来解码的延迟,对付这些成就,业届都停止了工程优化与改良,即使如今仍然有很多大公司应用的都是该模子布局。

 

clip_image006.gif

 

图像辨认中主流的模子便是CNN,而语音信号的时频图也可以或许看作是一幅图像,因此CNN也被引入到语音辨认中。要想提高语音辨认率,就必要克服语音信号所面对的多样性,包含说话人自己、说话人所处的环境、收集设备等,这些多样性都可以或许等价为各种滤波器与语音信号的卷积。而CNN相当于设计了一系列具有局部存眷特性的滤波器,并颠末过程训练学习获得滤波器的参数,从而从多样性的语音信号中抽取出不变的部分,CNN本质上也可以或许看作是从语音信号中赓续抽取特征的一个过程。CNN相比于传统的DNN模子,在相同机能环境下,前者的参数目更少。

 

综上所述,对付建模能力来说,DNN得当特征映射到自力空间,LSTM具有长短时记忆能力,CNN擅长削减语音信号的多样性,因此一个好的语音辨认体系是这些网络的组合。

 

端到端

 

语音辨认的端到端办法重要是价值函数发生了变更,但神经网络的模子布局并没有太大变更。全体来说,端到端技术解决了输入序列的长度远大于输入序列长度的成就。端到端技术重要分成两类:一类是CTC办法,另外一类是Sequence-to-Sequence办法。传统语音辨认DNN-HMM架构里的声学模子,每一帧输入都对应一个标签类别,标签必要反复的迭代来确保对齐更精确。

 

采纳CTC作为丧失函数的声学模子序列,不必要预先对数据对齐,只必要一个输入序列和一个输入序列就可以或许停止训练。CTC关怀的是预测输入的序列是否和真实的序列相近,而不关怀预测输入序列中每个结果在光阴点上是否和输入的序列正好对齐。CTC建模单位是音素或许字,因此它引入了Blank。对付一段语音,CTC末了输入的是尖峰的序列,尖峰的地位对应建模单位的Label,其余地位都是Blank

 

Sequence-to-Sequence办法本来重要应用于机械翻译领域。2017年,Google将其应用于语音辨认领域,取得了非常好的效果,将词错误率低落至5.6%。如下图所示,Google提出新体系的框架由三个部分构成:Encoder编码器组件,它和模范的声学模子相似,输入的是语音信号的时频特征;颠末一系列神经网络,映射成高级特征henc,然后传递给Attention组件,其应用henc特征学习输入x和预测子单位之间的对齐办法,子单位可以或许是一个音素或一个字。末了,attention模块的输入传递给Decoder,天生一系列假设词的概率散布,类似于传统的语言模子。

clip_image008.jpg

端到端技术的打破,不再必要HMM来描述音素内部状况的变更,而是将语音辨认的统统模块同一成神经网络模子,使语音辨认朝着更简略、更高效、更精确的偏向睁开。

 

语音辨认的技术现

 

目前,主流语音辨认框架还是由3个部分构成:声学模子、语言模子和解码器,有些框架也包含前端处理和后处理。跟着各种深度神经网络和端到端技术的兴起,声学模子是近几年非常热门的偏向,业界都纷纷发布自己新的声学模子布局,革新各个数据库的辨认记载。因为中文语音辨认的复杂性,国内在声学模子的研究进展相对更快一些,主流偏向是更深更复杂的神经网络技术交融端到端技术。

 

2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN应用大批的卷积间接对整句语音信号停止建模,重要借鉴了图像辨认的网络设置设备摆设,每个卷积层应用小卷积核,并在多个卷积层之后再加上池化层,颠末过程累积非常多卷积池化层对,从而可以或许看到更多的历史信息。

 

2018年,阿里提出LFR-DFSMNLower Frame Rate-Deep Feedforward Sequential Memory Networks)。该模子将低帧率算法和DFSMN算法停止交融,语音辨认错误率相比上一代技术低落20%,解码速率晋升3倍。FSMN颠末过程在FNN的隐层添加一些可学习的记忆模块,从而可以或许有用的对语音的长时相干性停止建模。而DFSMN是颠末过程跳转防止深层网络的梯度消失成就,可以或许训练出更深层的网络布局。

 

2019年,百度提出了流式多级的截断注意力模子SMLTA,该模子是在LSTMCTC的基础上引入了注意力机制来获得更大规模和更有层次的高低文信息。此中流式表示可以或许间接对语音停止一个小片段一个小片段的增量解码;多级表示堆叠多层注意力模子;截断则表示利用CTC模子的尖峰信息,把语音切割成一个一个小片段,注意力模子和解码可以或许在这些小片段上睁开。在线语音辨认率上,该模子比百度上一代Deep Peak2模子晋升相对15%的机能。

 

开源语音辨认Kaldi是业界语音辨认框架的基石。Kaldi的作者Daniel Povey不停推崇的是Chain模子。该模子是一种类似于CTC的技术,建模单位相比于传统的状况要更粗颗粒一些,只要两个状况,一个状况是CD Phone,另外一个是CD Phone的空白,训练办法采纳的是Lattice-Free MMI训练。该模子布局可以或许采纳低帧率的办法停止解码,解码帧率为传统神经网络声学模子的三分之一,而精确率相比于传统模子有非常显著的晋升。

 

远场语音辨认技术重要解决真实场景下舒适距离内人机任务对话和效劳的成就,是2015年以后开端兴起的技术。因为远场语音辨认解决了复杂环境下的辨认成就,在智能家居、智能汽车、智能集会、智能安防等实际场景中取得了普遍应用。目前国内远场语音辨认的技术框架曩昔端信号处理和后端语音辨认为主,前端利用麦克风阵列做去混响、波束构成等信号处理,以让语音更清楚,然后送入后端的语音辨认引擎停止辨认。

 

语音辨认另外两个技术部分:语言模子和解码器,目前来看并没有太大的技术变更。语言模子主流还是基于传统的N-Gram办法,虽然目前也有神经网络的语言模子的研究,但在适用中重要还是更多用于后处理纠错。解码器的中央目标是速率,业界大部分都是按照静态解码的办法停止,行将声学模子和语言模子构形成WFST网络,该网络包含了统统可能门路,解码便是在该空间停止搜索的过程。因为该实践相对成熟,更多的是工程优化的成就,所以不论是学术还是产业目前存眷的较少。

 

语音辨认的技术趋向

 

语音辨认重要趋于远场化和交融化的偏向睁开,但在远场靠得住性另有很多难点没有打破,比如多轮交互、多人噪杂等场景另有待打破,另有需要较为迫切的人声分离等技术。新的技术应该彻底解决这些成就,让机械听觉远超人类的感知能力。这不能仅仅只是算法的提高,必要全体产业链的共同技术进级,包含更加先辈的传感器和算力更强的芯片。

 

单从远场语音辨认技术来看,仍然存在很多挑衅,包含:

 

1)回声消除技术。因为喇叭非线性失真的存在,单纯依靠信号处理手腕很难将回声消除干净,这也阻碍了语音交互体系的履行,现有的基于深度学习的回声消除技术都没有考虑相位信息,间接求取的是各个频带上的增益,能否利用深度学习将非线性失真停止拟合,同时结合信号处理手腕可能是一个好的偏向。

 

2)噪声下的语音辨认仍有待打破。信号处理擅长处理线性成就,深度学习擅长处理非线性成就,而实际成就一定是线性和非线性的叠加,因此一定是两者交融才有可能更好地解决噪声下的语音辨认成就。

 

3)上述两个成就的共性是目前的深度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,特别是对付多通道而言,如何让深度学习更好的利用相位信息可能是未来的一个偏向。

 

4)另外,在较少数据量的环境下,如何颠末过程迁移学习获得一个好的声学模子也是研究的热门偏向。例如方言辨认,若有一个比较好的通俗话声学模子,如何利用少量的方言数据获得一个好的方言声学模子,如果做到这点将极大扩大语音辨认的应用领域。这方面已经取得了一些进展,但更多的是一些训练技能,距离最终偏向另有一定差距。

 

5)语音辨认的目标是让机械可以或许懂得人类,因此转换成文字并不是最终的目标。如何将语音辨认和语义懂得结合起来可能是未来更加重要的一个偏向。语音辨认里的LSTM已经考虑了语音的历史时刻信息,但语义懂得必要更多的历史信息能力有帮助,因此如何将更多高低文会话信息传递给语音辨认引擎是一个难题。

 

6)让机械听懂人类语言,仅靠声音信息还不够,声光电热力磁这些物理传感手腕,下一步必然都要交融在一路,只要如许机械能力感知世界的真实信息,这是机械可以或许学习人类知识的条件条件。而且,机械必然要超出人类的五官,可以或许看到人类看不到的世界,听到人类听不到的世界。

 

语音辨认的产业历

 

语音辨认这半个多世纪的产业过程傍边,此中共有三个关键节点,两个和技术无关,一个和应用无关。第一个关键节点是1988年的一篇博士论文,开拓了第一个基于隐马尔科夫模子(HMM)的语音辨认体系——Sphinx,其时实现这一体系的恰是如今的驰名投资人李开复。

 

1986年到2010年,虽然混合高斯模子效果获得持续改良,而被应用到语音辨认中,而且确切晋升了语音辨认的效果,但实际上语音辨认已经遭遇了技术天花板,辨认的精确率很难超过90%。很多人可能还记得,在1998年前后IBM、微软都已经推出和语音辨认相干的软件,但最终并未获得胜利。

 

第二个关键节点是2009年深度学习被体系应用到语音辨认领域中。这导致辨认的精度再次大幅晋升,最终打破90%,而且在模范环境下逼近98%。有意思的是,尽管技术取得了打破,也涌现出了一些与此相干的产品,比如 SiriGoogle Assistant 等,但与其引起的存眷度相比,这些产品实际获得的成就则要逊色得多。Siri 刚一壁世的时候,时任 Google CEO 的施密特就高呼,这会对 Google 的搜索业务发生基本性威胁,但事实上直到 Amazon Echo 的面世,这种基本性威胁才真的有了详细的载体。

 

第三个关键点恰是 Amazon Echo 的出现,纯粹从语音辨认和自然语言懂得的技术甚至功效的视角看这款产品,相对付 Siri 等并未有什么本质性改变,中央变更只是把近场语音交互变成为了远场语音交互。Echo 正式面世于20156月,到2017年销量已经超过千万,同时在 Echo 上扮演类似 Siri 角色的 Alexa 渐成生态,其后台的第三方技能已经打破10000项。借助落地时从近场到远场的打破,亚马逊一举从这个赛道的落后者变为行业引导者。

 

但自从远场语音技术规模落地以后,语音辨认领域的产业竞争已经开端从研发转为应用。研发比的是模范环境下纯粹的算法谁更有优势,而应用比较的是在真实场景下谁的技术更能发生优良的用户体验,而一旦比拼真实场景下的体验,语音辨认便失去自力存在的价值,更多作为产品体验的一个关键而存在。

 

所以到2019年,语音辨认似乎进入了一个相对平静期,全球产业界的重要介入者咱们,包含亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司,在一路狂奔过后纷纷开端反思自己的定位和下一步的打法。

 

语音赛道里的标志产品——智能音箱,以一种大跃进的姿势出如今大众眼前。2016年曩昔,智能音箱玩家咱们对这款产品的认识还都停留在:亚马逊出了一款叫Echo的产品,功效和Siri类似。先行者科大讯飞叮咚音箱的出师不利,更是加重了其它人的观望心态。真正让浩繁玩家从观望转为积极介入的转折点是逐渐曝光的 Echo销量,2016年末,Echo 近千万的美国销量让全体世界震惊。这是智能设备从未到达过的高点,在Echo曩昔除了Apple Watch与手环,像恒温器、摄像头如许的产品打破百万销量已是惊人表示。这种销量和智能音箱的AI属性促使2016年下半年,国内各大巨擘几乎是同时改变立场,积极打造自己的智能音箱。

 

未来,回看全体睁开过程,2019年是一个明白的分界点。在此之前,全行业是突飞猛进,但2019年之后则开端进入对细节领域渗透和打磨的阶段,人咱们存眷的核心也不再是单纯的技术目标,而是回归到体验,回归到一种新的交互办法到底能给咱咱们带来什么价值如许更加一样平常的、纯粹的商业视角。技术到产品再到是否必要与详细的形象停止交互结合,比如人物形象;流程主动化是否要与语音结合;旅店场景应该如何应用这种技术来晋升体验,诸如斯类最终都邑一一呈如今从业者眼前。而此时行业的主角也会从本来的产品方过渡到平台供给方,AIoT纵深过大,没有任何一个公司可以或许全线打造统统的产品。

 

语音辨认的产业趋向

 

当语音产业需要四处开花的同时,行业的睁开速率反过来会受限于平台效劳商的供给能力。跳出详细案例来看,行业下一步睁开的本质逻辑是:在详细每个点的投入产出是否到达一个普遍接受的界限。

 

离这个界限越近,行业就越会接近滚雪球式睁开的临界点,否则全体增速就会相对平缓。不管是家居、旅店、金融、教育或许其余场景,如果解决成就都是非常高投入而且长周期的工作,那对此承当本钱的一方就会犹豫,这相当于试错本钱过高。如果投入后,没有可感知的新体验或许销量增进,那对此承当本钱的一方也会犹豫,显然这会影响值不值得上的判断。而这两个工作,归根结底都必需由平台方解决,产品方或许解决计划方对此无能为力,这是由智能语音交互的基础技术特征所决定。

 

从中央技术来看,全体语音交互链条有五项单点技术:唤醒、麦克风阵列、语音辨认、自然语言处理、语音合成,其它技术点比如声纹辨认、哭声检测等数十项技术通用性略弱,但分离出如今分歧的场景下,并会在特定场景下成为关键。看起来关联的技术已经相对庞杂,但切换到商业视角咱咱们就会发现,找到这些技术距离打造一款体验上佳的产品仍然有绝大距离。

 

统统语音交互产品都是端到端打通的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要树立自己云效劳稳固,确保相应速率,适配自己所抉择的硬件平台,逐项整合详细的内容(比如音乐、有声读物)。这从产品方或许解决计划商的视角来看是不行接受的。这时候就会催生相应的平台效劳商,它要同时解决技术、内容接入和工程细节等成就,最终杀青试错本钱低、体验却足够好的偏向。

 

平台效劳并不必要闭门造车,平台效劳的条件是要有能屏蔽产品差异的操纵体系,这是AI+IOT的特征,也是有所参照的,亚马逊曩昔近10年里是同步着手做两件事:一个是持续推出面向终端用户的产品,比如EchoEcho Show等;一个是把统统产品所内置的体系Alexa停止平台化,面向设备端和技能端同步凋谢SDK和调试发布平台。虽然Google Assistant号称单点技术更加抢先,但从各方面的结果来看Alexa是当之无愧的最为抢先的体系平台,可惜的是Alexa并不支撑中文和相应的后台效劳。

 

国内则缺乏亚马逊这种统治力的体系平台供给商,以后的平台供给商分为两个阵营:一类因此百度、阿里、讯飞、小米、腾讯为代表的传统互联网或许上市公司;一类因此声智等为代表的新兴人工智能公司。新兴的人工智能公司相比传统公司产品和效劳上的历史包袱更轻,因此在平台效劳上反倒是可以或许主推一些更加面向未来、有特色的基础效劳,比如兼容性方面新兴公司做的会加倍彻底,这种兼容性对付一套产品同时覆盖国内外洋市场是相当有利的。

 

类比曩昔的Android,语音交互的平台供给商咱们其实面对更大的挑衅,睁开过程可能会加倍的曲折。曩昔经常被提到的操纵体系的概念在智能语音交互配景下事实上正被付与新的内在,它日益被分成两个分歧但必需慎密结合的部分。

 

曩昔的Linux和各种变种承当的是功效型操纵体系的角色,而以Alexa为代表的新型体系则承当的则是智能型体系的角色。前者实现完备的硬件和资源的形象和管理,后者则让这些硬件和资源获得详细的应用,两者相结合能力输入最终用户可感知的体验。功效型操纵体系和智能型操纵体系注定是一种一对多的相干,分歧的AIoT硬件产品在传感器(深度摄像头、雷达等)、显示器上(有屏、无屏、小屏、大屏等)具有弘大差异,这会导致功效型体系的持续分化(可以或许和Linux的分化相对应)。这反过来也就意味着一套智能型体系,必需同时解决与功效型体系的适配和对分歧后端内容和场景停止支撑的两重任务。

 

这两边在操纵上,属性具有弘大差异。解决前者必要介入到传统的产品临盆制作链条中去,而解决后者则更像应用商店的开拓者。这里面蕴含着弘大的挑衅和机遇。在曩昔功效型操纵体系的打造过程中,国内的程序员咱们更多的是应用者的角色,但智能型操纵体系虽然也可以或许参照其余,但这次必需自己来从新打造完备的体系。(外洋巨擘不管在中文相干的技术上还是内容整合上事实上都非常薄弱,不存在侵略国内市场的可能性)

 

跟着平台效劳商两边的成就解决的越来越好,基础的计算情势则会逐渐发生改变,人咱们的数据消费情势会与本日分歧。小我的计算设备(以后重要是手机、笔记本、Pad)会根据分歧场景进一步分化。比如在车上、家里、旅店、工作场景、路上、业务办理等会根据地点和业务停止分化。但分化的同时面前的效劳则是同一的,每一小我可以或许从容的根据场景做设备的迁移,面前的效劳虽然会针对分歧的场景停止优化,但在小我偏好如许的点上则是同一的。

 

人与数字世界的接口,在如今越来越同一于详细的产品状态(比如手机),但跟着智能型体系的出现,这种同一则会越来越同一于体系自己。作为结果这会带来数据化程度的持续加深,咱咱们越来越接近一个百分百数据化的世界。

 

总结

 

从技术进展和产业睁开来看,语音辨认虽然还不能解决无穷制场景、无穷制人群的通用辨认成就,但是已经可以或许在各个真实场景中普遍应用而且获得规模验证。更进一步的是,技术和产业之间构成为了比较好的正向迭代效应,落地场景越多,获得的真实数据越多,发掘的用户需要也更精确,这帮助了语音辨认技术疾速提高,也基本满意了产业需要,解决了很多实际成就,这也是语音辨认相对其余AI技术最为显著的优势。

 

不过,咱咱们也要看到,语音辨认的内在必需赓续扩大,狭义语音辨认必需走向广义语音辨认,努力于让机械听懂人类语言,这能力将语音辨认研究带到更高维度。咱咱们相信,多技术、多学科、多传感的交融化将是未来人工智能睁开的主流趋向。在这种趋向下,咱咱们另有很多未来的成就必要探究,比如键盘、鼠标、触摸屏和语音交互的相干怎么变更?搜索、电商、社交是否再次重构?硬件是否逆袭变得比软件加倍重要?产业链中的传感、芯片、操纵体系、产品和内容厂商之间的相干又该如何变更?

 

本文获得浩繁语音辨认领域专家的指点,并引用了一些参考资料的配图,在此表示感谢,本文中的不敷之处还请批评指正。

 

参考

 

[1]W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.

[2]Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).

[3]Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.

[4]Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.

[5]俞栋,邓力. 解析深度学习:语音辨认实践. 电子工业出版社. 2016.

[6]韩纪庆,张磊,郑铁然. 语音信号处理. 清华大学出版社. 2005.

[7]王东. 语音辨认技术的现状与未来. 2017.

[8]https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement

[9]https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/

[10]https://yq.aliyun.com/articles/704173

[11]http://azero.soundai.com

[12]http://research.yntef.cn/Blog/index-view?id=109



/blog-1375795-1198365.html

上一篇:为什么“人机自然交互技术”越来越重要?如何吸引年青人学习AI?

8 张学文 刘钢 黄永义 柳林涛 朱新亮 王安良 李剑超 罗鸿幸

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|华人科技资讯网 ( 京ICP备14006957 )

GMT+8, 2019-10-15 11:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部
友情链接:中学历史学习网站  香港都市日报网  轱辘汽车改装网站  中国美容网  大学生思想政治网  广州电子新闻网  发现大变革的历史力量  德利社出版广电总局  中国贷款网  电脑技术学习网