评论(0)

脑子真的不够用了?浅析未来语音识别技术发展

2017-10-29 00:15 zhangxiaomeng A+

  【PConline 产业观察】近几年,随着海量数据的积累以及对于神经网络研究的不断深入,使得语音识别的准确率不断提升,诸如像微软所提供的语音识别服务的准确率更是提升不少,堪称能够媲美人类了。人工智能产业链从底层到顶层也正在经历着不同程度的变革,而也有很多业内专家表示,语音识别技术的成熟度从某种程度上也代表了人工智能水平发展水平的高低。

  根据权威市场调查机构的研究数据表明,当前,全球智能语音产业的规模首次突破了百亿美元,其近五年的复合增长率也超过了60%。像国外的微软、IBM、谷歌,以及国内的科大讯飞等厂商都常年耕耘在语音识别领域,此外,语音识别技术也被应用在了像智能制造、智能汽车甚至是智慧城市等诸多领域。

  语音识别给汽车装“大脑”

  现在是一个万物互联的时代,越来越多的设备都在接入互联网,汽车也不例外,车联网也成为近些年推动IT技术和汽车产业的一股非常重要的力量,有数据显示,未来车联网在车载端的渗透率将会超过50%,而在这其中,语音识别被看作是未来人车交互的重要入口和途径。

1

  在语音识别的商业化落地中,需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素,而识别算法是提升用户体验的核心因素。

  算法非常重要

  对于一个语音识别系统来说,首先要检测是否有语音输入,也就是我们常说的VAD,在低功耗设计中,相比于语音识别的其它部分,VAD采用always on的工作机制。当VAD检测到有语音输入之后,VAD便会唤醒后续的识别系统。

1

  语音识别后续的操作都是在VAD截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。使用神经网络来进行的基于深度学习的语音识别系统能够在噪声比较大的情况下也同样具有良好的识别性能,在这中间VAD起到了至关重要的作用。

  对特征进行提取

  当前已经有研究结果表明,在特征提取方面,CLDNN比对数梅尔滤波器组有明显的性能优势。基于CLDNN的特征提取过程可以总结为:在时间轴上的卷积、pooling、pooled信号进入到CLDNN中三个步骤。

1

  远场语音识别领域,由于存在强噪声、回响等问题,麦克风阵列波束成形仍然是主导方法。现阶段,基于深度学习的波束成形方法在自动特征提取方面亦取得了众多研究成果。

  声学模型是什么?

  所谓的声学模型就是将语音转化为声学表示的一类输出,对于声学符号,最直接的表达方式就是词组,需要注意的是,由于人类发声器官运动的连续性,以及某些语言中特定的拼读习惯,会导致音素的发音受到前后音素的影响。为了对不同语境的音素加以区分,通常使用能够考虑前后各一个音素的三音子作为建模单元。

1

  在声学模型中,可以把三音子分解为更小的颗粒—状态,通常一个三音子对应3个状态,但是这会引起建模参数的指数增长,常用的解决方案是使用决策树先对这些三音子模型进行聚类,然后使用聚类的结果作为分类目标。

  编辑的话

  当前状况下,语音识别所应用的环境仍然还是比较复杂,在学术界能够应对各种情况的模型建模声学模型,在对于混合模型当中各个模型的优势当中,通过技术手段来对数据进行详细的建模,是促使语音识别服务更加精准、更加敏捷的重要方面,未来随着云计算和人工智能技术的不断发展,语音识别技术和市场将会越发蓬勃。[返回频道首页]

展开全文
打开客户端,无广告困扰,阅读更专注

热门新闻

推荐内容