智呼云 - ASR自动语音识别理论介绍

ASR自动语音识别理论介绍

2018-04-21 AIASR

自动语音识别技术是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。

自动语音识别(Automatic Speech Recognition 简称“ASR“),技术的目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。

语音识别系统的性能大致取决于以下4类因素：
1. 识别词汇表的大小和语音的复杂性；
2. 语音信号的质量；
3. 单个说话人还是多说话人；
4. 硬件。

分类
自动语音识别通常有以下几种分类方法：
（1）按系统的用户情况分：特定人和非特定人识别系统；
（2）按系统词汇量分：小词汇量、中词汇量和大词汇量系统；
（3）按语音的输入方式分：孤立词、连接词、连续语音系统等；
（4）按输入语音的发音方式分：朗读式、口语（自然发音）式；
（5）按输入语音的方言背景情况分：普通话、方言背景普通话、方言语音识别系统；
（6）按输入语音的情感状态分；中性语音、情感语音识别系统。

基本原理
训练（Training）：预先分析出语音特征参数，制作语音模板，并存放在语音参数库中。
识别（Recognition）：待识语音经过与训练时相同的分析，得到语音参数。将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。
失真测度（Distortion Measures）：在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架：基于模式匹配的动态时间规整法（DTW）和基于统计模型的隐马尔可夫模型法（HMM）。