— 技术研究 —
ASR自动语音识别理论介绍
2018-04-21 AIASR

自动语音识别技术是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。

自动语音识别(Automatic Speech Recognition 简称“ASR“),技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。

语音识别系统的性能大致取决于以下4类因素:
1. 识别词汇表的大小和语音的复杂性;
2. 语音信号的质量;
3. 单个说话人还是多说话人;
4. 硬件。

分类
自动语音识别通常有以下几种分类方法:
(1)按系统的用户情况分:特定人和非特定人识别系统;
(2)按系统词汇量分:小词汇量、中词汇量和大词汇量系统;
(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;
(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;
(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
(6)按输入语音的情感状态分;中性语音、情感语音识别系统。

基本原理
训练(Training):预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。
识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。
失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架:基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。

新客户福利
免费体验,直观了解,快速接入。
申请体验 申请体验
回到顶部
企业级产品
电销外呼
外呼机器人
批量外呼
SCRM
全渠道客服
大数据标签
政府级产品
智慧政务系统
政务服务热线
政务办公电话
120院前调度
智能专家抽取
公共消息触达
资源级产品
外呼线路
短信通道
400电话
解决方案
企业
政府
成功案例
医疗/医美
互联网/软件
消费/零售
教育/培训
企服/推广
房产/家居
汽车/出行
电商/物流
生产/制造
政务/公共事业
技术研究
融合通信
人工智能
大数据
客户管理
智慧政务
开放平台
平台介绍
开放能力
新闻中心
公司新闻
产品动态
行业资讯
政策文件
了解智呼云
关于我们
发展历程
联系方式
加入我们
订阅我们
第一时间获得智呼云的最新动态
智呼云(重庆)通信技术有限公司 版权所有 © Zcallr 2007-2021
增值电信业务经营许可证号:B2-20195060 公安备案号:51019002001833 ICP备案号:渝ICP备20008543号-1
智呼云、智呼、zcallr文字及图形为我司商标
本网站向消费者推销产品或者服务的商业宣传均属于广告
网站问题反馈
在线咨询
电话咨询
回到顶部