必威体育Betway必威体育官网
当前位置:首页 > IT技术

语音识别补充(一)(音素,三音素)

时间:2019-08-21 00:41:04来源:IT技术作者:seo实验室小编阅读:52次「手机版」
 

音素

语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等;

协同发音:(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如:数字“three”,音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,这就是为什么在用HMM模型语音识别时,选择音素的三状态HMM模型。

有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已,所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多,它是一个可以被决策树或者其他方式来定义的复杂函数。(英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triPhone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。)

特征:我们用帧frames去分割语音波形,每帧大概25(原文10ms,大部分资料都是以25ms为基准)ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的特征,用特征向量来表示。而如何提取特征向量是当下热门的研究课题,但这些提取方法都是由频谱衍生出来的。

https://blog.csdn.net/zouxy09/article/details/7941055

相关阅读

语音识别(二)——基本框架, Microphone Array, 声源定位

基本框架 语音识别系统主要有四部分组成:信号处理和特征提取、声学模型、语言模型(Language Model, LM)和解码器(Decoder)。 信号

语音识别的发展过程

目录 上世纪50年代: 上世纪60年代: 上世纪70年代: 上世纪80年代: 上世纪90年代: 20世纪头10年: 2006年: 语音识别技术伴随着计算机科学

初探语音识别技术

语音识别 语音识别根据实际需求的不同也会有所不同。目前主要追求大词汇量、连续、非特定人。  语音识别主流开源框架:HTK、Kald

AI产品经理需了解的技术知识:语音识别技术(1)

一、语音识别的发展20世纪50年代,语音识别的研究工作开始,这时主要探索和研究声音和语音学的基本概念和原理。20世纪60年代,可以解决

从游戏语音输入说起:语音识别如何引领输入法变局

语音识别的技术发展到今天这个地步,虽然说在准确度方面,在离线使用方面,语音识别输入时要弱于键盘输入的,但是对绝大多数人而言,在大部

分享到:

栏目导航

推荐阅读

热门阅读