IP电话机、视频可视电话通信产品及组网方案

参数编码

时间:2021-08-24 15:09 作者:admin 分享到:
 
       参数编码特又称声码器(Vocoder),它的原理和设计思想和波形编码完全不同。波形编码的基本思路是忠实地再现话音的时域波形,为了降低比特率,可以充分利用相邻抽样点之间的信息冗余性,对差分信号进行编码,在不影响话音质量的前提下,比特率可降至32kbit/s。在话务过载的情况下,还可降质使用24或16khit/s编码,但要进一步降低比特率就有困难了。
       参数编码根据对声音形成机理的分析,着眼于构造话音生成模型,该模型以一定精度模拟发话者的发声声道,接收端根据该模型还原生成发话者的音素,在频域上该模型就对应为具有一定零极点分布的数字滤波器。编码器发送的主要信息就是该模型的参数,相当于话音的主要特征,而并非具体的话音波形幅值。而且由于话音信号变化是缓慢的,一个音素要持续相当长一段时间(相对于抽样周期而言),因此模型参数的更新频度较低,不但可以利用抽样值间的相关性,还可以充分利用帧与帧之间的信息冗余性以及更长时间段中的音源信息冗余性,有效地降低编码比特率。因此,目前小于16kbit/s的低比特率话音编码都采用参数编码。它在移动通信、多媒体通信和IP网络电话应用中起到重要的作用。
       需要指出的是,虽然参数编码和波形编码的原理完全不同,但是归根结底信息都取自于对抽样值的分析计算,为了去除冗余信息都需对差分信号(或称残差信号)进行处理,因此在技术上两者并无明显的界线,许多技术,如线性预测、自适应预测、矢量量化等既可用千参数编码,也可用于波形编码。
       不难理解,为了掌握参数编码原理,首先必需懂得话音特征分析和声音形成机理。
3.3.1声音形成机理
       话音形成的大致过程可由图3.8表示。从肺部压出的空气由气管到达声门,气流流经声门时形成声音,然后再经咽腔,由口腔或鼻腔送出。其中咽腔和口腔、鼻腔构成由多节声管组成的声道,当腔体呈不同形状,舌、齿、唇等处于不同位置时,相当于形成一个具有不同零极点分布的滤波器,气流通过该滤波器后产生相应的频响输出,从而发出不同的音素。
        音素可分为两类。伴有声带振动的音称为浊音(VoicedSound),它包括元音、浊辅音、半元音和鼻音。声带不振动的音称为清音(un­voicedsound),包括清辅音和气音。由于声带振动有不同的频率,因此浊音就有不同的音调,称之为基音频率。男性基音频率范围一般为50-250Hz,女性基音频率一般为100~500Hz。另外气流压出的不同强度就对应为声音的音量大小。
        从频域角度看,浊音气流流经声道后,其幅频特性在声道的滤波作用下将呈现两个显著的特点。一是幅频频谱的包络有几个明显的局部最大值,称之为共振峰。在这些频率点处,反射波相互迭加,声波能量加强。二是频谱的精细结构呈现周期性,即每隔一定频率间距出现一个峰值,该间距对应的就是基音频率。而且频谱的能量主要集中在低频段,超过4kHz后频谱迅速下降。
 
声音形成过程
图3.8  声音形成过程
      图3.9示出元音[ʌ]的对数振幅频谱。由图可见,其包络有4个共振峰,其频率分别为F1=550Hz,F2=1.15kHz,F3=2.45kHz和F4=3.6kHz。另外,该频谱显示在0-1500Hz之间大致有12个峰值,表示基音频率约为125Hz。分析表明,对于浊音尤其是元音,频谱的前3个共振峰为特征共振峰,据此可以识别不同的元音,这一特性可以应用于语音识别和语音压缩编码,它表明声道的基本特性可以用一个全极点滤波器近似模拟。图3.10示出[i]: [ɔ::]、[u:]三个元音的特征共振峰。由于共振峰可以识别音素,而一个音素持续的时间相对较短(音节时间),因此我们说频谱包络反映了话音的短时相关性。而发话者基音频率的变化则比较缓慢,因此频谱的精细结构反映了话音的长时相关性。
对数振幅频图
图3.9  元音[A]的对数振幅频谱
元音的特征共振分部
图3.10  三个元音的特征共振峰分布
       清音的频谱特性和浊音有很大差别。因为声带没有振动,因此频谱形状没有周期性,峰值的分布也没有明显的规律,整个频谱相对比较平坦,反映了清音音源类似于白噪声。而且清音的频谱能量集中在高频区,即使超过8kHz频谱也没有显著的下降。
       在时域上,话音波形也反映出上述浊音和清音的特点。图3.11示出单词suburbs的波形图。由图可见,清音[s]的波形类似于白噪声,振幅很弱;元音[ʌ]和[ə:]具有明显的周期性,且具有较强的振幅。元音[ʌ]从0.10-0.15s间大致有6个周期,对应的基音频率约为120Hz。
波形示例
图3.11 单词Subwbs的波形示例
       根据上述分析可得话音生成的数字模型如图3.12所示。它由声源和声道两部分组成。声源包括激励信号和增益G。浊音的激励源为一串周期性的脉冲,脉冲周期即基音周期;清音的激励源为噪声信号。增益反映信号的强弱.开关S则表示清/浊音判决。声源决定了话音信号频谱的精细结构。声道由声道滤波器和辐射滤波器组成,前者可用全极型或极零型滤波器近似,后者反映了气流经嘴唇往外辐射后的衰减,衰减幅度为倍频程6dB。一般将二者合为一个滤波器,它决定了话音频谱的包络特性。
 
话音生成数字模型
 
图3.12    话音生成数字模和
 
上述数字模型表明声码器进行话音编码需包含以下4类参数:
• 若千定义声道共振特性的滤波器系数。
•  一个二进制参数,指明激励源是清音还是浊音。
•  激励游能量值。
•  基音周期值(仅对浊音有意义)。
       由于音素至少持续儿十毫秒,因此可以近似认为在短时间内上述数字模型为一个线性时不变系统,主声道参数只要计算一次即可适用于所有抽样值。这段时间就称为一帧,通常为10~30ms。也就是说,利用话音频谱的短时相关性可以有效地降低编码的比特率。基音周期反映话音信号的长时相关性,利用它表征激励源特性可以进一步降低编码速率。从图3.11所示话音波形可知,基音周期通常比帧长还要短,因此基音周期参数更新周期一般要小千帧长。
3.3.2声码器类型
根据结构的不同,可将常用的声码器分为三类。
I.通道声码器
通道声码器的结构如图3.13所示,其主体部分为频谱包络的分
 
通道声码器结构
图3.13  通道声码器结构
析。谱分析由若干个并联通道完成,并联通道的典型值为10~20。每个通道由带通滤波器、整流和低通滤波器级联组成。它们将整个话带频谱非均匀地划分成若干段,低频段的带宽较窄,以保证低频段有较高的频率分辨力。整流电路取出各频段信号的幅值,低通滤波器的目的是避免抽样后产生混迭失真,同时完成信号的A/D变换,由此得到代表某一段频谱振幅的信号yi( n)。这些通道频谱信号与清/浊音判别信号和基音频率信号(F。)一起被编码后送往接收端。解码器用收到的频谱包络信号调制带通滤波器的输出,然后把已调制的各带通滤波器输出迭加在一起就合成为原来的话音信号。
       编码器中的予加重模块的作用是按倍频程6dB的比例补偿嘴唇辐射衰减,使得各通道的输出信号电平大致相同。相应地,在解码器的输出端应设置一个具有倍频程6dB衰减的逆滤波器进行去加重。
2.共振峰声码器
       共振峰声码器不将话音信号划分成多个频段,而是对整体进行分析,提取共振峰的位置、幅度和带宽等参数,构成两个声道滤波器。浊音滤波器采用全极点滤波器,由多个二阶滤波器级联而成;清音滤波器一般采用1个极点和1个零点的数字滤波器。这些滤波器的参数都是时变的。图3.14为共振峰声码器的合成器结构。其中,共振峰F1、F2、F3为浊音滤波器的参数,极点FP和FZ为清音滤波器的参数,F0为基音频率,Au、Av为增益系数。
       和通道声码器相比,共振峰声码器的话音质量更好,比特率可压缩得更低。
3.线性预测编码(LPC)声码器
       和ADI屯M类似,LPC声码器也采用高阶线性预测器来模拟声道特性,预测系数按帧进行自适应调整,编码比特率取决于预测器阶数和每个参数的量化精度。LPC声码器的性能优异,目前低比特率话音编码器都采用这种技术。
LPC分析是一个时域过程,它通过对时域抽样信号的相关计算得到线性预测系数,再将预测系数转换成表征各个级联声管共振特
合成器结构
 
图3.14  共振峰声码器的合成器结构
性的反射系数。基本算法是利用线性代数方法求解n维线性联立方程,求得n个预测系数,从而由时域信号数据获得声道的频域估计参数。
      LPC声码器的关键技术包括线性预测、基音预测和矢量量化,第4章将对此进行较为深入的讨论。
3.3.3参数编码和波形编码的比较
       波形编码的基本出发点是最小化原信号和重构信号之间的差值信号,最小化判据一般为以"块”为基础的差分信号的均方差,块可以小到单个话音抽样。波形编码的设计要求是获得尽可能高的信噪比  (SNR)。改进的编码器还考虑人类听觉系统的主观感觉效果,为此可设置屏蔽滤波器,修正原信号和重构信号。这样SNR有可能下降,但主观感觉质量反而会提高。波形编码器主要利用话音波形的短时相关性,特别是相邻抽样点之间的相关性来降低比特率,改进算法还考虑了长时相关性。
       参数编码的基本出发点是根据确定的成音模型确定模型参数,虽然LPC声码器也是通过残差信号的最小化进行计算的,但是其着眼点是要求模型参数的最佳值,而并非SNR的最大化。
      参数编码的精度主要取决于模型本身的正确性。图3.12所示的话音生成数字模型和实际情况还是有差距的。例如,模型采用清/浊音二元判决,也就是说任一时刻的话音或者是纯粹的清音,或者是纯粹的浊音,实际情况并非完全如此,尤其是从一个音素到另一音素转换的过渡阶段比较复杂,理论上应采用多元判决。模型中激励源只有两个,每次只能产生一种音,但实际话音有许多部分的频谱呈谐波频谱和噪声谱的组合频谱。模型假设浊音激励是规则的周期脉冲,这也是对实际情况的一种理想化近似。另外,模型参数是按照帧周期进行更新调整的,对于爆破音等快速变化音素的编码来说就有较大的误差。凡此决定了参数编码的固有误差,这是由模型本身所限定的,尤论怎样增加参数的编码比特率,减小量化误差,都不能使重构信号收敛于原信号。而波形编码则不一样,理论上只要预测阶数足够高,量化误差足够小,重构信号将收敛于原信号。这是两种编码方式的显著不同之处,这一概念可由图3.15表示。但是参数编码的一个重要优势是可以有效降低编码比特率,从而得到越来越广泛的应用
波形编码和参数编码特性比较
图3.15  波形编码和参数编码的特性比较
 
3.3.4 参数编码标准
       有影响的话音参数编码国际标准和地区性标准主要由ITU-T和数字蜂窝标准组织制订,其特性如表3.4所示。它们采用的都是线性预测编码器和码本激励矢量量化技术。IP网络电话应用主要使用ITU定义的三个标准。
       G.728比特率为16kbit/s,标准研究始于1988年,其目的是建立一个通用的16kbit/s长途质量的话音编码标准。它的第一个应用是H.320低比特率可视电话。G.728对具有背景噪声的信号或音乐具有很好的健壮性,抗随机比特差错能力优于G.711和G.721,可通过所有的网络信令音,还能通过高达2400bit/s的低比特率modem信号。
表3.4     参 数编码国际和地区性标准

 
标准
 
 制订
 机构
 
颁发
年份
 
比特率
(kbit/s)
复杂度 时延( ms)  
话音
质量
 
编码器类型
 
MIPS
 
RAM
(byte)
 
帧长
 
前视
G. 728 ITU-T 1994 16 30 2K 0.625   长途 CELP
G.729 ITU-T 1996 8 20 3K I0 5 长途 CELP
G.729A ITU-T 1996 8 10.5 2K 10 5 长途 CELP
G.723.l ITU-T 1995 5.3/6.3 16 2.2K 30 7.5  
长途
多脉冲
CELP
 
GSM
全速率
 ETSI(欧)  
1987
 
13
 
4.5
 
1k
20 0  
长途
 
RPE-LTI>
GSM
半速率
 
ETSI(欧)
 
1994
 
5.6
 
30
 
4K
 
20
 
5
 
长途
 
CELP
IS54 TIA(美) 1989 7.95 20 2K 20 5 = RPE-LTP CELP
 
IS96
 
TIA(美)
 
1993
8.5/4/
2/0.8
 
20
 
2K
 
20
 
5
 
<IS54
 
CELP
JDC
全速率
 
RCR( 日)
 
1990
 
6.7
 
20
 
2K
 
20
 
5
 
< IS54
 
CELP 
JDC
半速率
 
RCR( 日)
 
1993
 
3.45
 
48
 
6K
 
40
 
10
 
同全速率
 
CELP 
CELP:码激励线性预测               RPE-LTP:规则脉冲激励一长期预测
TIA:电信工业协会                      RCR:无线电系统研发中心
       G.729比特率为8kbit/s。最初由ITU-R提出此项研究,其目的是用于第三代移动通信系统。G.729A 是G.729的DSVD(话音和数据同时传送数字系统)型式。与G.729比特流兼容,即它们的编码都能被对方的解码器接收重建信号。但G.729A的复杂度降低了50%,代价是在某些运行条件下性能稍有下降。
       G.723.1为双速率话音编码器,作为PSTN上可视电话标准系列中的话音编码标准。其中,6.3khit/s 比特率采用多脉冲LPC编码,对于一般的话音信号,其话音质量相当于G.721,但对于童声、音乐和具噪声背景的话音输入,其质量不如ADPCM。5.3kbit/s比特率采用多脉冲算术码本激励,定义该速率的目的是增加系统设计的灵活性。如用于低速率通道时,可为视频编码器留出一些比特空间;可为复用系统提供lkbit/s的“虚信道”以传送附加信息。该标准确定重用编号G.723,但增加一层子序号以区别于被G.726取代的原来的G.723。
 
ITU-T

版权所有:IP电话:http://www.g3voip.com 转载请注明出处

热销IP电话产品hot products