IP电话机、视频可视电话通信产品及组网方案

线性预测技术

时间:2021-08-25 11:12 作者:admin 分享到:
 
       LPAS结构的内核是合成滤波器,它描述了话音信号的短时相关性。如图4.1所示,其输入为激励信号,输出为重构话音信号。编码器按块处理方式工作。在每一时间块中,大量的激励信号试验通过合成滤波器,由此选定产生失真最小的激励信号作为编码参数送出。
       原则上可有多种方法实现该合成滤波器。一种方法是倒谱分析(cepstralanalysis),也就是用DFT和IDFT导出信号的基音周期和共振峰频率,可以很好地用于共振峰合成声码器。另一种方法是用非线性预测,但是由于其复杂度高,且未见显著的性能改进,因此少有采用。目前大量采用的是线性预测方法。严格说来,线性预测分析并不属于LPAS过程的一个组成部分,波形编码的DPCM也采用此项技术,但是它却是LPAS声码器必不可少的一部分,因此有必要对此进行分析和讨论。
4.2.1帧、子帧和窗口
        前已述及,LPA5编码器是按时间块对输入信号进行处理的。在编码器中最大的时间块称之为“帧"(frame)。合成滤波器系数根据输入信号每帧重新计算一次,计算用到的输入信号抽样值范围称之为LP分析窗口,窗口长度一般和帧长相同,其相对位置可能和畅完全对应,也可能比帧超前,也就是说除了用到当前帧的抽样信号值外,还要用到下一帧的部分样值,这称之为“予视"(lok-ahead)。它的好处是每帧更新的滤波器性能不会产生突变,有利于提高模型的精度,其代价是需引入额外的算法时延。
      激励信号更新周期小于合成滤波器的更新周期,称为“子帧"(subframe),通常帧长为10~30ms,子帧长为2-10ms.
      图4.3示出窗口,帧和子帧之间的关系。图例中,每帧分为4个子帧,窗口和帧长度相同,但位置比对应帧超前一段时间。
帧、子帧和窗口的关系
图4.3  帧、子帧和窗口的关系
4.2.2线性预测系数的计算
设开环预测公式为:
式中,a,为线性预测系数。
则,开环线性预测残差为:
对应的乙变换为:
A(Z)称为LP分析滤波器。
确定an的基本准则是最小化e(i)。
记,a = [ a1,a2,  ,an]T
输入信号的自相关系数为:R(i-k)=E[s(i)s(k)],式中,E[•]为期望值。
自相关矩阵记为R,其元素为Ra  ≌R(i-k)由此得:
上式称为Yule-Walker方程。由于R为对称矩阵,可采用杜宾(Durbin)递推算法求解。
       下面进一步说明如何由输入信号值估算R(i)。假设在一帧时间内输入信号是统计稳定的。现用窗口函数截取输入信号抽样序列,窗口长度为L,在窗口范围之内的抽样值s(i)的加权值为w
(i),窗口范围之外的抽样值加权值为零,即不作为计算依据。则,R(k)的统计估计值为:
统计估计值
将上式代人(4.5)式,即可求得预测系数an。
       在话音编码中,一般都采用闭环预测,即利用重构信号和原输入信号之差产生残差信号,如图4.4所示。图中e(i)和ē(i)为残差信号及其量化值,虚线框所示部分为LP合成滤波器,其中预测器的系数即为an。滤波器的输入为e(i),输出为重构信号S(i),内部状态由以前时刻的重构信号S(i-n)决定,s(i-n)值暂存在存储器中。
闭环预测结构
        图4.4  闭环预测结构   
由图可知,
        为LP合成滤波器的传递函数。由此式可知,H(Z)为一个全极点滤波器。由于声道可近似认为由多段刚性声管级联组成,每段声管有其固定的直径。对于话音信号来说,其波长远大于声管直径,可认为是平面波传播,通常还假设由粘度和热传导引起的损耗可以忽略。可以证明,这样的多级无损级联声管模型具有全极点传递函数,因此用式(4.9)所示H(Z)表征声道模型是合理的。实际上,在语音各音素中,除了鼻音和摩擦音需用零极点模型模拟声道系统外,其余音素都可用全极点系统模拟。由于在数学上,一个零点可用足够多的极点来逼近,即:
 
      因此,只要滤波器阶数足够高,就可用全极点模型模拟几乎所有音素。但是阶数越高,编码比特率将越高,在实际系统中采用10阶滤波器可以获得满意的比特率一预测增益折衷性能。
4.2.3  预测系数的量化和内插
1.系数量化
        第三章已述及,低比特率编码器一般采用前馈式自适应预测技术,也就是说编码器必须将预测系数a,量化后传送至解码器。除了常规的量化精度外,还有一个极其重要的问题必须考虑,这就是系统的稳定性。由于传输信道误码的客观存在,如果直接传送an,在接收端收到的an会发生变化,而an的少量变化会导致滤波器频谱的很大变化,甚至会使滤波器不稳定。为此,量化并不是直接对an进行,而是对an的某种变换形式进行。最常用的变换形式就是线谱频率(ISF-line spectrum frequency)对。
      线谱频率对的获取方法是,利用滤波器A(Z)和A(Z-1)构成一个和值滤波器P(Z)和一个差值滤波器Q(z):
                          P(Z) = A(Z) + z-(N+l)A(z-1)          (4.11)
                          Q(Z) = A(Z) -  z-(N+l)A(z-1)         (4.12)
   P(Z)和Q(z)的根称为LSF,它们有如下十分有用的性质:
 • P(2)和Q(2)的根均位于单位圆上,且相互交替间隔排列。
 • 只要接收端收到的LSF仍然保持上述性质,则对应的A(z)保持为最小相位滤波器。这样就最大程度地减小了传输误码的影响,并确保IP合成滤波器的稳定性。
 • LSF的频谱灵敏度具有很好的频率选择性,也就是说,单个LSF的误差只局限于该频率附近的频谱范围。
       性质1和2表示只要LSF保持单调性,即间隔交替,就能确保滤波器的稳定,这就使量化的要求大为放宽,可以采用多种方法进行量化。接收端只要沿单位圆搜索LSF,且按升序依次确定P(Z)、Q(Z)的根即可。另外,相邻LSF表征了频率共振峰,共振峰的带宽取决于对应LSF的密集程度,LSF和共振峰的这一关系可以使设计者利用人类听觉系统的感觉特性对LSF量化进行人为控制。性质3表示ISF的频谱灵敏度是局部性的,因此各个LSF可以独立进行量化,对于灵敏度高的参数可以分配较多的量化比特,量化失真不会从一个频谱域泄漏到另一个频谱域去。与此对照,直接对an,量化就不具备这些优点。一则an的稳定性检验复杂,没有一个简易可行的准则;二则一个an,的变化会引起整个频谱的变化,关联性太大。
        对于1个10阶LP滤波器来说,如采用标量量化,预测系数量化约需要30-40比特;如采用矢量量化,约需要25-30比特。对于典型帧长20-30ms,LP系数传送所需的比特率约为1.5-2kbit/s
2.系数内插
       由于预测系数是逐帧计算更新的,在某些情况下,例如一个独音的起始段,就可能在帧与帧之间产生预测系数的突变,此瞬变效应将导致解码器话音恢复时产生失真。解决这一问题的方法,一是前视,利用部分下一帧的数据计算系数,达到平滑的作用。二是内插,即将上帧和本帧的系数计算值适当组合后作为最终的系数。在实现中,可以对每个子帧选取不同的权值,逐渐变更预测系数。第i子帧的系数可按下式计算:ST(i) = Wi • STF + ( 1 -Wi).SFp       (4.13)式中,STp和STp,分别为上帧和本帧计算的系数,wi为第i子帧的权值。对于帧长为20-30ms的情况,每帧包含4个子帧,wi可取为0.25,0.75,1.0,1.0(i = 1,2,3,4)
       和量化一样,内插也不是直接对LP系数进行的,而是对LP系数的某种变换形式,如LSF进行的,以保证内插滤波器的稳定,并允许对不同系数进行不同的内插。
4.2.4误差加权滤波器
常用的误差加权滤波器是根据表征话音信号短时相关性的LP系数构成的,其传递函数为:
若Y<1,则1/A(Z/Y)滤波器的根更靠近单位圆的圆心,对应为频谱共振峰的带宽加宽,从而使共振峰附近的噪声得到加强。
      Y1和Y2的值需根据听觉和编码器的量化失真选定。常用值为Y1 =1.0,Y2=0.8,滤波器系数可以根据量化LP系数或未量化LP系数导出,后者效果更好。
版权所有:IP电话:http://www.g3voip.com 转载请注明出处

热销IP电话产品hot products