线性预测技术

时间：2021-08-25 11:12 作者：admin 分享到：

LPAS结构的内核是合成滤波器，它描述了话音信号的短时相关性。如图4.1所示，其输入为激励信号，输出为重构话音信号。编码器按块处理方式工作。在每一时间块中，大量的激励信号试验通过合成滤波器，由此选定产生失真最小的激励信号作为编码参数送出。

原则上可有多种方法实现该合成滤波器。一种方法是倒谱分析（cepstralanalysis），也就是用DFT和IDFT导出信号的基音周期和共振峰频率，可以很好地用于共振峰合成声码器。另一种方法是用非线性预测，但是由于其复杂度高，且未见显著的性能改进，因此少有采用。目前大量采用的是线性预测方法。严格说来，线性预测分析并不属于LPAS过程的一个组成部分，波形编码的DPCM也采用此项技术，但是它却是LPAS声码器必不可少的一部分，因此有必要对此进行分析和讨论。

4.2.1帧、子帧和窗口
前已述及，LPA5编码器是按时间块对输入信号进行处理的。在编码器中最大的时间块称之为“帧"（frame）。合成滤波器系数根据输入信号每帧重新计算一次，计算用到的输入信号抽样值范围称之为LP分析窗口，窗口长度一般和帧长相同，其相对位置可能和畅完全对应，也可能比帧超前，也就是说除了用到当前帧的抽样信号值外，还要用到下一帧的部分样值，这称之为“予视"（lok-ahead）。它的好处是每帧更新的滤波器性能不会产生突变，有利于提高模型的精度，其代价是需引入额外的算法时延。

激励信号更新周期小于合成滤波器的更新周期，称为“子帧"（subframe），通常帧长为10~30ms，子帧长为2-10ms.

图4.3示出窗口，帧和子帧之间的关系。图例中，每帧分为4个子帧，窗口和帧长度相同，但位置比对应帧超前一段时间。

图4.3 帧、子帧和窗口的关系

4.2.2线性预测系数的计算

设开环预测公式为：

式中，a，为线性预测系数。

则，开环线性预测残差为：

对应的乙变换为：

A（Z）称为LP分析滤波器。

确定an的基本准则是最小化e（i）。

记，a = [ a1,a2, …… ,an]T

输入信号的自相关系数为：R（i-k）=E[s（i）s（k）]，式中，E[•]为期望值。

自相关矩阵记为R，其元素为Ra ≌R（i-k）由此得：

上式称为Yule-Walker方程。由于R为对称矩阵，可采用杜宾（Durbin）递推算法求解。

下面进一步说明如何由输入信号值估算R（i）。假设在一帧时间内输入信号是统计稳定的。现用窗口函数截取输入信号抽样序列，窗口长度为L，在窗口范围之内的抽样值s（i）的加权值为w

（i），窗口范围之外的抽样值加权值为零，即不作为计算依据。则，R（k）的统计估计值为：

将上式代人（4.5）式，即可求得预测系数an。
在话音编码中，一般都采用闭环预测，即利用重构信号和原输入信号之差产生残差信号，如图4.4所示。图中e（i）和ē（i）为残差信号及其量化值，虚线框所示部分为LP合成滤波器，其中预测器的系数即为an。滤波器的输入为e（i），输出为重构信号S（i），内部状态由以前时刻的重构信号S（i-n）决定，s（i-n）值暂存在存储器中。

图4.4 闭环预测结构

由图可知，

为LP合成滤波器的传递函数。由此式可知，H（Z）为一个全极点滤波器。由于声道可近似认为由多段刚性声管级联组成，每段声管有其固定的直径。对于话音信号来说，其波长远大于声管直径，可认为是平面波传播，通常还假设由粘度和热传导引起的损耗可以忽略。可以证明，这样的多级无损级联声管模型具有全极点传递函数，因此用式（4.9）所示H（Z）表征声道模型是合理的。实际上，在语音各音素中，除了鼻音和摩擦音需用零极点模型模拟声道系统外，其余音素都可用全极点系统模拟。由于在数学上，一个零点可用足够多的极点来逼近，即：

因此，只要滤波器阶数足够高，就可用全极点模型模拟几乎所有音素。但是阶数越高，编码比特率将越高，在实际系统中采用10阶滤波器可以获得满意的比特率一预测增益折衷性能。

4.2.3 预测系数的量化和内插

1.系数量化

第三章已述及，低比特率编码器一般采用前馈式自适应预测技术，也就是说编码器必须将预测系数a，量化后传送至解码器。除了常规的量化精度外，还有一个极其重要的问题必须考虑，这就是系统的稳定性。由于传输信道误码的客观存在，如果直接传送an，在接收端收到的an会发生变化，而an的少量变化会导致滤波器频谱的很大变化，甚至会使滤波器不稳定。为此，量化并不是直接对an进行，而是对an的某种变换形式进行。最常用的变换形式就是线谱频率（ISF-line spectrum frequency）对。

线谱频率对的获取方法是，利用滤波器A（Z）和A（Z-1）构成一个和值滤波器P（Z）和一个差值滤波器Q（z）：

P(Z) = A(Z) + z^-(N+l)A(z-¹) (4.11)
Q(Z) = A(Z) - z^-(N+l)A(z-¹) (4.12)

P（Z）和Q（z）的根称为LSF，它们有如下十分有用的性质：
• P（2）和Q（2）的根均位于单位圆上，且相互交替间隔排列。
• 只要接收端收到的LSF仍然保持上述性质，则对应的A（z）保持为最小相位滤波器。这样就最大程度地减小了传输误码的影响，并确保IP合成滤波器的稳定性。

• LSF的频谱灵敏度具有很好的频率选择性，也就是说，单个LSF的误差只局限于该频率附近的频谱范围。

性质1和2表示只要LSF保持单调性，即间隔交替，就能确保滤波器的稳定，这就使量化的要求大为放宽，可以采用多种方法进行量化。接收端只要沿单位圆搜索LSF，且按升序依次确定P（Z）、Q（Z）的根即可。另外，相邻LSF表征了频率共振峰，共振峰的带宽取决于对应LSF的密集程度，LSF和共振峰的这一关系可以使设计者利用人类听觉系统的感觉特性对LSF量化进行人为控制。性质3表示ISF的频谱灵敏度是局部性的，因此各个LSF可以独立进行量化，对于灵敏度高的参数可以分配较多的量化比特，量化失真不会从一个频谱域泄漏到另一个频谱域去。与此对照，直接对a_n，量化就不具备这些优点。一则a_n的稳定性检验复杂，没有一个简易可行的准则；二则一个a_n，的变化会引起整个频谱的变化，关联性太大。

对于1个10阶LP滤波器来说，如采用标量量化，预测系数量化约需要30-40比特；如采用矢量量化，约需要25-30比特。对于典型帧长20-30ms，LP系数传送所需的比特率约为1.5-2kbit/s

2.系数内插

由于预测系数是逐帧计算更新的，在某些情况下，例如一个独音的起始段，就可能在帧与帧之间产生预测系数的突变，此瞬变效应将导致解码器话音恢复时产生失真。解决这一问题的方法，一是前视，利用部分下一帧的数据计算系数，达到平滑的作用。二是内插，即将上帧和本帧的系数计算值适当组合后作为最终的系数。在实现中，可以对每个子帧选取不同的权值，逐渐变更预测系数。第i子帧的系数可按下式计算：ST(i) = Wi • ST_F + ( 1 －W_i)．SFp (4.13)式中，STp和STp，分别为上帧和本帧计算的系数，wi为第i子帧的权值。对于帧长为20-30ms的情况，每帧包含4个子帧，wi可取为0.25，0.75，1.0，1.0（i = 1，2，3，4）

和量化一样，内插也不是直接对LP系数进行的，而是对LP系数的某种变换形式，如LSF进行的，以保证内插滤波器的稳定，并允许对不同系数进行不同的内插。

4.2.4误差加权滤波器

常用的误差加权滤波器是根据表征话音信号短时相关性的LP系数构成的，其传递函数为：