Compare Plans

2021-08-25

线性预测技术

 
       LPAS结构的内核是合成滤波器,它描述了话音信号的短时相关性。如图4.1所示,其输入为激励信号,输出为重构话音信号。编码器按块处理方式工作。在每一时间块中,大量的激励信号试验通过合成滤波器,由此选定产生失真最小的激励信号作为编码参数送出。
       原则上可有多种方法实现该合成滤波器。一种方法是倒谱分析(cepstralanalysis),也就是用DFT和IDFT导出信号的基音周期和共振峰频率,可以很好地用于共振峰合成声码器。另一种方法是用非线性预测,但是由于其复杂度高,且未见显著的性能改进,因此少有采用。目前大量采用的是线性预测方法。严格说来,线性预测分析并不属于LPAS过程的一个组成部分,波形编码的DPCM也采用此项技术,但是它却是LPAS声码器必不可少的一部分,因此有必要对此进行分析和讨论。
4.2.1帧、子帧和窗口
        前已述及,LPA5编码器是按时间块对输入信号进行处理的。在编码器中最大的时间块称之为“帧"(frame)。合成滤波器系数根据输入信号每帧重新计算一次,计算用到的输入信号抽样值范围称之为LP分析窗口,窗口长度一般和帧长相同,其相对位置可能和畅完全对应,也可能比帧超前,也就是说除了用到当前帧的抽样信号值外,还要用到下一帧的部分样值,这称之为“予视"(lok-ahead)。它的好处是每帧更新的滤波器性能不会产生突变,有利于提高模型的精度,其代价是需引入额外的算法时延。
      激励信号更新周期小于合成滤波器的更新周期,称为“子帧"(subframe),通常帧长为10~30ms,子帧长为2-10ms.
      图4.3示出窗口,帧和子帧之间的关系。图例中,每帧分为4个子帧,窗口和帧长度相同,但位置比对应帧超前一段时间。
帧、子帧和窗口的关系
图4.3  帧、子帧和窗口的关系
4.2.2线性预测系数的计算
设开环预测公式为:
式中,a,为线性预测系数。
则,开环线性预测残差为:
对应的乙变换为:
A(Z)称为LP分析滤波器。
确定an的基本准则是最小化e(i)。
记,a = [ a1,a2,  ,an]T
输入信号的自相关系数为:R(i-k)=E[s(i)s(k)],式中,E[•]为期望值。
自相关矩阵记为R,其元素为Ra  ≌R(i-k)由此得:
上式称为Yule-Walker方程。由于R为对称矩阵,可采用杜宾(Durbin)递推算法求解。
       下面进一步说明如何由输入信号值估算R(i)。假设在一帧时间内输入信号是统计稳定的。现用窗口函数截取输入信号抽样序列,窗口长度为L,在窗口范围之内的抽样值s(i)的加权值为w
(i),窗口范围之外的抽样值加权值为零,即不作为计算依据。则,R(k)的统计估计值为:
统计估计值
将上式代人(4.5)式,即可求得预测系数an。
       在话音编码中,一般都采用闭环预测,即利用重构信号和原输入信号之差产生残差信号,如图4.4所示。图中e(i)和ē(i)为残差信号及其量化值,虚线框所示部分为LP合成滤波器,其中预测器的系数即为an。滤波器的输入为e(i),输出为重构信号S(i),内部状态由以前时刻的重构信号S(i-n)决定,s(i-n)值暂存在存储器中。
闭环预测结构
        图4.4  闭环预测结构   
由图可知,
        为LP合成滤波器的传递函数。由此式可知,H(Z)为一个全极点滤波器。由于声道可近似认为由多段刚性声管级联组成,每段声管有其固定的直径。对于话音信号来说,其波长远大于声管直径,可认为是平面波传播,通常还假设由粘度和热传导引起的损耗可以忽略。可以证明,这样的多级无损级联声管模型具有全极点传递函数,因此用式(4.9)所示H(Z)表征声道模型是合理的。实际上,在语音各音素中,除了鼻音和摩擦音需用零极点模型模拟声道系统外,其余音素都可用全极点系统模拟。由于在数学上,一个零点可用足够多的极点来逼近,即:
 
      因此,只要滤波器阶数足够高,就可用全极点模型模拟几乎所有音素。但是阶数越高,编码比特率将越高,在实际系统中采用10阶滤波器可以获得满意的比特率一预测增益折衷性能。
4.2.3  预测系数的量化和内插
1.系数量化
        第三章已述及,低比特率编码器一般采用前馈式自适应预测技术,也就是说编码器必须将预测系数a,量化后传送至解码器。除了常规的量化精度外,还有一个极其重要的问题必须考虑,这就是系统的稳定性。由于传输信道误码的客观存在,如果直接传送an,在接收端收到的an会发生变化,而an的少量变化会导致滤波器频谱的很大变化,甚至会使滤波器不稳定。为此,量化并不是直接对an进行,而是对an的某种变换形式进行。最常用的变换形式就是线谱频率(ISF-line spectrum frequency)对。
      线谱频率对的获取方法是,利用滤波器A(Z)和A(Z-1)构成一个和值滤波器P(Z)和一个差值滤波器Q(z):
                          P(Z) = A(Z) + z-(N+l)A(z-1)          (4.11)
                          Q(Z) = A(Z) -  z-(N+l)A(z-1)         (4.12)
   P(Z)和Q(z)的根称为LSF,它们有如下十分有用的性质:
 • P(2)和Q(2)的根均位于单位圆上,且相互交替间隔排列。
 • 只要接收端收到的LSF仍然保持上述性质,则对应的A(z)保持为最小相位滤波器。这样就最大程度地减小了传输误码的影响,并确保IP合成滤波器的稳定性。
 • LSF的频谱灵敏度具有很好的频率选择性,也就是说,单个LSF的误差只局限于该频率附近的频谱范围。
       性质1和2表示只要LSF保持单调性,即间隔交替,就能确保滤波器的稳定,这就使量化的要求大为放宽,可以采用多种方法进行量化。接收端只要沿单位圆搜索LSF,且按升序依次确定P(Z)、Q(Z)的根即可。另外,相邻LSF表征了频率共振峰,共振峰的带宽取决于对应LSF的密集程度,LSF和共振峰的这一关系可以使设计者利用人类听觉系统的感觉特性对LSF量化进行人为控制。性质3表示ISF的频谱灵敏度是局部性的,因此各个LSF可以独立进行量化,对于灵敏度高的参数可以分配较多的量化比特,量化失真不会从一个频谱域泄漏到另一个频谱域去。与此对照,直接对an,量化就不具备这些优点。一则an的稳定性检验复杂,没有一个简易可行的准则;二则一个an,的变化会引起整个频谱的变化,关联性太大。
        对于1个10阶LP滤波器来说,如采用标量量化,预测系数量化约需要30-40比特;如采用矢量量化,约需要25-30比特。对于典型帧长20-30ms,LP系数传送所需的比特率约为1.5-2kbit/s
2.系数内插
       由于预测系数是逐帧计算更新的,在某些情况下,例如一个独音的起始段,就可能在帧与帧之间产生预测系数的突变,此瞬变效应将导致解码器话音恢复时产生失真。解决这一问题的方法,一是前视,利用部分下一帧的数据计算系数,达到平滑的作用。二是内插,即将上帧和本帧的系数计算值适当组合后作为最终的系数。在实现中,可以对每个子帧选取不同的权值,逐渐变更预测系数。第i子帧的系数可按下式计算:ST(i) = Wi • STF + ( 1 -Wi).SFp       (4.13)式中,STp和STp,分别为上帧和本帧计算的系数,wi为第i子帧的权值。对于帧长为20-30ms的情况,每帧包含4个子帧,wi可取为0.25,0.75,1.0,1.0(i = 1,2,3,4)
       和量化一样,内插也不是直接对LP系数进行的,而是对LP系数的某种变换形式,如LSF进行的,以保证内插滤波器的稳定,并允许对不同系数进行不同的内插。
4.2.4误差加权滤波器
常用的误差加权滤波器是根据表征话音信号短时相关性的LP系数构成的,其传递函数为:
若Y<1,则1/A(Z/Y)滤波器的根更靠近单位圆的圆心,对应为频谱共振峰的带宽加宽,从而使共振峰附近的噪声得到加强。
      Y1和Y2的值需根据听觉和编码器的量化失真选定。常用值为Y1 =1.0,Y2=0.8,滤波器系数可以根据量化LP系数或未量化LP系数导出,后者效果更好。

联系我们

028-83110277

IP电话机视频电话机供应商

手机:

成都世讯电科信息技术有限公司

成都世讯电科信息技术有限公司是一家多媒体融合通信解决方案及运营服务提供商,公司专注于为广大用户提供简单高效的通信产品和真正符合行业用户需求的行业应用解决方案,让用户享受到个性化、私密性强又具开放性、兼容性强又易于管理的高科技服务,帮助用户实现办公及运营通信的现代化与网络信息化。

公司拥专注于IP多媒体解决方案的应用与实施,有IP多媒体通信系统(IPBX)、IP多媒体通信平台定制与搭建(运营、对讲广播、门禁、调度、音视频会议及与视频监控交互式应用等)、IP电话机、视频电话机、项目租赁、云通信及系统集成等服务。

电话:028-83110277

Q Q:86313858