Compare Plans

2021-08-24

波形编码

3.2.1一般原理
        波形编码就是根据话音信号波形导出相应的数字编码形式,使其在接收端能忠实地再现原始话音。最早的也是最著名的波形编码就是PCM。波形编码广泛应用于传统的电信网络以及ATM网络上的话音传送(VoiceOverATM),它包含三个过程:抽样、量化和编码。
        根据奈奎斯特定理,为了保证信息不丢失,抽样频率至少应为模拟信号所含最高频率的2倍,因此话音抽样频率均为8kHz,这是所有话音编码方法的基本假设。量化就是将连续的模拟波形划分为若干离散的区段,以便用数字形式表示每个抽样值。由于用量化值表示连续抽样值是近似的,由此必然带来所谓“量化噪声"。如果按均匀分段的方式划分量化区间,就称之为均匀量化或线性量化,其主要问题是小信号处量化噪声大,信号过大超过量化范围时又会产生显著的过载戴化噪声。因此,实际采用的都是非均匀量化。在编码器中,先对信号进行压缩变换,然后进行均匀量化,解码器则需对信号进行逆向扩张变换,整个过程称之为"压"扩(companding)。所谓压缩实际指是对信号的不同区段进行不同程度的放大,其放大倍数随着信号的增大而减小。其结果是小信号被放大了,而大信号被压缩了,从而使整个区段的信噪比均匀一致。理想的压缩特性曲线为:
         y=h+klogW    (3.1)式中,w 为输入信号,y为压缩后的信号,h、K 为常数。因此又称非均匀量化为对数量化。由于语音是过零点的双极性信号,上述理想压缩是不可实现的,实际采用的是折线近似曲线,即著名的A律和µ律变换。每个置化值采用数字码字表示就称之为编码。显然量化级数越多,精度越高,所需编码位数也越多,一般最高位为符号位。在PCM中每个量化值用8bit码字表示,编码速率为64kbit/s。
3.2.2低速率波形编码技术
       PCM虽然能够提供相当好的长途通信级话音质量,但是其速率过高,尤其在多媒体应用以及在共享信道的数据网中应用时,采用PCM传送话音占用的网络带宽资源嫌过高。为此,人们提出了许多改进技术,以降低话音编码的速率,或者说在同样的码率下可以进一步提高话音的质量。
1.差分编码技术
       降低编码比特率的基本思路是利用话音抽样信号之间的相关  性。分析表明,话音波形中有很多的冗余信息,作为信息冗余的度 量,相邻8kHz抽样值之间的自相关系数一般为0.85以上。由此可知,相邻抽样值之差一般很小,其包含的信息量远小于抽样值本身。因此一个自然的想法就是设计一种编码方法,对此差值进行编码,而不是对抽样值本身进行编码,这样所需的比特率必然可以下降。这 就是所谓的差分脉冲编码(DPCM)。
       产生差分信号最简单的方法是直接存储前一次的输入样值(例如用抽样保持电路),然后用模拟减法器获得差值,经量化编码后发送出去。解码器则作相反的处理恢复原信号。其原理图如图3.1所示。
DPC原理图
 
图3.1  DPCM原理图
用Z变换考察各点信号的时域关系,有:
各点信号时域关系
        式中,E(Z)为量化噪声的Z变换,且假设信道无失真。由式(3.3)知,在接收端量化噪声被累积,且迭加在输出信号中。从时域角度看就是每次量化噪声信号均被记忆下来,然后迭加到下一次输出中去。如果量化噪声始终是同一方向的话,会使输出信号越来越偏离正常信号,显然这是不允许的。因此实际DPCM编码器是通过反馈的方式由差分编码值重构生成前一次抽样值的,其结构如图3.2所示。
实际DPCM机构图
 
图3.2  实际DPCM结构图
      由图可知,若某一时刻量化噪声信号为正,则它将使重构的抽样值增大,从而使下一时刻的差分信号变小,如此即可有效地抵消上一次量化噪声的影响。从Z变换也不难得出同样的结论。由图可得,
反馈重构信号为:                 反馈重构信号
编码器输出为:                编码器输出
将式(3.4)代入式(3.5),得:
解码器输出信号为           :解码器输出信号
即,已消除量化噪声的积累。
       上述基本的差分编码只利用了当前时刻抽样值和上一时刻抽样值之间的相关性,实际上当前输人值不但和上一时刻样值有关,还和前面若干个抽样值都有关,为了充分利用话音波形中固有的信息冗余,进一步降低编码比特率,我们可以将前若干个抽样值的线性组合作为当前输入信号的预测值,
由此求得差分信号为:d(n)= x(n)-[alx(n-1)+a2x(n-2)+…+apx(n-p)]  (3.8)
写成Z变换形式即为:D(Z)=X(Z)[1-(a1z-l+a2Z-2...+apz-p)] 
                        =X(Z).(1-P(2))              (3.9)
       式中,P(Z)称为线性预测多项式,a1  称为预测系数。ai 的选取应使差分信号(即预测误差)的方差为最小。显然,预测多项式阶数越高,预测误差就越小,相应编码比特率也可越低。上述基本差分编码相当于最简单的预测系数恒为1的1阶线性预测。分析表明,如果预测系数a1  取为常数,则采用3阶线性预测可有效地提高编码效率,阶数再高改善效果已不明显。
       3.3为采用线性预测的DPCM一般结构图。和基本差分编码一样,为了避免量化噪声的积累,预测值由反馈回路产生,也就是说,预测多项式中用到的前面各次抽样值都是由预测误差量化值反馈生成的重构值,并非真实的历史抽样值。
DPCM一般结构图
 
图3.3 DPCM一般结构图
       从能量角度看,采用差分编码后,由千差分信号比原信号功率减小,其量化限幅电平相应可降小。这样在量化电平数不变的条件下,差分量化器的量化阶距就比原信号的量化阶距要小,即量化噪声减小。因此差分编码的信噪比将比直接对原信号编码的PCM高,由此得到差分增益或称预测增益,其值等于原信号功率和差分信号功率之比。从另一角度说,如保持信噪比不变,则可减小量化器字长,即降低编码比特率。
       分析表明,1阶预测DPCM的差分增益可为5dB,可比PCM减少1比特编码长度,即为56kbit/s比特率。3阶预测DPCM能减少1.5~2比特编码长度,即为48kbit/s比特率。
       另有一种更为简单的差分编码称为增量调制(DM)。其差分信号也是表示相邻抽样值之差,但是量化值仅用1个比特表示,实际上就是差值的符号。量化步长为固定值△,根据当前输入值比前次值上升还是下降,取差分信号的量化值为△或-△。这一方法简单,但对信号变化速率大的部分将会产生较大的量化噪声。
2.自适应量化
       由前分析可知,为了获得尽可能小的量化信噪比,应该对小信号采用较小的量化步长,对大信号可采用较大的量化步长。由于对不同讲话者和在不同环境下,话音能量的差别可高达40dB,即使在同一话音中,不同时刻的信号幅度也会有相当大的变化,因此有必要根据输入信号的幅度变化动态地调整量化步长。这样可使量化器范围和输人信号的动态范围相匹配,减小量化噪声,从而进一步降低编码比特率。这就是自适应量化技术。它可用于PCM、DPCM和DM。对于线性恨化来说,只需控制个量化步长即可;对于非线性量化来说,则要根据给定的非线性特性控制多个量化步长。
       话音信号幅度随时间的变化有两种情况。一种是相邻或相近若干抽样值之间的快变化,称之为瞬时变化;另一种是相邻音节之间的慢变化,称之为音节变化。一个音节周期一般为10~20ms。与之相应有两种自适应量化算法,即瞬时自适应法和音节自适应法。其基本原理相同,首先是计算输入话音信号的幅值或方差,然后据此控制量化步长。
       另有一种思路完全不同的自适应量化方法。它不是去调整量化步长,而是采用自动增益控制原理,根据输入话音信号的幅度或方差来调整量化器输入信号的大小。具体来说,就是用算得的话音信号幅值或方差去控制一个时变增益因子G(n),使其随方差成反比例关系变化,然后将输入信号x( n)乘以G(n)后加至量化器,使量化器输入信号方差保持恒定。这样量化步长不用变化,仍然可获得恒定的信噪比。
    图3.4示出步长调整和增益调整两种自适应量化的原理图。编码器除了发送编码码字c(n)外,还需发送量化步长△(n)或增益因子G(n),解码器据此才能恢复原始信号。自适应量化原理图
图3.4  自适应量化原理图
3.自适应线性预测
       如前所述,差分编码调制之所以能降低比特率的原因是它编码的对象是差分信号,其功率较原信号低。比特率能降到什么程度则取决于预测精度,也就是话音波形信息冗余的去除程度。由千前述差分编码采用的都是固定系数的线性预测器,不能很好地适应话音的不平稳特性,因此即使采用高阶预测,信噪比的改善也很有限,最低比特率只能降至48kbit/s。为此,必须采用自适应技术动态调整预测器系数,才能进一步降低编码比特率。这就是自适应差分脉冲编码调制(ADPCM)技术。一般说来,ADPCM既包含自适应预测,也包含自适应量化,最低比特率可达16khit/s。
       自适应线性预测的基本原理是根据话音波形的时间相关性确定预测系数,使差分信号的方差为最小,时间相关性则是以自相关函数来度量的。由于话音信号的自相关函数大体是随音节而变化的,也就是在/个音节时间内自相关函数基本不变,只是从一个音节至另一音节时才有较明显的变化,因此自适应预测都采用音节适应算法。在此,一个音节的时间常称为一帧。
      为了计算预测系数,需要设定一个数据取样窗口。设窗口宽度为N,则每帧需用到N个抽样值,利用这些样值估算自相关函数值,并进而计算预测系数。和差分编码类似,这N个抽样值可以直接取自于输入信号,由缓冲寄存器暂存,也可以由量化后的差分信号反馈后重构生成。前者称为前馈(feed-forward)自适应预测,又称开环自适应预测,是根据原始信号调整预测系数的。后者称为反馈(feed­back)自适应预测,又称闭环自适应预测,是根据重构信号调整系数的。
图3.5为前馈型ADPCM系统原理图,其中包括自适应量化。和图3.3比较可知,系统的核心部分和DPCM相同,但是P(Z)的系数受自适应逻辑控制。自适应量化也采用前馈型控制。编码器输出包括3类信息:
•差分信号编码码字c(n)
•预测器系数ai ( n )
•量化步长△(n)或者增益因子G(n)
      反馈型ADPCM系统的解码器采用和编码器同样的结构和算法,它可以根据输人信号推算出自相关特性和信号方差,从而计算出预测系数和量化步长或增益因子。因此,反馈型系统的好处是只需要
 
前馈型ADPCM系统原理
图3.5前馈型ADPCM系统原理图
传送编码码字c(n),尤需传送预测器系数和量化步长或增益因子,比特率可以降低。但是它有一个严重的缺点,即解码器侧自适应特性对传输误码十分敏感,它将使解码器的预测器和量化器和编码器不一致,从而造成话音失真。一般高比特率系统可采用反馈型自适屯预测,因为其话音编码对传输信道误码的敏感度较低,低比特率系夕允则采用前馈型自适应技术。
       根据自适应预测使用的N个抽样值是取自当前帧还是上一帧,又可将自适应预测分为前向预测和后向预测两类。前向预测采用当前帧的样本值算出预测器系数,然后计算当前帧的预测信号,得出差分信号进行编码。其预测精度高,可获得较低的编码比特率,代价是要引入1帧时间的算法时延。后向预测采用上一帧的样本值算出预测器系数,以此预测器计算当前帧的预测信号,它没有算法时延,但预测精度较低。
       采用自适应预测技术后,一般都选用高阶预测器,以提高精度。常用的为10~12阶预测器。如果采用后向预测,预测增益可达13dB;如果采用前向预测,预测增益可达20dB以上。
3.2.3G.726话音编码
       G.726是ITU-T定义的完整的ADPCM话音编码标准,其目的是定义64kbit/sPCM码流至低速率ADPCM码流的转换。标准给出40kbit/s、32kbit/s、24kbit/s和16kbit/s4种比特率。其中,40kbit/s信道主要用于在数字电路倍增设备(OCME)上传送数据modem信号,特别用于4800bit/s以上速率的modem;24kbit/s和16kbit/s信道主要用作OCME话音传送的过载信道。G.726设计的主要用途仍然是传统的电路交换网,但是其低比特率方案也可用于VoIP。
       图3.6为G.726编码器方框图。首先编码器将A/µ律PCM信号s(k)转换为均匀星化PCM信号S1 ( k),然后计算差分信号:
           d(k)=S1(k)-Se(k)
       其中Se(k)为线性预测器输出的预测信号。差分信号经非均匀自适应量化器得到编码信号I(k),对应40,32,24或16kbit/s比特率,I (k)分别为5,4,3或2比特,其中最高比特为符号位。自适应是通过尺度因子y(k)实现的,以与信号的动态范围相匹配,量化电平编码由表格给定。40kbit/s比特率的量化器归一化输入/输出特性如表3.2所示,共有31个量化级(士0合为一级)。32,24kbit/s比特率编码分别有15和7级量化电平,仅16kbit/s编码采用偶数级(4级)量化电平。
表3.2  40kbit/s量化器归一化输入/输出特性
归一化输入输出
G726编码器
图3.6    7.26编码器方框图
归一化范围
       反向自适应量化器施行D/A变换,还原得到模拟昼化差分信号dq (K) ,供反馈回路生成重构信号和预测信号。反向自适应量化器同样受量化尺度因子y(k)控制。
       自适应量化控制采用双模式自适应:对幅度变化较大的话音信号进行快速适应,其标尺因子为yu( k);对幅度变化很小的话带数据和音信号进行慢速适应,其尺度因子为y1(k)。总的标尺因子y(k)为Yu(k)和y1(K)的线性组合:
y(k)   =a1(k)  yu  (k - I) +[1- a1 (k)]y1  (k-  I)
其中O≤a1 (k)≤1为自适应控制参数,由自适应速率控制器模块根据差分信号变化速率确定。对于话音信号a1 ( k)趋于1,对于话带数据信号a1(k)趋于0。ta(k)和tr(k)为信号音检测信号,由信号音和转换检测器生成,供自适应控制模块转换适应模式。
自适应预测器根据量化差分信号dq(K)计算输入信号估计值
     (预测信号)S0 (k)。预测器由两部分组成:-个2阶预测器模拟输入信号的极点,一个6阶预测器模拟输入信号的零点,这样的双重结构可适应可能遇到的各种输入信号.2套预测系数a(k)和b(k)均采用简化的梯度算法自适应调整。
解码器方框图
 
图3.7 G.726解码器方框图
 
       图3.7为G.726解码器方框图,其模块基本上与编码器中的反馈回路部分相同。其中最后一个模块:同步编码调整模块的作用是防止同步级联(ADPCM-PCM-ADPCM)情况下产生失真积累。该模块调整PCM输出编码以消除后面一个ADPCM编码级的量化失真。
       最后指出一点,G.726采用的是反馈型自适应方法,因此只需传送差分信号编码,预测系数和尺度因子都无需传送。
3.2.4波形编码标准
     波形编码国际标准均由ITU-T制订,为G系列标准,如表3.3所示。
                               表3.3    波形编码TTU标准
 
 
标准
 
颁发年份
 
比特率
(kbit/s)
复杂度  
时延
(ms)
 
话音质量
 
编码器类型
 
MIPS
 
RAM
(byte)
G.711 l972 64 <l l 0.125 长途 压扩 PCM
G.726 1988 16,24 1.25 <50 0.125 长途 ADPCM
(G.721, G.723) (1984,
1986)
 
32,40
         
 
G.727
 
1990
16,24,
32,40
 
1.25
 
<50
 
0.125
 
长途
 
ADPCM
 
G.722
 
1988
64,56,
48
 
I0
 
IK
 
1.5
 
长途
 
子带编码
7kHz
模式 A
 
在研
 
24,16
 
2DSP
 
8k
≤I0 24kbit/s = 56kbit/s G.722  
未知
7kHz
模式 B
 
在研
 
24,16
主机上运行  
128K
 
≤30
16kbit/s= 48让it/ s G.722  
未知
        G.711是电话网中广为使用的64kbit/sPCM编码。在我国采用A律压扩,在小取样值范围内相当于12bit线性PCM,昼化信噪比为35dB。其失真被作为话音编码的质量衡量单位,称作量化失真单位(QDU)。
        G.721为32kbit/sADPCM编码,1984年标准化。其应用目标­是用于DCME,二是用在A律和µ律PCM之间,作为两种PCM系统的中介系统,正因为如此,它以A/µ律PCM作为其输入,但不能以线性PCM作为其输入。另外,G.721 还支持同步级联,保证性能不下降。由于北美网络不允许有长零串,因此编码中取消了全零码字,使量化级成为15级。量化信噪比为23dB。
       G.7231986年标准化,只用于DCME,增加了两种比特率:24kbit/s和40kbit/s。前者在话务短时过载时使用,后者用千传送9600bit/s的modem信号。40kbit/s的量化信噪比为28dB。
       G.726为G.721和G.723的合成,且又增加了16kbit/s比特率。G.726推出后,G.721和G.723标准就删除了。
       G.727比特率和G.726完全相同,其目的是用千分组电路倍增设备(PCME)。在PCME中,若出现过载,分组的最低有效位(LSB)将被丢弃。因此,G.727采用了嵌入式ADPCM算法,其特点是低速率量化电平是高速率量化电平的子集。具体说来,40/32/24/l6kbit/s对应的5/4/3/2比特量化器均采用偶数量化级,且2bit鼠化器嵌在3bit量化器中,3bit量化器嵌在4bit量化器中,4bit量化器又嵌在5bit量化器中。在传输过程中若网络出现拥塞,则可丢弃LSB自动降为低一级星化码字。编码器发送的码字包含增强比特和核心比特,反馈回路只使用核心比特进行预测和自适应。解码器分为前馈支路和反馈支路,反馈支路也使用核心比特,和编码器相同,以保证收发两端预测器完全相同;前馈支路则使用增强比特和核心比特,经反向量化器得差分信号,然后与反馈回路所得的预测信号合成后得到恢复后的原信号。这样,增强比特允许在网络传输中丢弃,仅影响恢复信号的精度,且比特丢弃或编码器降低量化阶数都无需通知解码器。唯一需要保证的是编解码器反馈支路所用的核心比特数必须相同。
       因此,G.727适于IP网络和ATM网络中的话音传送,在这些网络中由于业务量的突发性和不可预测性容易出现短时拥塞,此时可以舍弃话音分组的lSB以缓解拥塞。
       G.722为7kHz阔带编码器,用于电话会议和会议电视,可增加话音可懂度,使与会者长期收听不感到疲劳。它利用正交滤波器将话音频带分成2个子带。高端子带采用类似G.727的16kbit/sAD­PCM,低端子带采用内嵌于6bit量化器的5bit和4bit量化器,实现速率为48/4lJ/32kbit/s的ADPCM。主观评测MOS分要比电话频带话音高1分。7kHz编码器的研究始于1995年,主要应用目标是ISDN电话、ISDN可视电话和会议电视、ATM上分组应用等。模式A为通用型,模式B为低复杂度型,在高端工作站和PC机上运用。
       波形编码广泛应用于电路交换网。IP网络电话一般都支持G.711PCM编码,有的还支持32kbit/s的ADPCM编码。
 

联系我们

028-83110277

IP电话机视频电话机供应商

手机:

成都世讯电科信息技术有限公司

成都世讯电科信息技术有限公司是一家多媒体融合通信解决方案及运营服务提供商,公司专注于为广大用户提供简单高效的通信产品和真正符合行业用户需求的行业应用解决方案,让用户享受到个性化、私密性强又具开放性、兼容性强又易于管理的高科技服务,帮助用户实现办公及运营通信的现代化与网络信息化。

公司拥专注于IP多媒体解决方案的应用与实施,有IP多媒体通信系统(IPBX)、IP多媒体通信平台定制与搭建(运营、对讲广播、门禁、调度、音视频会议及与视频监控交互式应用等)、IP电话机、视频电话机、项目租赁、云通信及系统集成等服务。

电话:028-83110277

Q Q:86313858