媒体信息编码——音视频信息编码

发布时间: 2022-06-07 16:52:46

一、音频信息编码

对于不同类型的音频信号而言,其信号带宽是不同的，如电话音频信号(200Hz〜3.4kHz)、调幅广播音频信号(50Hz〜7kHz)、调频广播音频信号(20Hz〜15kHz)、激光唱盘音频信号(20Hz〜20kHz)。随着对音频信号音质要求的增加，信号频率范围逐渐增大，要求描述信号的数据量也就随之增加，从而带来处理这些数据时间和传输、存储这些数据的容量增加。因此音频压缩技术是IPTV技术实用化的关键之一。

1.音频信息冗余

从信息论的角度可知，只有当信源产生的信号存在冗余时才能对其进行压缩。通过对音频信息的分析可以发现,其中存在如下冗余。

(1)时域冗余

①信号幅度的非均匀分布：音频信号中不同幅度样本出现的概率是不同的，这为炳编码提供了依据。

②样本间的关联：从音频信号的波形分析中可以看出，相邻样本之间采样数据存在很大的相关性。如果信号釆样速率提高，样本间相关性更强。

③周期之间的相关:在特定的瞬间，某一声音往往只有频带内少数频率成分起作用。当声音中只存在少数几个频率时，就会像波一样，在周期与周期之间存在着一定的相关性。

④基音之间的相关:人类发出的声音分浊音和清音两类。浊音波形由声带产生，称之为音调间隔或基音周期的周期冗余度。另外，浊音波形还展示了对应音调间隔的长期重复波形。

⑤静音系数:人类在讲话时并不总是有信号的，从信号波形上来看，是时断时续的。对语音信号来说，本身就存在着大量时间冗余。

(2)频域冗余

①非均匀的长时功率谱密度；

②语音特有的短时功率谱密度。

(3)人的听觉感知机理

①人的听觉具有掩蔽效应；

②人耳对不同频段的声音的敏感程度不同，对低频端的比高频端的更敏感；

③人耳对语音信号的相位变化不敏感。

2.音频信号压缩编码算法

充分利用音频信号中的各种信息冗余，其压缩编码主要有以下几种主要类型。

(1)熵编码

利用信号中不同符号概率分布的不均匀性，以变长编码定理为理论基础的编码方法，如霍夫曼编码、算术编码以及游程编码等。

(2)波形编码

在信号釆样和量化过程中考虑到人的听觉特性，使编码信号尽可能与原输入信号匹配，又能适应人的应用要求，如全频带编码(包括脉冲编码调制PCM,瞬时、准瞬时压扩PCM,自适应差分ADPCM等)、子带编码(包括自适应变换编码ATC、心理学模型等)、矢量量化。波形编码的特点是在高码率的条件下获得高质量的音频信号，适用于高保真度语音和音乐信号的压缩技术。

(3)参数编码

参数编码方法是将音频信号以某种模型表示，再抽出合适的模型参数和参考激励信号进行编码；声音重放时，再根据这些参数重建即可，这就是通常讲的声码器(vocoder)o显然参数编码压缩比很高，但计算量大，而且不适合高保真度要求的场合。用此类方法构成声码器的有线性预测声码器、通道声码器、共振峰声码器等。

（4）混合编码

这是一种吸取波形和参数编码的优点进行综合的编码方法，如多脉冲线性预测MP-LPC、矢量和激励线性预测VSELP、码本激励线性预测CELP、短时延码本激励线性预测编码LACELP、长时延线性预测规则码激励RPE-LTP.

二、视频信息编码

当视频信息逐帧进行帧内编码时，与对静止图像一样可以釆用变换编码方式进行。同时，利用视频信息的帧间强相关性以及运动检测技术，还可采用各类预测和运动补偿来完成压缩编码。
视频信息编码

1、帧间预测编码

预测编码可以在一幅图像内进行（帧内预测编码），也可以在多幅图像之间进行（帧间预测编码）。预测编码基于图像数据的空间和时间冗余特性，用相邻的已知像素（或图像块）来预测当前像素（或图像块）的取值，然后再对预测误差进行量化和编码。帧间预测编码主要利用活动图像序列相邻帧间的相关性，即图像数据的时间冗余来达到压缩的目的，可以获得比帧内预测编码高得多的压缩比。帧间预测编码作为消除图像序列帧间相关性的主要手段之一，在视频图像编码方法中占有很重要的地位。帧间预测编码一般是针对图像块的预测编码，它釆用的技术有帧重复法、阈值法、帧内插法、运动补偿法和自适应交替帧内/帧间编码法等，其中运动补偿预测编码现已被各种视频图像编码标准采用，得到了很好的结果。这类图像编码方法的主要缺点在于对图像序列不同的区域，预测性能不一样，特别是在快运动区，预测效率较差。预测编码的关键在于预测算法的选取，这与图像信号的概率分布很有关系，实际中常根据大量的统计结果采用简化的概率分布形式来设计最佳的预测器，有时还使用自适应预测器以较好地刻画图像信号的局部特性，提高预测效率。

2、具有运动补偿的帧间预测编码

在图像传输技术中，活动图像特别是电视图像是被关注的主要对象。当图像中存在着运动物体时,简单的预测并不能收到好的效果。例如，在图2-5中当前帧与前一帧的背景完全一样，只是小球平移了一个位置，如果简单地以k~l帧像素值作为k帧的预测值,则在实线和虚线所示的圆内的预测误差都不为零。如果已经知道了小球运动的方向和速度，可以从小球在k~l帧的位置推算出它在k帧中的位置来，而背景图像（不考虑被遮挡的部分）仍以前一帧的背景代替，将这种考虑了小球位移的k-1帔图像作为k帧的预测值，就比简单的预测准确得多,从而可以达到更高的数据压缩比。这种预测方法称为具有运动补偿的帧间预测。

图2-5 帧间预测与具有运动补偿的帧间预测

具有运动补偿的帧间预测编码是视频压缩的关键技术之一，它包括以下几个步骤：首先,将图像分解成相对静止的背景和若干运动的物体，各个物体可能有不同的位移，但构成每个物体的所有像素的位移相同，通过运动估值得到每个物体的位移矢量；然后，利用位移矢量计算经运动补偿后的预测值;最后对预测误差进行量化、编码、传输，同时将位移矢量和图像分解方式等信息送到接收端。

3、具有运动补偿的帧间内插编码

在具有运动补偿的预测编码系统中，利用了活动图像帧间信息的相关性，通过对相邻帧图像的预测误差进行编码而达到压缩数据的目的。运动补偿技术的引入，大大提高了预测精度，使传输每一帧图像的平均数据量进一步降低。在此系统中图像的传输帧率并没有变化，仍与编码前的帧率一样。然而在某些应用场合，对图像传输帧率的要求可适当降低，这就为另外一种活动图像压缩编码方法——帧间内插提供了可能。活动图像的帧间内插编码是在系统发送端每隔一段时间丢弃一帧或几帧图像，而在接收端再利用图像的帧间相关性将丢弃的帧通过内插恢复出来，以防止帧率下降引起闪烁和动作的不连续。

在帧间预测中引人运动补偿的目的是为了减少预测误差，从而提高编码效率。运动估值的不准确会使预测误差加大，从而使传输的数据率上升，但接收端据此位移矢量和预测误差解码不会引起图像质量下降。而在帧间内插中引入运动补偿的目的，是使恢复的内插帧中的运动物体不致因为内插而引起太大的图像质量下降。这是由于在丢弃帧内没有传送任何信息，要确定运动物体在丢弃帧中的位置必须知道该物体的运动速度。运动估值的不准确，将导致内插出来的丢弃帧图像的失真。另外，在帧间内插中的位移估值一般要对运动区的每一个像素进行，而不是对一个子块；否则，内插同样会引起运动物体边界的模糊。因此，在帧间内插中较多使用能够给出单个像素位移矢量的像素递归法。

除了上述介绍的几种目前应用最为广泛的压缩编码方法外，矢量量化编码、子带编码、小波变换、分层编码、分形编码、模型编码等均是近年来视频编码研究十分活跃的领域。