IPTV中的视音频编码标准——MPEG编码标准

发布时间: 2022-06-09 10:04:42

目前国际上与制定视频音频编码标准相关的国际组织主要有ITU-T和ISO/IECJTC1OITU-T的标准称之为建议，并命名为H.26x系列,ISO/IEC的标准称为MPEG-x。H.26x系列标准主要用于实时视频通信;MPEG系列标准主要用于视频存储、视频广播和视频流媒体。除了联合开发H.262/MPEG-2标准外，大多数情况下这两个组织独立制定相关标准。

目前IPTV系统釆用的多媒体信息编码标准主要有:MPEG-2/MPEG-4.H.264和AVS等。

MPEG-1是国际标准化组织ISO定义的第一个视音频编码标准，它规定了1.5-2.0Mbit/s数字存储媒体的全活动视音频信息的编解码器和数据码流的表示方法。此后的MPEG-2和MPPEG-4继承了MPEG-1的主要框架特征，并加以扩充和引入新的技术以适应更广泛的应用。

1. MPEG-1标准

该标准主要由3部分组成:系统、视频、音频。系统部分说明了编码后的视频和音频的系统编码层，提供了专用数据码流的组合方式，描述了编码码流的语法和语义规则。MPEG-1有以下主要特点。

(1) 引入了编码图像组的概念

由于在时间上进行正负方向的帧间预测编码可以有更高的图像压缩比，以及其他方面的因素，MPEG-1将电视图像帧划分为3类，如图2-6所示。

• I-图像帧(Intra-codedpicture或I-picture):帧内编码图像帧。这类图像不参考其他图像帧而只利用自己的图像信息进行编码。

• P-图像帧(Predictive-codedpicture)：预测编码图像帧。此类图像帧利用一个过去的I-图像帧或P-图像帧作为参考，采用带运动补偿的帧间预测进行编码。它通常还用于后续P-帧或B-帧图像编码时的预测之参考。

• B-图像帧(Bidirectionallypredictive-codedpicture或B-picture):双向预测编码图像帧。此类图像既利用过去的图像帧(I-图像帧或P-图像帧)，也利用后来的图像帧(P-图像帧)进行带运动补偿的双向预测编码。B-图像帧从不作为预测的参考。

图2-6 图像组概念

图像组一般由一个I-图像帧、几个P-图像编码帧和若干个B-图像帧构成。一般情况下0.5s以内必须传一次I帧，因此对于PAL制，图像组一般由12个电视帧构成，而NTSC制的图像组则由15个电视帧构成。通过运动预测和估值，从上述的I帧(或其他P帧)得到P帧,P帧的压缩比大约为60：1。从I帧或P帧得到双向内插的B帧，B帧可以达到更低的码率。MPEG算法是不对称的，即压缩比解压缩需要更多的计算复杂度。这对于把一个源信号编码后分配给许多用户的应用是非常有利的。

(2) 定义了压缩码流语法结构

MPEG-1标准规定了视频压缩数据码流的语法结构，这个语法把视频压缩数据码流分为6层，如图2-7所示，每层或者支持一种信号处理过程，或者支持一种系统功能。

• 块(Block)：MPEG算法中最小的编码单元，它包含着8X8像素，并且是下面3个图像信息之一：亮度信号(Y)、色差信号(U/V)。块是帧内编码的基本单元。

• 宏块(Macroblock)：MPEG算法中的基本编码单元。它是图像帧内的16X16像素。宏块由附加数据及4个亮度信号块、若干色差信号块组成。附加数据包括宏块的编号、宏块的编码类型、量化参数、运动矢量等信息。

• 图像条(Slice)：图像帧内的水平条,MPEG编码方案中的基本处理单元。只有当条中的所有像素都有效时，块和宏块的编码操作才能完成。因为条的编码和相邻部分无关，条是自治单元。图像条由附加数据及若干宏块构成。附加数据包括该图像条在整个图像中的位置、默认的全局量化参数等。

• 图像(Picture)；显示的基本单元，对应于视频序列中单个帧。图像是由数据头及若干图像条构成的。数据头包含了该图像的编码类型及码表选择等信息。

• 图像组(GroupOfPictures,GOP)；由数据头及若干图像组成。数据头包含时间代码等信息。GOP中每个图像可以是I-图像帧、P-图像帧、B-图像帧。值得注意的是：GOP中的第一个图像总是I-图像帔，其目的是给编辑提供接入点。

• 序列层(VideoSequence)：序列层是最高层，它由一个数据头及若干GOP组成。数据头包含了图像的大小、量化矩阵等信息。

图2-7MPEG-1视频数据分级结构

(3) 设置了系统层编码

MPEG系统编码层说明了各种基本码流(ElementaryStream,ES)的复用语法，如压缩后音频、视频以及其他辅助数据。在ISO文件中没有规定编码器的处理方法，可以采用各种各样的方法完成编码，但最终码流应符合系统规定。

图2-8描述了系统级的MPEG编码器。在离散时间间隔上视频编码器接收未编码的数字化图像，称为视频显示单元(VideoPresentationUnits,VPU)；同样地，在离散时间间隔上音频数字化器接收未编码的音频样值数字块称为音频显示单元(AudioPresentationUnits,APU)0需要注意的是，VPU时间间隔有必要和APU时间间隔对准。

图2-8 MPEG码流的产生

视频和音频编码器分别对MPEG标准第二部分和第三部分描述的视频和音频进行编码产生编码图像，称为视频接入单元(Video Access Units,VAU)和音频接入单元(Audio Access Units,AAU)o这些输出一般称为基本码流。系统编码器和复接器产生复接码流，

它包含基本码流以及后面将要描述的系统层编码。音频支持32〜384kbit/s码率，并且可由单声道、双声道或立体声组成。

在基本码流定义的压缩层之上-MPEG说明了系统层的语法，它们分为3层，分别为：码流层、包裹层(PackLayer)、打包层(PacketLayer),如图2-9所示。

图2-9 MPEG层结构

• 码流层包括跟着一个结束码的Pack序列。

• 包裹层包括系统时钟参考(SCR)区、复接码率区、可选的系统头Packet和0或多个Packet.,

• 打包层由各个基本码流的信息组成。每个Packet由一个Packet起始码和随后的Packet长度组成(范围到216-1),标准定义的起始码有69位不同的值：视频16位、音频32位、专用2位、填充1位，剩余的18位码字保留。打包信息的数量只被总的有效的Packet长度和解码器强制数目所限制。

基本码流的复接方法在MPEG中没有直接规定。然而为了产生有效的MPEG数据码流，编码器和复接器必须有一定的限制措施。例如，需要防止各个码流的缓存器上溢或下溢。各个码流缓存器的大小是由复接器的特性决定的。从码流起始处开始的MPEG解码就一直持续下去，因为此时没有含糊不清的比特图案，而从随机点开始的解码就需要在数据码流中定位Pack和Packet的起始码。

2. MPEG-2标准

MPEG-2是ISO/IEC/JTC1/SC29/WGU制定的第二个视音频信息压缩编码标准，在目前所运行的IPTV系统中仍有相当一部分釆用了该标准。MPEG-2标准提供了一套视频和音频压缩以及相关数据的复杂的复接传输方法。

MPEG-2标准主要分为4部分：系统、视频、音频和一致性测试。

(1)MPEG-2的主要特点

MPEG-2对MPEG-1作了重要的改进和扩充，主要表现在下面几个方面：

① MPEG-2有“按帧编码”和“按场编码”两种工作模式

在MPEG-1中是没有电视帧的概念，只支持逐行扫描，不支持隔行扫描。在MPEG-2中，针对隔行扫描的常规电视图像专门设置了“按帧编码"模式，相应地运动补偿算法也有扩充，分为“按帧运动补偿”和“按场运动补偿”，其编码效率显著提高。

② MPEG-2定义了多种类与等级

MPEG-2提供了丰富的编码方法、灵活的操作模式以适应不同场合的需要，提出了类(Profile)与等级(Level)的概念。所谓类是按视频编码技术的简单还是复杂而确定的；对于每个类按其编码参数所受的不同限制，把类进一步划分为不同的等级。MPEG-2标准中规定了5类4等级,但类和等级之间并不是任意组合的，在实际应用中等级和类可能的组合如表2-2所示。

表2-2 MPEG-2实际应用点

注：#表示在实际应用中等级和类可能的组'合。

简单类的特点是不支持双向预测帧(B帧)，采样格式为4：2：0,不支持任何分级编码方法，只定义了主等级。简单类提供了一种低时延编码模式。

主类的特点是支持I、P、B3种曲像帧，采样格式为4：2：0,不支持任何分级编码方法。在该类中定义了全部4个等级。主类是MPEG-2中最令人感兴趣的一类，它可在最低等级上达到MPEG-1质量图像，在主等级上达到现行广播电视质量，在高等级上处理HDTV图像。它是应用最广泛的类，其潜在的应用包括数字视频广播、点播电视、视频信号的数字压缩存储等。

信噪比可伸缩类(SNRProfile)的特点是支持信噪比的分层编码，并定义了低等级与主等级。该类的比特流由两层构成。对低等级而言，其基本层速率≤3Mbit/s；两层速率之和≤4Mbit/s。对主等级而言，其基本层速率≤10Mbit/s；两层速率之和≤15Mbit/s。

空间分辨率可伸缩类(SpatialProfile)只定义了1440等级，其比特流最多可包含3层。基本速率≤15Mbit/s；前两层速率之和≤40Mbit/s；三层速率之和≤60Mbit/s。

高级类(HighProfile)定义了主等级、1440等级、高等级，其釆样格式为4：2：0或4：2：2。该类的比特流最多可包括3层，以主等级为例：其基本层速率≤4Mbit/s；前两层速率之和≤15Mbit/s；三层速率之和≤20Mbit/s。

③ MPEG-2引入了分层编码

为了适应不同的应用情况.MPEG-2釆纳了分层编码体系，以提供优良的互操作能力，它的可伸缩性体现在下面几个方面。

• 空间分层编码：提供空间分辨率不同的图像。空间分层编码基本层比特流的形成使用了金字塔编码技术，原视频序列的每一帧经低通滤波/亚采样后形成低分辨率的基本层图像序列。该序列采用MPEG-2标准进行独立编码，得到基本层比特流。利用基本层图像序列对原视频序列中的图像进行时间/空间预测，然后对预测误差编码，形成全分辨率的增强层比特流。借助空间分层，可以在基本层提供标准分辨率的视频信号，在增强层实现高分辨率视频信号。

• 时间分层编码：提供空间分辨率相同，但帧速率不同的视频信号。它的基本层比特流的构成是按一定规律跳过原视频序列中的某些帧/场，将剩余帧/场组成基本层图像序列，并按MPEG-2标准对其编码而形成的。借助已编码的基本图像，对跳过的帧/场采用运动补偿和DCT方法进行编码，从而形成全帧速率的增强层比特流。

• 信噪比分层编码:提供具有相同空间分辨率，但编码质量不同的视频比特流。

• 数据分割编码：将编码比特流分成两个优先级不同的部分。可将重要的头信息、运动矢量、量化参数、低频DCT系数等放入高优先级部分(HighPriorityPartition)；将高频DCT系数等放入低优先级部分(LowPriority Partition)。

④ MPEG-2扩充了系统层语法

MPEG-2对系统层语法有了较大的扩充，包含了两类数据码流：传输码流(TransportStream,TS)和节目码流(ProgramStream,PS)。节目码流是一组音频、视频和数据基本分量，它们具有共同的相对时间关系，并且一般用于传输、存储和回放。传输码流是节目码流或基本码流的集合，它们可以以非特定关系复接到一起，一般用于传输目的。

定义系统层的目的是为了提供一个基本数据结构，此数据结构可看作数据码流的语义和语法，它可作为存储、编辑和广播应用时的公共格式。这种结构的关键是传输码流基于包(Packet)的原理。“包”包含着单个基本码流或数据类型的数字信息。每个包有4B的包头，包头提供了诸如包指示ID、清除/加密指示、密钥(奇/偶)和连续计数器等信息。

(2)MPEG-2系统编码层

MPEG-2系统部分阐述了把一个或多个视频和音频基本码流以及其他数据组合成为单路或复接的码流，以适合存储或传输。系统编码遵循MPEG-2第一部分规定的语法和语义原则，并且提供信息以确保在宽松的接收或恢复条件下，同步解码过程中解码器的缓存器没有上下溢出发生。

MPEG-2的第二部分和第三部分描述了视频和音频数据的压缩编码，对压缩的基本码流打包产生打包的基本码流(Packetized Elementary Streams,PES)。当构成PES包时，需要加进独立于传输码流或节目码流的PES包信息。MPEG-2第一部分系统标准覆盖了图2-10中虚线右边的处理部分。

图2-10 MPEG-2系统层简要框图

节目码流和MPEG-1系统复接相似，把具有共同时基的一个或多个PES组成单一的码流。节目码流定义也可用于把多个视频和音频基本码流编码成为多个解码码流，它们具有相同的时基。像单个节目码流一样，所有的基本码流可同步解码。节目码流用于相对无误码的环境，适合于涉及软件处理的应用，如交互多媒体应用。节目码流包是可变的并且是相当长的。

3. MPEG-4

尽管MPEG-1/MPEG-2标准的制定和发布在视听应用上取得了很大成功，但由于釆用的是第一代压缩编码技术，着眼于图像信号的统计特性来设计编码器，属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧，每一帧图像又分成宏块以进行运动补偿和编码，这种编码方案存在以下缺陷：

• 将图像固定地分成相同大小的块,在高压缩比的情况下会出现块效应，即马赛克效应；

• 不能按图像内容进行访问、编辑和回放等操作；

• 未能充分利用人类视觉系统(HumanVisualSystem,HVS)的特性。

MPEG-4则代表了基于模型/对象的第二代压缩编码技术，它充分利用了人眼视觉特性，从轮廓、纹理思路出发，支持基于视觉内容的交互功能，这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。随着MPEG-4标准的不断扩展，它不但能支持码率低于64kbit/s的多媒体通信，也能支持广播级的视频应用，是当前IPTV系统中应用最为广泛的信息编码标准之一。

(1)MPEG-4标准的主要特点和功能

MPEG-4视频编码标准仍支持MPEG-1.MPEC-2中的大多数功能，提供不同的视频标准源格式、码率、帧频下矩形图像的有效编码，同时也支持基于内容的图像编码。图2-11为MPEG4支持的码率与相应功能集之间关系的示意图。

这一功能集的底层是极低比特率视频(Very Low Bitrate Video,VLBV)核心。它为码率在5~64kbit/s范围内的视频操作与应用提供算法与工具，支持较低的空间分辨率(低于352X288像素)和较低的帧频(低于15Hz)。VLBV核心支持的专用功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。MPEG-4的高比特率视频(High Bitrate Video,HBV)同样支持上述功能，其码率范围在64kbit/s-10Mbit/s之间。它与VLBL核心釆用相同或相似的算法,但它支持更高的空间与时间分辨率，允许传输和存储适用于演播室的高质量视频信号，其输入可以是ITU-RRec.601的标准信号。

图2-11 MPEG-4码率与相应功能集关系

视听对象(Audio Visual Object,AVO)是MPEG-4为支持基于内容编码而提岀的重要概念。对象是指在一个场景中能够访问和操纵的实体，对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念，而是一个个视听场景(AV场景)，这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉或者视听内容的表示单元，其基本单位是原始AV对象，它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互操作的特性，它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出，使多媒体通信具有高度交互及高效编码的能力，AV对象编码就是MPEG-4的核心编码技术。

MPEG-4不仅可提供高压缩率，同时也可实现更好的多媒体内容互动性及全方位的存取性，它采用开放的编码系统，可随时加入新的编码算法模块，同时也可根据不同应用需求现场配置解码器，以支持多种多媒体应用。MPEG-4在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象，从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变。

MPFG-4标准支持8项新的或改进的功能，可分为以下3类。

① 基于内容的交互性：基于内容的多媒体数据存取工具;基于内容的码流操作和编辑;自然与合成数据的混合编码；增强的时间域随机存取。

② 高压缩率：提高编码效率;对多个并发数据流的编码。

③ 灵活多样的存取:错误易发环境中的抗错性；基于内容的尺度可变性。

(2) MPEG-4标准的构成

① 多媒体传送整体框架

多媒体传送整体框架(DMIF)主要解决交互网络中广播环境下以及磁盘应用中多媒体应用的操作问题。通过DMIF可以建立具有特殊服务质量的信道和面向每个基本流的带宽。

② 数据平面

MPEG-4中的数据平面可以分为两部分：传输关系部分和媒体关系部分。为了使基本流和音像对象在同一场景中出现,MPEG-4引用了对象描述和流图桌面的概念。对象描述传输与特殊音像对象相关的基本流的信息流图。流图桌面把每一个流与一个通道关联标记相连，该标记可实现该流的顺利传输。

③ 缓冲区管理和实时识别

MPEG-4定义了一个系统解码模式,该模式描述了一种理想地处理比特流句法语义的解码装置，它要求特殊的缓冲区和实时模式。通过有效的管理，可以更好地利用有限的缓冲区空间。

④ 音频编码

MPEG-4的优越之处在于它不仅支持自然声音编码，而且支持合成声音编码。MPEG-4的音频部分将音频的合成编码和自然声音的编码相结合，并支持音频的对象特征。

⑤ 视频编码

与音频编码类似,MPBG4也支持对自然和合成的视觉对象的编码。合成的视觉对象包括2D、3D动画和人面部表情动画等。

⑥ 场景描述

MPEG-4提供了一系列工具用于组成场景中的一组对象。一些必要的合成信息就组成了场景描述。

(3) MPEG-4标准的视频编码技术

MPEG-4除采用第一代视频编码的核心技术，如变换编码、运动估计与运动补偿、量化、嫡编码外，还提出了一些新的有创见性的关键技术，并在第一代视频编码技术基础上进行了卓有成效的完善和改进。

① 视频对象提取技术

MPEG4实现基于内容交互的首要任务就是把视频图像分割成不同对象或者把运动对象从背景中分离出来，然后针对不同对象采用相应编码方法以实现高效压缩。因此视频对象提取即视频对象分割，是MPEG-4视频编码的关键技术，也是新一代视频编码的研究热点和难点。视频对象分割涉及对视频内容的分析和理解，这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善，计算机还不具有观察、识别、理解图像的能力；同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此，尽管MPEG-4框架已经制定，但至今仍没有通用的有效方法去根本解决视频对象分割问题，视频对象分割被认为是一个具有挑战性的难题，基于语义的分割则更加困难。

目前进行视频对象分割的一般步骤是:先对原始视频图像数据进行简化以利于分割，这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频图像数据进行特征提取，可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征;再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类;最后是进行相关后处理，以实现滤除噪声及准确提取边界。在视频分割中基于数学形态理论的分水岭(watershed)算法被广泛使用，它又称水线算法，其基本过程是连续腐蚀二值图像，由图像简化、标记提取、决策、后处理4个阶段构成。分水岭算法具有运算简单、性能优良，能够较好地提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息，对噪声较敏感，且未利用帧间信息，通常会产生图像过度分割。

② VOP视频编码技术

视频对象平面(VideoObjectPlane,VOP)是视频对象(VO)在某一时刻的釆样，VOP是MPEG-4视频编码的核心概念。MPEG-4在编码过程中针对不同VO采用不同的编码策略，即对前景VO的压缩编码尽可能保留细节和平滑;对背景V。则采用高压缩率的编码策略，甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应，而且使用户可与场景交互，从而既提高了压缩比，又实现了基于内容的交互。

MPEG-4支持任意形状图像与视频的编解码。对于任意形状视频对象。对于极低比特率实时应用，如可视电话、会议电视,MPEG-4则采用VLBV核进行编码。

传统的矩形图在MPEG-4中被看作是VO的一种特例，这正体现了传统编码与基于内容编码在MPEG-4中的统一。V0概念的引入，更加符合人脑对视觉信息的处理方式，并使视频信号的处理方式从数字化进展到智能化，从而提高了视频信号的交互性和灵活性，使得更广泛的视频应用及更多的内容交互成为可能。

③ 视频编码可分级性技术

在IPTV业务中，需要在传输速率起伏较大的IP网络上进行视频传输。在此情形下，视频分级编码的重要性日益突出。视频编码的可分级性(scalability)是指码率的可调整性，即视频数据只压缩一次，却能以多个帧率、空间分辨率或视频质量进行解码，从而可支持多种类型用户的各种不同应用要求。

MPEG-4通过视频对象层(Video ObjectLayer,VOL)数据结构来实现分级编码。MPEG-4提供了两种基本分级工具，即时域分级(TemporalScalability)和空域分级(Spatial Scalability),此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL,低层称为基本层，高层称为增强层。基本层提供了视频序列的基本信息，增强层提供了视频序列更高的分辨率和细节。

在随后增补的视频流应用框架中，MPEG-4提岀了精细可伸缩性(FineGranularityScalable,FGS)视频编码算法以及渐进精细可伸缩性(Progressive Fine Granularity Scalable,PFGS)视频编码算法。FGS编码实现简单，可在编码速率、显示分辨率、内容、解码复杂度等方面提供灵活的自适应和可扩展性，且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。PFGS则是为改善FGS编码效率而提出的视频编码算法，其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿，以使运动补偿更加有效,从而提高编码效率。

④ 运动估计与运动补偿技术

MPEG-4釆用I-VOP,P-VOP,B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索技术和重叠运动补偿技术，同时又引入重复填充技术和修改的块(多边形)匹配技术以支持任意形状的VOP区域。

• 此外，为提高运动估计算法精度,MPEG-4采用了运动矢量场自适应搜索技术(Motion Vector Field Adaptive Search Technique,MVFAST)和改进的预测运动矢量场自适应搜索技术(Predictive MVFAST,PMVFAST)方法用于运动估计。对于全局运动估计，则采用了基于特征的快速顽健的全局运动估计(Feature-based Fastand Robust Global Motion Estimation Technique,FFRGMET)方法。

在MPEG-4视频编码中，运动估计相当耗时，对编码的实时性影响很大，因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类，前者复杂度很高，实际中应用较少，后者则在H.263和MPEG中广泛釆用。在块匹配法中，重点研究块匹配准则及搜索方法。目前有3种常用的匹配准则：

• 绝对误差和(SumofAbsoluteDifference,SAD)准则；

• 均方误差(MeanSquareError,MSE)准则；

• 归一化互相关函数(NormalizedCrossCorrelationFunction,NCCF)准则。

在上述3种准则中，SAD准则因具有不需乘法运算、实现简单方便的优点而使用最多，但应清楚匹配准则的选用对匹配结果影响不大。

在选取匹配准则后就应进行寻找最优匹配点的搜索工作。最简单、最可靠的方法是全搜索法(Full Search,FS),但计算量大，不便于实时实现。因此快速搜索法应运而生，主要有交叉搜索法、二维对数法和钻石搜索法，其中钻石搜索法被MPEG-4校验模型(Verification Model,VM)所釆纳。

钻石搜索(Diamond Search,DS)法以搜索模板形状而得名，具有简单、稳健、高效的特点，是现有性能最优的快速搜索算法之一。其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性。在搜索最优匹配点时，选择小的搜索模板可能会陷入局部最优，选择大的搜索模板则可能无法找到最优点。因此DS算法针对视频图像中运动矢量的基本规律,选用了两种形状大小的搜索模板。

• 大钻石搜索模板(LargeDiamondSearchPattern,LDSP),包含9个候选位置；

• 小钻石搜索模板(SmallDiamondSearchPattern,SDSP),包含5个候选位置。

钻石搜索算法搜索过程如下:开始阶段先重复使用大钻石搜索模板，直到最佳匹配块落在大钻石中心。由于LDSP步长较大，因而搜索范围广,可实现粗定位，使搜索不会陷于局部最小，当粗定位结束后，可认为最优点就在LDSP周围8个点所围菱形区域中。然后再使用小钻石搜索模板来实现最佳匹配块的准确定位，以不产生较大起伏，从而提高运动估计精度。

此外Sprite视频编码技术也在MPEG-4中应用广泛，作为其核心技术之一。Sprite又称镶嵌图或背景全景图，是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像。利用Sprite可以直接重构该视频对象或对其进行预测补偿编码。Sprite视频编码可视为一种更为先进的运动估计和补偿技术，它能够克服基于固定分块的传统运动估计和补偿技术的不足,MPEG-4正是釆用了将传统分块编码技术与Sprite编码技术相结合的策略。

(4) MPEG-4在交互电视中的应用

利用MPEG-4的交互性和支持多个并发数据流编码的特点，十分有利于交互电视的应用。例如：在同时转播几场足球比赛时，观众可在家里任意选择观看自己喜爱的比赛，他们甚至能以不同的分辨率同时选择观看3~4场比赛，还可享受附加的自动切换功能，以免漏掉所有比赛中的进球场面。这类应用还利用了MPEG-4所支持的复杂度可伸缩特性，即允许终端用户解码每个流时只利用接收端解码能力的一部分。当然，前提条件是节目本身可以按照不同的分辨率解码和显示。另外，用户还可被允许进行以下操作：改变场景的视、听点，例如在场景中漫游；把场景中的对象拖到不同的位置上；点击特定对象以触发一系列事件，如开始或终止视频流；多语言音轨时选择想要的语言等。