媒体信息编码——图像信息编码

发布时间: 2022-06-07 15:03:28

普通电视系统在传输文字、图片、动画等信息前，必须将它们先以确定的电视制式转换成电视信号格式，这就大大限制了这些信息的显示分辨率，降低了上述信息的编码效率，同时降低了其信号质量，限制了这些信息显示呈现方式的灵活性。

IPTV系统与模拟电视和数字电视系统的最大区别之一就在于，它是以文字、图片、动画等信息最为有效的编码方式来工作的，同时解决了上述信息的信号质量下降问题。

一. 图像信息冗余

虽然表示图像需要大量的数据,但图像数据是高度相关的。一幅图像内部以及视频序列中相邻图像之间有大量的冗余信息。对于一幅二维图像，可以注意到图像中的许多部分的灰度或颜色差别并不是太大，某些区域是均匀着色或高度相关的。这被称为空间相关或空间冗余。对于没有场景切换或镜头快速推拉摇移的视频序列，画面中的背景一般并无变化，只有移动的物体产生画面的差异，因而各帧图像间的差别极小，即视频序列中的图像是高度相关的。这被称为时间相关或时间冗余。静止图像压缩的一个目标是在保持重建图像的质量可以被接受的同时，尽量去除空间冗余信息。对于活动视频压缩，在去掉空间冗余的同时去除时间冗余，可以达到较高的压缩比。

除空间冗余和时间冗余外，在一般的图像数据中，还存在着其他各种冗余信息，主要表现为以下几种形式：

信息嫡冗余：也称为编码冗余。由信息论的有关原理可知，为表示图像数据的一个像素点，只要按其信息嫡的大小分配相应比特数即可。然而对于实际图像数据的每个像素，很难得到它的信息嫡，因此在数字化一幅图像时，对每个像素是用相同的比特数表示，这样必然存在冗余。

结构冗余:在有些图像的部分区域内存在着非常强的纹理结构，或是图像的各个部分之间存在有某种关系，如自相似性等，这些都是结构冗余的表现。

知识冗余：有些图像中包含的信息与某些先验的基础知识有关，例如在一般的人脸图像中，头、眼、鼻和嘴的相互位置等信息就是一些常识。这种冗余称为知识冗余。

视觉冗余：在多数情况下，重建图像的最终接收者是人的眼睛，为了达到较高的压缩比，可以利用人类视觉系统的特点得到高压缩比。人类的视觉系统对于图像的注意是非均匀和非线性的，特别是人类的视觉系统并不是对于图像中的任何变化都能感知。例如，图像系数的量化误差引起的图像变化在一定范围内是不能被人眼察觉的。

二. 图像教据压缩

消除图像数据空间相关性的一种有效方法是进行信号变换。变换编码通常是将空间域相关的像素点通过正交变换映射到另一个域上，使变换后系数之间的相关性降低。在变换后的域上应满足：所有的系数相互独立；能量集中于少数几个系数上；这些系数集中于一个最小的区域内。尽管图像变换本身并不带来数据压缩，但由于变换后系数之间相关性明显降低，图像的大部分能量只集中到少数几个变换系数上，釆用适当的量化和嫡编码可以有效地压缩图像的数据量。而且图像经某些变换后，系数的空间分布和频率特性有可能与人眼的视觉特性匹配，因此可以利用人类视觉系统的生理和心理特点来得到较好的编码系统。
图像数据压缩

K-L变换是在以上思路下构造出来的最佳线性变换方案。它是用数据本身的相关矩阵对角化后构成的。这种变换将产生完全不相关的变换系数。&L变换虽然是均方误差准则下的最佳变换，但在实际编码工作中,人们更常采用离散余弦变换(DiscreteCosineTransform,DCT)变换。DCT变换是在现行变换编码方法中，对大多数图像信源来说,最接近K-L变换的方法。

对变换后图像系数的编码一般釆用门限编码加区域编码的形式。以DCT为例，根据变换系数的能量分布，可以将图像划分为不同的区域。其中变换后幅值较大的图像系数大多集中于图像块的左上角。与其他系数相比，这些低频系数具有的能量最大，包括了图像的大部分内容，在变换图像中的地位最重要,应使它们的量化误差最小。同样，对于图像块的其他区域，也应釆用与该区域相配的量化和编码形式。这种按能量分布对不同区域釆用不同量化编码的技术就称为区域编码。另外,变换图像中有许多系数的幅度很小，只具有原图像中很小比例的能量,对图像质量影响甚微，因此一般釆用设定阈值的方法，置小于阈值的变换系数为零，从而大大提高编码效率。经门限和区域编码后，变换图像的大部分系数为零，如何采用有效的方法将非零系数和零系数组织起来，在带来最少冗余的同时保证最大的连零系数出现概率，是变换图像编码中的又一关键问题。在DCT图像编码方法中，对变换系数进行“Z”字形(Zig-Zag)排序非常巧妙地解决了这一问题，但对有些图像变换方法,这种技术并非最佳。

在一般图像中，对应边缘轮廓的位置附近含有大量高频信息，它们相对于原图像是非常局部的，代表了图像数据的精细结构。按人眼的视觉特性，这些边缘轮廓信息对于图像的主观质量很重要，在编码时应给予特别考虑。然而由于传统的正交变换时频局域性很差，变换后的系数失去了对原图像精细结构的描述，从变换图像得不到图像边缘轮廓等局部信息，因此在量化编码时无法釆用特殊的方法。而且在传统的变换图像编码方法中，大多是靠丢弃高频系数来提高压缩比的，从而导致图像的边缘轮廓模糊，严重影响复原图像的主观质量，这是传统变换编码方法的缺点之一。传统变换编码方法的另一缺点是提高编码压缩比时会出现块效应。这是因为为降低变换算法的运算复杂度和提高编码效率，传统图像变换均采用了分块变换技术。图像块大，相关性就高，压缩比也就大。但是块的尺寸太大又会丢失数据的平稳性，从而引入误差，包括失去高频细节、引入沿物体边界的噪声和可见的DCT图块边界。实验证明，块大小为8X8或16X16是较好的选择。

要实现一个实用的变换编码系统，需要4个步骤：第一步是选择变换类型，DCT变换是得到最广泛应用的一种类型；第二步是选择方块的大小，较好的方块尺寸是8X8或16X16；第三步是选择变换系数，并对其进行高效的量化，以便传输或存储；第四步是对量化系数进行比特分配，通常使用霍夫曼编码或游程编码。

三. JPEG标准

JPEG是ISO和ITU-T联合开发的静止图像压缩标准。在没有明显可见失真的图像质量下，压缩图像比特数是未压缩比特数的1/50〜1/10。JPEG是第一个针对多电平连续色调（灰度和彩色）静止图像的数字压缩标准。

JPEG压缩算法采用了前面讨论的DCT技术。图2-3描述了基于DCT的单分量JPEG图像编解码器的主要处理步骤。

图2：3基于DCT运算的JPEG编解码器

由于是对称处理，所以编码器和解码器具有相同的复杂度。对于许多应用JPEG是一个重要的压缩标准，目前已经有大量JPEG芯片应用于数码相机、数字视频摄像机、传真机、复印机和扫描仪等。

JPEG标准的计算复杂度属于中等程度，即允许在各种性能的计算机上软件实现相当好的图像质量，也可用价格低廉的硬件实现。JPEG支持下面4种操作模式。

• 连续编码：图像按单一的从左到右、从上到下扫描方式进行编码。

• 渐进编码：图像按多重扫描方式进行编码，用于传输带宽低并且允许传输时间长的应用（观看者可看到图像由粗到细的重建过程）。

• 无失真编码：图像按此模式编码可保证精确地恢复出原图像每个样值。

• 分层编码：图像按多种分辨率编码，以便低分辨率的显示在没有解压全分辨率图像的情况下也可获得。

对每种模式JPEG标准都说明了一种或两种编解码器。JPEG的目标是定义一个通用、灵活和广泛的编码方法，以便覆盖多电平连续色调图像的应用。

JPEG编码中涉及的内容主要包括：

(1) 彩色空间转换

在图像处理中，为了利用人的视觉特性降低数据量，通常把RGB表示的彩色图像变换到其他色彩空间。现在采用的色彩空间变换主要有3种：YIQ、YUV和YCrCb。每一种色彩空间都产生一个亮度分量信号和两个色差分量信号，而每一种变换使用的参数都是为了适应某种类型的显示设备。利用人眼对彩色信息空间分辨率低于亮度信息空间分辨率这一特点，将两个色差分量的采样率在水平和垂直方向降低一半，从而将总体数据压缩了一半。

对计算机而言，其数字域的色彩空间变换与电视模拟域的色彩空间变换不同，它们的分量使用Y、Cr和Cb来表示，与RGB空间的转换关系如下：

对原始图片先进行色彩空间的处理,使采集到的图像数据有所减少。实际上,JPEG算法与色彩空间无关，色彩空间涉及图像采样的问题,它和数据的压缩并无直接的关系。因此“RGB到YUV变换”和“YUV到RGB变换”不包含在JPEG算法中。JPEG算法处理的彩色图像是单独的彩色分量图像，因此它可以压缩来自不同色彩空间的数据，如RGB、YCrCb和CMYK。

(2) 色彩深度

图像是由很多像素点来组成的，存储每个像素点所用的位数叫做像素深度。一幅彩色图像的每个像素用R、G、B三个分量表示，若每个分量用8位，则一个像素共用3X8=24位表示，即像素的深度为24bit,每个像素可以是2M=16777216种颜色中的一种。像素的位数越多，它能表达的颜色数目就越多。总之，组成一幅图的像素越多，则图像文件越大;像素深度越深，图像文件也就越大。

(3) 离散余弦变换(DCT)

DCT变换的公式为

f(i,j)经DCT变换之后,F(0,0)是直流系数，其他为交流系数。

DCT将原始图像信息块转换成代表不同频率分量的系数集，这带来两个特点：其一，信号常将其能量的大部分集中于频率域的一个小范围内，这样一来，描述不重要的分量只需要很少的比特数;其二，频率域分解映射了人类视觉系统的处理过程，并允许后继的量化过程满足其灵敏度的要求。

当u,v=0时,DCT正变换后的系数F(0,0)称为直流(DC)系数；当尹0时，正变换后的系数F(“,°)为交流(AC)系数。DCT后的64个DCT频率系数与DCT前的64个像素块相对应,DCT过程的前后都是64个点，说明这个过程只是一个没有压缩作用的无损变换过程。

经过对大量自然图像的统计发现，单独一幅图像的全部DCT系数块的频谱几乎都集中在最左上角的系数块中。DCT输出的频率系数矩阵最左上角的直流系数幅度最大；以DC系数为出发点向下、向右的其他DCT系数，离DC分量越远，频率越高，幅度值越小，即图像信息的大部分集中于直流系数及其附近的低频频谱上，离DC系数越来越远的高频频谱几乎不含图像信息。

(4) 量化

变换编码中对变换域系数的量化是造成图像质量下降的主要原因，量化器设计的好坏将直接影响图像质量。变换编码中图像质量下降的主要表现形式是方块效应，也即在图像分块的边缘产生较易为人眼所察觉的误差。

量化过程实际上就是对DCT系数的一个优化过程。它是利用了人眼对高频部分不敏感的特性来实现数据的大幅压缩。量化过程实际上是把频率域上每个成分，除以一个相对于该成分的常数，且四舍五入取最接近的整数，这是整个压缩编码过程中的主要有损运算。为达此目标，经常会把很多高频成分四舍五入而接近0,且剩下很多会变成小的正或负数。整个量化的目的是减小非“0”系数的幅度以及增加“0”值系数的数目。

因为人眼对亮度信号比对色度信号更敏感，因此使用了两种量化表：亮度量化表和色度量化表。总体上来说,DCT变换实际是空间域的低通滤波器。对丫分量采用细量化，对U、V釆用粗量化。量化表是控制JPEG压缩比的关键，这个步骤除掉了一些高频量；另一个重要原因是所有图片的点与点之间会有一个色彩过渡的过程，大量的图像信息被包含在低频率中，经过量化处理后，在高频率段出现大量连续的零。

(5) “Z”字形编排

量化后的数据有一个很大的特点，就是直流分量相对于交流分量来说要大，而且交流分量中含有大量的0。这样对量化后的数据进行“Z”字形编排(如图2-4所示)，就会连续出现多个0,这样有利于使用简单而直观的行程编码(RunLengthCoding,RLE)对它们进行编码。

8X8图像块经过DCT变换之后得到的直流系数有两个特点，一是系数的数值比较大，二是相邻8X8图像块的直流系数值变化不大。.根据这个特点，

JPEG算法使用了DPCM技术，对相邻图像块之间量化直流系数的差值进行编码。即充分利用相邻两图像块的特性，来再次压缩数据。

对于其他63个元素采用“Z”字形(Zig-Zag)行程编码，以增加行程中连续0的个数。

(6) 行程编码

行程编码又称游程编码，是一种无损压缩编码。由于图像中各像素之间一般都存在相关性，特别是由计算机生成的图像和大部分二值图像，它们往往在某些区域具有相同的像素值。游程编码的主要方法就是在某个特定方向上将图像样本值相同的若干像素用一个游程长度和一个样本值来表示。如沿水平扫描线上的一串m个像素具有相同的灰度值兀，则只要传输(72,m)即可。游程编码对误码较为敏感，为防止误码扩散，应采用行、列同步的方法将差错控制在一行、一列之内。

对经“Z”字形编排的变换系数，即可以用行程编码来对其进行大幅度的数据压缩。

(7) 霍夫曼编码

霍夫曼编码是根据可变长度最佳编码定理，应用霍夫曼算法而得到的一种编码方法。变字长编码的最佳编码定理指出：在变字长编码中，对于出现概率大的信息符号编以短字长的码，对于概率小的符号编以长字长的码。如果码字长度严格按所对应符号出现概率大小逆顺序排列，则平均码字长度一定小于其他任何符号顺序排列方式。可以证明，在给定符号集和概率模型时，没有任何其他整数码比霍夫曼码有更短的平均码长，也即它是一种最优码。其编码算法如下：

① 将符号按出现的概率排序，概率大的在前，概率小的在后。给最后的两个符号各赋予一个二进制码，概率大的赋0,概率小的赋1(反之也可以)。

② 把最后两个符号的概率加起来合成一个概率,再按大小重新排序。重新排序后重复步骤①的编码过程。

③ 重复步骤②，直到最后只剩下两个概率为止。

④ 将每个符号所对应的各分支赋的0、1值反向逆序排出，即得到各符号的编码。

虽然霍夫曼码是变长的，码流中又没有分隔码字的标识符，但由于它的无歧义性，完全能够正确地恢复原信源所输出的符号序列来。

需要注意的是，由于霍夫曼构码过程的最基本依据是信源的离散概率，如果信源的实际概率模型与构码时所假设的概率模型有差异，实际的码长将大于预期值，编码效率将下降。

在变换编码中，直流系数经过DPCM编码,交流系数经过RLE编码后，得到的数据还可进一步压缩,即使用霍夫曼编码来处理。需要注意的是，在JPEG文件中一般有两个霍夫曼码表，一个用于DC,一个用于AC。对DC编码的部分是单独来处理的，并且放在每块数据串的最前面。

四.JPEG文件格式

经JPEG算法压缩后保存的图像文件后缀为jpg,它是一种JFIF格式标准的文件，里面的图像的压缩方式是JPEG。JFIF是一个文件格式标准,JPEG是一个压缩标准oJFIF是JPEGFileInterchangeFormat的缩写，也即JPEG文件交换格式。JFIF是一个图片文件格式标准，它是一种使用JPEG图像压缩技术存储图像的方法。JFIF文件格式定义了一些内容是JPEG压缩标准未定义的，如分辨率、宽高比以及色域空间等。

JPEG文件中的字节是按照正序排列的，即高字节存放在前低字节在后。JPEG的每个标记都是由两个字节组成，其前一个字节是固定值OxFF。每个标记之前还可以添加数目不限的OxFF填充字节。表2-1所列是其中的8个标记。

表2-1 JPEG文件中的标记信息

媒体信息编码——图像信息编码

一. 图像信息冗余

二. 图像教据压缩

三. JPEG标准

四.JPEG文件格式

相关内容:

申请演示