JVT(Joint Video Team,视频联合工作组)于 2001 年 12 月在泰国 Pattaya 成立。它由 ITU-T和 ISO 两个国际标准化组织的有关视频编码的专家联合组成。JVT 的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。目前 JVT 的工作已被 ITU-T 接纳,新的视频压缩编码标准称为 H.264 标准,该标准也被 ISO 接纳,称为 AVC(Advanced Video Coding)标准,是 MPEG-4 的第 10 部分。
H.264 标准可分为三档:
基本档次(其简单版本,应用面广);
主要档次(采用了多项提高图像质量和增加压缩比的技术措施,可用于 SDTV、HDTV 和 DVD 等);
扩展档次(可用于各种网络的视频流传输)。
H.264 不仅比 H.263 和 MPEG-4 节约了 50%的码率,而且对网络传输具有更好的支持功能。它引入了面向 IP 包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输。H.264 具有较强的抗误码特性,可适应丢包率高、干扰严重的无线信道中的视频传输。H.264 支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。H.264 能适应于不同网络中的视频传输,网络亲和性好。
一、H.264 视频压缩系统
H.264 标准压缩系统由视频编码层(VCL)和网络提取层(Network Abstraction Layer,NAL)两部分组成。VCL 中包括 VCL 编码器与 VCL 解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。NAL 则用于为 VCL 提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。VCL 可以传输按当前的网络情况调整的编码参数。
二、H.264 的特点
H.264 和 H.261、H.263 一样,也是采用 DCT 变换编码加 DPCM 的差分编码,即混合编码结构。同时,H.264 在混合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。H.264 没有繁琐的选项,而是力求简洁的“回归基本”,它具有比 H.263++更好的压缩性能,又具有适应多种信道的能力。H.264 的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具有较好的抗误码和抗丢包的处理能力。H.264 的基本系统无需使用版权,具有开放的性质,能很好地适应 IP 和无线网络的使用,这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。尽管 H.264 编码基本结构与 H.261、H.263 是类似的,但它在很多环节做了改进,现列举如下。
1.多种更好的运动估计
高精度估计在 H.263 中采用了半像素估计,在 H.264 中则进一步采用 1/4 像素甚至 1/8 像素的运动估计。即真正的运动矢量的位移可能是以 1/4 甚至 1/8 像素为基本单位的。显然,运动矢量位移的精度越高,则帧间剩余误差越小,传输码率越低,即压缩比越高。
在 H.264 中采用了 6 阶 FIR 滤波器的内插获得 1/2 像素位置的值。当 1/2 像素值获得后, 1/4 像素值可通过线性内插获得,对于 4:1:1 的视频格式,亮度信号的 1/4 像素精度对应于色度部分的 1/8 像素的运动矢量,因此需要对色度信号进行 1/8 像素的内插运算。理论上,如果将运动补偿的精度增加一倍(例如从整像素精度提高到 1/2 像素精度),可有0.5bit/Sample 的编码增益,但实际验证发现在运动矢量精度超过 1/8 像素后,系统基本上就没有明显增益了,因此,在 H.264 中,只采用了 1/4 像素精度的运动矢量模式,而不是采用 1/8 像素的精度。
多宏块划分模式估计。在 H.264 的预测模式中,一个宏块(MB)可划分成 7 种不同模式的尺寸,这种多模式的灵活、细微的宏块划分,更切合图像中的实际运动物体的形状,于是,在每个宏块中可包含有 1、2、4、8 或 16 个运动矢量。
多参数帧估计。在 H.264 中,可采用多个参数帧的运动估计,即在编码器的缓存中存有多个刚刚编码好的参数帧,编码器从其中选择一个给出更好的编码效果的作为参数帧,并指出是哪个帧被用于预测,这样就可获得比只用上一个刚编码好的帧作为预测帧的更好的编码效果。
2.小尺寸 4*4 的整数变换
视频压缩编码中以往的常用单位为 8*8 块。在 H.264 中却采用小尺寸的 4*4 块,由于变换块的尺寸变小了,运动物体的划分就更为精确。这种情况下,图像变换过程中的计算量小了,而且在运动物体边缘的衔接误差也大为减少。
当图像中有较大面积的平滑区域时,为了不产生因小尺寸变换带来的块间灰度差异,H.264 可对帧内宏块亮度数据的 16 个 4*4 块的 DCT 系数进行第二次 4*4 块的变换,对色度数据的 4 个 4*4 块的 DC 系数(每个小块一个,共 4 个 DC 系数)进行 2?2 块的变换。H.263 不仅使图像变换块尺寸变小,而且这个变换是整数操作,而不是实数运算,即编码器和解码器的变换和反变换的精度相同,没有“反变换误差”。
3.更精确的帧内预测
在 H.264 中,每个 4?4 块中的每个像素都可用 17 个最接近先前已编码的像素的不同加权和来进行帧内预测。
4.统一的 VLC
H.264 中关于熵编码有两种方法。
统一的 VLC(即 UVLC:Universal VLC)。UVLC 使用一个相同的码表进行编码,而解码器很容易识别码字的前缀,UVLC 在发生比特错误时能快速获得重同步。内容自适应二进制算术编码(CABAC:Context Adaptive Binary Arithmetic Coding)。其编码性能比 UVLC 稍好,但复杂度较高。
三、性能优势
H.264 与 MPEG-4、H.263++编码性能对比采用了以下 6 个测试速率:32kbit/s、10F/s 和 QCIF;64kbit/s、15F/s 和 QCIF;128kbit/s、15F/s 和 CIF;256kbit/s、15F/s 和 QCIF;512kbit/s、30F/s和 CIF;1024kbit/s、30F/s 和 CIF。测试结果标明,H.264 具有比 MPEG 和 H.263++更优秀的 PSNR性能。H.264 的 PSNR 比 MPEG-4 平均要高 2dB,比 H.263++平均要高 3dB。
四、新的快速运动估值算法
新的快速运动估值算法 UMHexagonS(中国专利)是一种运算量相对于 H.264 中原有的快速全搜索算法可节约 90%以上的新算法,全名叫“非对称十字型多层次六边形格点搜索算法”(Unsymmetrical-Cross Muti-Hexagon Search)”,这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时,在保持较好率失真性能的条件下,运算量十分低,已被 H.264 标准正式采纳。ITU 和 ISO 合作发展的 H.264(MPEG-4 Part 10)有可能被广播、通信和存储媒体(CD DVD)接受成为统一的标准,最有可能成为宽带交互新媒体的标准。我国的信源编码标准尚未制定,密切关注H.264 的发展,制定我国的信源编码标准的工作正在加紧进行。H264 标准使运动图像压缩技术上升到了一个更高的阶段,在较低带宽上提供高质量的图像传输是H.264 的应用亮点。H.264 的推广应用对视频终端、网守、网关、MCU 等系统的要求较高,将有力地推动视频会议软、硬件设备在各个方面的不断完善。