摘要:本文首先介绍ITU对立体电视代次的划分、立体电视系统兼容级别以及信号格式的考虑,从中我们可以看出ITU对立体电视发展线路的判断。简要介绍了第1代立体电视系统,包括其中的立体视频采集与生成、节目制作、编码与传输、立体显示等主要环节。最后介绍了相关标准化组织在立体电视方面的工作进展。
近年,阿凡达等3D电影的成功上映掀起了新一轮3D电影热潮。DreamWorks、Walt Disney、Universal Pictures等公司计划在今后若干年内拍摄上映一系列3D电影。与此同时,在数字存储媒体领域,蓝光光盘协会(Blu-ray Disc Association)于09年底发布了3D Blu-ray Disc规范,Sony公司在2010年初发布了第一款3D Blu-ray Disc播放机。可以预见,3D家庭影院将很快进入家庭。在广播电视领域,国外相关电视运营商近年也开展了立体电视(3DTV)的实验、测试及试播。虽然立体电视进入家庭还存在着一些问题,例如视觉疲劳以及佩戴眼镜所带来的不便利性等,但相关运营商,尤其是有线付费电视运营商,还是表现出了极大的热情。ESPN实况3D转播了2010年世界杯,BSkyB有意在2010年内在英国开通3DTV频道。从3D电影到3D家庭影院,再发展到3D电视,这将是一个必然的过程。
本文第1部分简单介绍了双目立体视觉机制,立体电视系统的功能就是为人们重现所拍摄场景的双目立体感。第2部分介绍ITU对立体电视发展线路的判断,包括立体电视代次的划分、系统兼容级别以及信号格式的考虑等。第3部分介绍第1代立体电视系统的主要环节。第4部分介绍相关标准组织在立体电视方面的工作进展。
人类双目立体视觉机制可简单描述如下。人类通过双眼观察物体,左眼看到物体稍偏左侧的影像,右眼看到物体稍偏右侧的影像,物体影像成像于左右眼视网膜,经视神经传达到大脑的视觉反应区,在这里大脑将两个影像整合成单个立体影像,即具有深度信息的物体影像。人类通过双眼观看而获得场景深度感觉的过程称为Stereopsis。
人类获得所观察场景的深度信息可借助多种线索实现。例如,即使只用单眼观看,我们也可以通过物体的相对大小、物体遮挡等线索获得场景的部分深度信息。双眼观看相对于单眼观看可以进一步获得场景的视差等信息,从而得到完整的深度信息。视差是指左右眼分别观看物体时物体所处空间位置的差异。视差越大说明物体离观察者越近。
传统的平面电视只显示了一路画面,此时左右眼看到的是同一幅画面,深度信息是通过物体的相对大小、物体遮挡等线索推断得到。立体电视显示了视角稍有不同的两路画面,分别用于左右眼的观看,因此提供了场景的视差信息,观看者可以获得物体跃然于显示屏外的立体感觉。
立体电视系统需要传输具有视差效果的立体视频信号。立体电视信号格式对接收终端、显示设备以及运营业务形式都会产生直接影响。图1是ITU-R对立体电视信号格式的划分,从中反映出了ITU-R对立体电视发展线路的判断。
2.1立体电视代次划分
立体电视系统会从佩戴眼镜观看一个视角的立体视频,发展到允许头部移动观看多个视角的立体视频,并最终演进为自然立体视频,即与我们日常视觉成像无异。根据立体电视系统所传输的视觉信息量的多少,观看者是否需要配戴眼镜等方面因素,ITU-R将立体电视系统分为三代,如图1横轴所示。
第1代立体电视系统传输两路画面,分别用于左右眼的观看,所传输的视觉信息中只包含有一种视差效果。第1代系统基于stereoscopic显示技术,主要包括偏振光立体显示方式以及主动快门式显示方式。观看者需要配戴相应的眼镜,眼镜将显示设备显示的左右眼画面分离出来分别送入左右眼。
第2代立体电视系统传输多个视角的多路画面,因此提供了多种视差效果。第2代系统基于autostereoscopic显示技术。该类显示技术通过视差屏障(parallex barrier)、透镜(lenticular lens)等机制将左右眼的画面分别传送到观看者的左右眼,无需观看者佩戴眼镜。由于第2代系统传输了多路画面,观看者变化观看角度时可以查看到物体后面的景象。
第3代立体电视系统是全息影像系统。第3代系统基于object-wave recording (holography)等全息成像技术,目标是模拟实际场景的光场,因此观看者可以任意选择观看位置,并无需佩戴眼镜。相比前两代系统,全息系统提供了更贴近自然的观看方式。第3代系统还需要很长的时间去发展和完善。
2.2立体电视系统兼容级别
图1纵轴表明了ITU-R对立体电视系统兼容级别的考虑,即在多大程度上基于现有设备可以开展立体电视业务。
兼容级别Level 1不需要观看者购买新的终端、显示等设备,只需添加一幅眼镜。由于此级别立体电视系统兼容现有高清显示设备,ITU-R将此级别称为HD Conventional Display Compatible(CDC)。兼容级别Level 2需要观看者购买新的显示设备,但不需要更换机顶盒等终端设备。传统机顶盒可以解码该级别立体电视信号意味着该级别立体电视信号的视频帧结构与传统2D电视视频帧结构兼容,因此ITU-R称此级别为Conventional HD Frame Compatible(CFC)。
兼容级别Level 3和Level 4需要观看者购买新的终端以及新的显示设备。级别Level 3是Level 2的扩展,并兼容Level 2信号,因此ITU-R称此级别为Frame-Compatible Compatible(FCC)。级别Level 4兼容传统2D电视业务,因此ITU-R称该级别为Conventional HD Service Compatible(CSC)。
2.3立体电视信号格式
ITU-R给出了各级别立体电视系统信号格式的定义,如图1所示。本节对这些信号格式进行介绍。
第1代Level 1级别立体电视信号是通过将左右眼两路画面进行基于互补色的滤光,并将滤光后的两路画面迭加为一路画面而形成的。在2D电视系统中,该级别信号可视为一路2D电视信号进行编码传输,因此采用传统机顶盒即可进行解码。该级别信号在传统显示设备上即可进行显示,观看者通过配戴互补色眼镜将左右眼画面分离出来,获得双目立体感。基于互补色滤光的立体图像质量不能得到保证,目前已较少采用。
第1代Level 2级别立体电视信号是通过将左右眼两路画面进行下采样,之后合并为一路画面而形成的。主要合并方法包括,Side by Side(SbS)、Over and Under(OaU)、line/column interleave、checkerboard、Quincunx等。该级别信号可视为一路2D电视信号进行编码传输,但需要指明所采用的画面合并方法。传统机顶盒可对该级别信号进行解码,但需要新的显示设备将一路画面拆分为用于左右眼观看的两路画面并进行显示。由于两路画面进行了下采样,该级别立体电视相比全画幅高清晰度电视损失了频谱信息。
第1代Level 3级别立体电视信号是在第1代Level 2信号的基础上迭加增强信号而形成。增强信号用于补全由于画面下采样所损失的频谱信息。该级别信号需采用新的机顶盒及显示设备进行解码显示,但该级别信号兼容第1代Level 2信号。H.264 Scalable Video Coding标准可作为该级别信号的信源编码方案。
第1代Level 4级别立体电视信号是用于左右眼观看的具有视差效果的两路完整画面。该级别信号需采用新的机顶盒及显示设备进行解码显示,但兼容传统2D电视信号。传统机顶盒可以解码该级别信号的部分码流,获得两路画面中的一路。因此,该级别立体电视信号兼容传统2D电视业务。H.264 Multiview Video Coding标准可作为该级别信号的信源编码方案。
第2代Level 4级别立体电视信号是多个视角的多路画面并附加相应的深度信息。该级别信号需采用新的机顶盒及显示设备进行解码显示。该类显示设备是多视点autostereoscopic显示设备。目前,MPEG正在着手制定该级别信号的信源编码标准。
立体电视完全替代2D高清晰度电视不会在近年发生。对于立体电视业务的开展,ITU-R预测有线付费电视运营商与无线广播电视运营商会有不同的商业模式,因此所倾向的系统方案会有不同。目前,有线付费电视运营商预计将倾向于第1代Level 2级别系统,而无线广播电视运营商将会倾向于第1代Level 4级别系统。
有线付费电视运营商采用第1代Level 2级别系统,只需要利用新的传输带宽增设新的频道,可以不改变网络架构以及更换现有机顶盒。立体电视业务的开展不影响原有2D电视业务,并可以在未来升级到第1代Level 3级别系统,提高立体电视的图像质量。
无线广播电视运营商只有有限的空中频率资源,通常2D电视业务已经占用已有频率,因此寻找新的频率采用第1代Level 2级别系统开展立体电视业务有困难。无线广播电视运营商可以采用第1代Level 4级别系统,开展兼容2D电视业务的立体电视业务。传统2D电视用户可以在第1代Level 4级别系统中收看一路2D画面,立体电视用户需要购买新的终端及显示设备。
以下对第1代立体电视系统的主要环节进行介绍,包括立体视频采集与生成、节目制作、编码与传输、立体显示等。
3.1 立体视频采集与生成
立体视频通常采用两台单镜头摄像机或一台双镜头摄像机进行采集。人双眼瞳距大约6.5厘米,因此为获得符合人眼观看习惯的立体视频,两台摄像机镜头轴线的最佳距离也应为6.5厘米。但专业摄像机的镜头通常较大,此时可采用交叉支架将两台摄像机垂直放置,并在镜头前端放置半反射镜把光线分别反射、透射给两台摄像机。目前,国内外都有多种3D支架可供选择。3D支架分为机械型、电动伺服型以及自动跟踪型,可满足不同的拍摄需要。Sony公司推出了一款专为立体视频拍摄而设计的摄像机HDC-P1。HDC-P1拥有小型机身,便于在各类支架上安装设置。调整摄像机间距可获得不同的立体效果。例如,拍摄远距离景物时为加强立体效果可加大间距,需要减弱立体感时则缩小间距。某些时候,还可附加深度探测器辅助拍摄。深度探测器采用激光或红外光线进行探测,试图给出拍摄场景的深度信息。但由于精度、反射、物体透明性等方面的因素,获取的深度信息通常存在误差。此外,还可采用摄像机阵列采集多个角度的立体视频。
立体视频生成的方式主要有两类:一类是采用计算机生成,根据计算机图形学原理,通过对物体、场景进行三维建模,计算机可根据需要渲染出一个或多个角度的立体视频;另一类生成方式是2D视频到立体视频的转换,转换的大致过程是将图像中的物体进行分割,为每个物体设置深度信息,并对转换后的空白区域进行填充,其中深度信息可以利用2D视频进行估计。目前,高精度自动2D视频到立体视频转换还有技术难点,还需进一步研究。
3.2 节目制作
节目制作涉及到立体视频的剪辑、校正、特效添加等环节。由于最终要呈现出立体的效果,各环节的操作相对传统2D视频都有不同。在剪辑环节,某些情况下立体视频剪辑后需要进行左右画面位置的对齐。画面对齐可以借助拍摄时的同步信号以及伴音等信息来实现。在校正环节,立体视频拍摄时由于摄像机配置等原因通常会有拍摄误差,误差大于一定程度将会带来立体效果丢失或视觉疲劳,因此在视频处理阶段需要对这些误差进行校正。这些校正包括色彩校正、梯形校正、旋转校正等。在字幕等字符和图形的加入环节,需要采用负视差加入字符和图形,即将字幕浮动到屏幕的最前方。立体画面的切换要考虑到视觉感受。传统2D视频可以通过镜头快速切换达到视觉冲击的效果,但在立体视频中这会带来人眼的频繁调焦,从而产生视觉疲劳。因此在节目制作中,立体画面的转换和过渡要柔和。总之,立体电视节目的制作要保证高视频质量,从而将视觉疲劳程度降到最低。
3.3 编码与传输
视频编码的作用在于去除视频数据的各类冗余以便于传输和存储。采用不同信号格式的立体电视系统需采用不同的信源编码方案。对于第2节所述的第1代Level 1和Level 2级别立体电视系统,其视频信号可看作一路传统2D电视信号,因此可采用MPEG-2或H.264/AVC标准进行编码。第1代Level 3级别立体电视信号是在第1代Level 2信号的基础上迭加增强信号而形成。如果把增强信号看作分辨率增强层,则与可伸缩视频编码的概念吻合,所以可采用H.264 SVC标准进行编码。编码第1代Level 4级别立体电视信号可采用MPEG-2 Multiview Profile或H.264 MVC标准。编码的基本思路是,对左视(或右视)画面进行传统编码,而右视(或左视)画面可以进行视间预测提高编码效率。编码立体电视信号的指导原则是编码后的数据适合各类信道传输,这包括满足码率、容错性能、时延等方面的要求。
立体电视节目可以在DVB等网络架构下以广播的形式传输,也可以在IP网络下以流媒体的形式传输。为人所熟知的数字电视广播系统包括,DVB-C/S/T,ATSC,ISDB-C/S/T,地面国标等。立体电视节目经编码复用后可以在以上系统中广播播出,在实际应用中需要注意特定传输信道对码率的要求。互联网的快速发展推动了VoIP、IPTV等应用的产生。立体电视节目也可以在IP网络中以单播、组播、P2P等形式传输。目前在IP网络环境下所采用的传输协议主要是RTP/UDP/IP,将来会过渡到RTP/DCCP/IP,后者会提供更好的网络拥塞控制机制。关于立体电视传输技术的进一步信息可参考文献。
3.4 立体显示
目前,进入可用阶段的立体显示技术主要分为两类,分别为stereoscopic显示技术以及autostereoscopic显示技术。Stereoscopic显示技术需要观看者佩戴眼镜,主要包括偏振光和主动快门式显示方式。Autostereoscopic显示技术不需要观看者佩戴眼镜,其基本原理是通过视差屏障(parallex barrier)、透镜(lenticular lens)等机制将左右眼的画面分别传送到观看者的左右眼。Autostereoscopic显示技术的最大优势是让观看者摆脱了眼镜的束缚,但是在分辨率、可视角度和可视距离等方面还存在不足,而且目前价格昂贵,很难进入家庭。偏振方式stereoscopic显示技术利用了光线有振动方向的原理。例如:显示时左右画面分别经过横向偏振和纵向偏振,以水平偏振光和垂直偏振光的方式显示出来,观看者配戴相应的偏振眼镜,左右镜片的偏振方向与左右画面的偏振方向相同,这样不合偏振方向的画面会被镜片过滤掉,左右眼分别看到相应的左右画面。由于在任一时刻要同时显示两路画面,通常两路画面在垂直方向的分辨率都要减半,这导致每路画面亮度降低。Sony公司推出的24和42英寸3D监视器采用了偏振技术。目前,影院所采用的投影式偏振3D系统即基于以上原理。
主动快门式stereoscopic显示技术是通过提高画面刷新率来实现。显示时左右画面交替进行显示,同时信号发射器同步控制快门式3D眼镜的左右镜片开关,使左右双眼能够在正确的时刻看到相应的画面。主动快门式stereoscopic显示技术能够保持画面的原始分辨率,让观看者享受到全高清立体效果。该种显示方式视觉效果出色,因此被很多厂商采用。目前,各公司推出的家用立体电视主要采用了主动快门式显示技术。
近年,相关国际标准组织积极开展了立体电视相关标准的研究、制定工作。ITU-R WP 6C在2009年11月发布了ITU-R Report BT.2160 Features of three-dimensional television video systems for broadcasting。该报告对立体电视系统进行了较全面的分析与总结,反映了ITU-R对立体电视系统发展线路的判断,并提出了需要进一步研究以及进行标准化工作的领域。DVB将ITU-R所定义的第1代Level 2级别系统称为第1阶段(Phase 1)立体电视系统。2010年7月,DVB发布了第1阶段立体电视系统的商业需求,见DVB BlueBook A151 Commercial requirements for DVB 3D-TV。A151对第1阶段立体电视信号格式、信号格式的表示、立体字幕等方面的技术需求进行了描述。SMPTE在2009年3月发布了3D Home Master的技术需求。这是一个关于立体电视无压缩信号格式、内容文件格式、图形覆盖、字幕等方面的技术需求。目前SMPTE正在进行3D Home Master标准的制定。ITU-T VCEG与ISO/IEC MPEG共同制定完成了H.264/AVC MVC标准。该标准可用于第1代Level 4级别系统立体电视信号的编码。目前,MPEG正在着手制定具有深度信息的立体电视信号的信源编码标准,目标是为第2代立体电视系统提供更好的支持。Blu-ray Disc Association在2009年11月发布了3D Blu-ray Disc规范,该规范采用H.264/AVC MVC标准的Stereo High Profile对双视立体视频进行压缩编码。HDMI发布了HDMI规范1.4a版本,明确了机顶盒等接收解码设备与立体显示设备连接时的接口要求。HDMI 1.4a支持第1代Level 2级别信号格式,包括SbS 1080i/50、1080i/59.94,OaU 720p/50、720p/59.94、1080p/23.97;支持第1代Level 4级别信号格式,包括1080p/23.96,720p/50,720p/59.94。Consumer Electronics Association正在考虑“3D-READY”产品该满足何种技术要求,同时正在考虑制定3D眼镜标准。日本和韩国的相关机构正在对立体电视带来的视觉疲劳问题进行研究,并计划给出安全观看的相关建议。
5小结
业界经验表明,立体电视业务的开展要想取得长久成功需要满足如下条件。立体电视系统要后向兼容2D电视业务,支持多人同时观看,立体显示等设备的费用是可负担的,较低的额外传输带宽需求,立体电视视觉质量和观看舒适度要好于传统2D电视。目前,工业界以及学术界的科研人员正在为实现这样一个系统而努力。
参考文献
[1]ITU-R Report BT.2160 (11/2009), “Features of three-dimensional television
video systems for broadcasting,” Nov. 2009.
[2]ITU-T Rec. H.264 (03/2010), “Advanced video coding for generic audiovisual
services,” Mar. 2010.
[3]E. Stoykova, et al., “3-D time-varying scene capture technologies – A survey,”
IEEE Trans. on Circuits Syst. Video Technol., vol. 17, no. 11, pp. 1568-1586, Nov. 2007.
[4]ITU-T Rec. H.264 Amendment 2, “Advanced video coding for generic audiovisual
services – Amendment 2: new profiles for professional applications,” April 2007.
[5]ITU-T Rec. H.262 / ISO/IEC 13818-2, “Generic coding of moving pictures and
associated audio information – Part 2: Video,” Nov. 1994.
[6]G. Akar, et al., “Transport methods in 3DTV – A survey,” IEEE Trans. on
Circuits Syst. Video Technol., vol. 17, no. 11, pp. 1622-1630, Nov. 2007.
[7]P. Benzie, et al., “A survey of 3DTV displays: techniques and technologies,”
IEEE Trans. on Circuits Syst. Video Technol., vol. 17, no. 11, pp. 1647-1658, Nov. 2007.
[8]DVB BlueBook A151, “Commercial requirements for DVB 3D-TV,” July 2010.