网络视频会议中,人们都希望能实现发言人的特写与其声音同步的音视频效果。那么,这一技术如何突破传统的人工搜索方式,让设备自己也能“寻声辩人”呢?
说话人的声音不能被清楚地收音,会议双方听不到对方的声音,产生回音或者断续音现象从而使与会双方无法互相理解……即使现在使用视频会议系统时,我们仍常遇到这样的问题。如何尽可能逼真地远程再现会议环境的声音和图像,给人以身临其境之感,一直是声音处理领域的头等课题。
在视频会议产品领域,中国产品重视视频编解码与声音处理技术,欧美产品更着重软硬件设备、管理套件以及与统一通信架构融合的研究,而日本的产品则坚持其一贯的技术分工精细的主张:索尼在显示器领域深耕,雅马哈则在音频处理领域细作。
日前,日本雅马哈在中国推动PJP(Projectphone)网络会议系列产品巡展,试图为该领域引入另一种完全不同的技术解决思路。通过本报记者对日本雅马哈株式会社Sound Network事业部长田丸卓也、雅马哈中国网络会议系列产品技术总监谷田的专访,以下问题将得到解答:雅马哈会采用哪些技术解决目前声音传输的瑕疵,并辅助视频功能?视频会议中恼人的回声与吞字现象如何得到解决?会议中重要的录音功能,该如何设计?如何以人工智能的思路来设计网络与视频会议产品,最终使这一计算机科技成果贴近自然、符合人类习惯?
据谷田介绍,如何将新型视频会议系统拟人化,以贴近人工智能需求,是雅马哈PJP系列倡导的最新网络会议技术理念。这些理念将通过瞬间呈现技术、声音非增幅音响设计、内置适应型回声消除器等一系列技术得以体现。
假如甲地和乙地一起举行远程视频会议,甲地人员如何清楚确定乙地哪位与会者正在发言(视频追踪)十分重要。在处理这一问题上,思科、北电—宝利通采取的措施霸气十足:打造一个30万美元以上的网真会议室,租用超宽带宽传输声音和图像,用超大电视墙1∶1地还原场景和参会者;而苏州科达等国内企业的做法相对经济实惠:用甲地员工手中的遥控器去控制乙地会议室摄像头的转动和焦距调节,寻找小显示屏幕一次装不下的参会者或给出特写镜头。总体来说,这两种做法都使用的是“寻声辨人”的方式,但用的是人眼搜索。
雅马哈给这一问题增加了一条技术解决路径,那就是使摄像头学会寻声辨人。谷田向记者介绍道:“不要忽略人类都是‘寻声望去’这一听觉的天性,在视频会议系统中,视频显示与声音的处理技术其实是密不可分的。以PJP-300V这款摄像头、麦克风、扬声器一体机为例,它可以实现说话人瞬间显示的功能。即使使用普通液晶屏幕,会议发言人的特写和声音也能瞬间呈现。”这项技术的实现,依靠的是在PJP-300V上面配列16个麦克风阵列,可以自动判别说话人的位置;通过说话人的位置信息和3个摄像机的切换、联动,使说话人可以瞬间在屏幕上显示出来。这项技术不需要摄像头的切换动作,保证了会议顺畅进行。同时这项瞬间呈现技术,在桌面型VoIP电话中也可以应用,使音频会议呈现立体感,实现与语话者座位的匹配。
声音从会议系统的扬声器中播放,又回到麦克风的时候,容易产生回音。会议过程中,异地双方进行激烈的快语速交谈时,往往会出现“吞字”的现象,即首句的末字与后句的首字会发生重叠和消音。当会议变成多地、多人同时发言的时候,这种情况将更糟。
针对这些问题,谷田介绍了雅马哈成功应用于产品中的基于参照人类讲话方式设计的两种技术。第一,使用适应型回声消除器消除回音。什么是适应型回声消除器?谷田解释道,就是系统可以自动学习周围音场环境和旋绕余音,并算出滤波系数,从而使用户不必依房间类型选择不同的产品,节省了重复购置产品的成本。第二,据点语音分隔模式可以帮助我们解决吞字的难题。雅马哈PJP-100H形状窄长,具有12个扬声器和16个麦克风,没有MCU时,最多可以连接8个据点的音频会议。“在使用它进行多地点会议的时候,让各地点的声音从扬声器的不同方向传送至与会者,声音不会混杂,不但能清楚地收听,而且能简单地识别出是哪个连接地点的发言。”
谷田表示,如何让机器学会只录取特定人和特定声音是视频会议音频处理技术的重要研究方向,也是雅马哈人工智能理念的体现。
首先,在网络或视频会议进行的过程中,如果在开放空间或者有来自投影仪等杂音源的场所,如何识别音源的位置是对视频会议产品与技术的一个挑战。
面对这个挑战,雅马哈采取的对策是,使会议用传声扬声器可以根据场面的不同而采取不同的收音模式。该扬声器中的麦克风阵列可以识别音源的位置,只收录说话人的声音,并清楚地传达给对方。具体到具备了这样功能的PJP-100H上,它拥有三种特定模式:第一,区域模式:最适合在安静环境下的会议,在场所有人的声音都可被录入;第二,点式模式:可收录特定方向上的声音;第三:追踪模式,设备可以自动追踪发言人的声音。
其次,视频会议系统通常会面临出差员工从外地接入,参加会议这样的情况,临时会议录音功能非常重要。市场上现有的产品一般的解决思路是靠一台笔记本电脑、软件外加耳麦,组成临时的视频会议端点。但是,长时间使用耳麦容易造成疲劳,也不利于两位以上的出差员工同时参与。因此,雅马哈研制了一系列轻巧、便于携带的Web会议用传声扬声器,采用USB供电的方式,供连接笔记本电脑使用。
针对此类产品,谷田如此描述他们的技术设计思路:这类小型扬声器具备和个人电脑、音乐播放器连接,以增强其使用率;但更重要的是,不能忽略其传声和会议录音的功能,只录最需要的声音。在一次对此类产品PJP-25UR的体验中,记者一边利用扬声器大声播放电脑中的音乐,同时利用扬声器录音现场的对话。最后播放录音,里面只能听到记者说话的声音,完全没有音乐等杂声。田丸卓也表示,这是通过对扬声器和软件的设定实现的。
在企业办公自动化朝统一通信发展的大趋势下,视频会议应该要考虑到“无处不在”的接入特性。谷田告诉记者,多种多样的连接终端可以使与会者成功应对各种场面,雅马哈的设计理念是在产品中配置3个端口:LAN连接、模拟电话线、与PC连接的AUDIO(IN/OUT)。这一理念使得手机、固定电话、 PC、笔记本电脑都可稳定用声音加入IP音频会议、Web会议或者视频会议系统。
日本雅马哈株式会社Sound Network事业部长田丸卓也:“宝利通在中国市场会出现一个新的竞争者——雅马哈。”
雅马哈中国网络会议系列产品技术总监谷田:“使会议系统更逼真地满足人工智能需求,是网络会议技术未来的发展方向。”
为了在IP网络中实现语音传输并保证一定的服务质量,基于IP的语音传输系统中通常包含有以下的技术支持模块。
信令模块
信令是顺利实现电话呼叫和保证话音质量的重要技术前提,目前被广泛接受的IP语音传输控制信令体系包括ITU-T的H.323系列和IETF的会话初始化协议SIP。
编码模块
话音压缩编码技术是IP语音传输技术的一个重要组成部分。目前,主要的编码技术有ITU-T定义的G.729、G.723(G.723.1)等。
QoS保障模块
IP语音传输业务的QoS保障技术是当前业界探讨最多的话题,IETF建议了数种支持QoS的技术解决方案,主要有:综合服务(Int-serv)/ 资源预留协议(RSVP)、区分服务(DiffServ)、多协议标签交换(MPLS)、业务流量工程(Traffic Engineering)等。