网络视频会议中,人们都希望能实现发言人的特写与其声音同步的音视频效果。那么,这一技术如何突破传统的人工搜索方式,让设备自己也能“寻声辩人”呢?
说话人的声音不能被清楚地收音,会议双方听不到对方的声音,产生回音或者断续音现象从而使与会双方无法互相理解……即使现在使用视频会议系统时,我们仍常遇到这样的问题。如何尽可能逼真地远程再现会议环境的声音和图像,给人以身临其境之感,一直是声音处理领域的头等课题。
在视频会议产品领域,中国产品重视视频编解码与声音处理技术,欧美产品更着重软硬件设备、管理套件以及与统一通信架构融合的研究,而日本的产品则坚持其一贯的技术分工精细的主张:索尼在显示器领域深耕,雅马哈则在音频处理领域细作。
日前,日本雅马哈在中国推动PJP(Projectphone)网络会议系列产品巡展,试图为该领域引入另一种完全不同的技术解决思路。通过本报记者对日本雅马哈株式会社Sound Network事业部长田丸卓也、雅马哈中国网络会议系列产品技术总监谷田的专访,以下问题将得到解答:雅马哈会采用哪些技术解决目前声音传输的瑕疵,并辅助视频功能?视频会议中恼人的回声与吞字现象如何得到解决?会议中重要的录音功能,该如何设计?如何以人工智能的思路来设计网络与视频会议产品,最终使这一计算机科技成果贴近自然、符合人类习惯?