Adobe 公司创新产品用户大会 Adobe MAX 2016 上,Adobe 公司的 Zeyu Jin(显然是个天朝工程师)宣布了 VoCo,一款可以让你如同文本一般编辑口语音频的应用程序。
VoCo 是针对音频编辑工作的,它可以自动识别出人声语音里的每个单词(目前应该还仅限英文),然后你就可以按照需求剪切和粘贴文本从而改变音频词汇的顺序,而不必去直接编辑波形(请看上面的演示视频,越到后面越精彩)。关键它还有个超赞的地方,它还可以作为一个创作工具,只要 VoCo 对一个人 20 分钟的语音进行分析之后,它就可以直截按新的文本合成这个人声音。就是说你只要被别人捕捉到了至少 20 分钟的演讲,然后这个软件就可以生成你从来没有说过的话,让别人听上去足以以假乱真,以为你真的说过这些话。
虽然还只是在会上演示,过渡的地方还有些不完美,还没有成为正式的产品,但是我们可以想象它的前景,特别是对于配音等工作来说可以成为又一件神器了。甚至一个声优只要被识别出了自己的声音,视频编辑人员就可以直接输入文本让软件来自己说话了。
Project VoCo 可以说是秉承了 Adobe 公司的理念,可以看到 VoCo 的这种方式有点像 PS(Photoshop) 一般可以将音频像图像一样分割成单独的元素,甚至可以用现有元素生成新的内容来完成完整的作品。当然如果是单纯的分割元素重新拼接可能容易实现,厉害就厉害在它能根据某人语音进行分析之后直截生成新的音频,也就是直接合成出来。我们推测这就牵扯到很多内容了,音频分析(比如频率,共振峰等),还有机器学习等等。
我们都知道 Yamaha 的 VOCALOID 技术,一提到初音之类的甚至应该是很多人都知道。可以想象一下,如果是 VoCo 这样的技术应用到这个上面是不是可以直接快速开发新的虚拟歌手?甚至个人在家录上一些歌声供分析之后是不是就可以直接做个自己的定制虚拟歌手呢?
另一,日本人最近也开发了一个叫类似的产品,它可以实时将你的声音模拟成另据特点的别人的声音,有点类似柯南的实时变声器,可以变成任何一个人的声音。还有 Krotos Dehumaniser 可以将你的声音轻松变成怪兽的声音。这些产品放到一起可能会带来配音行业空前的变革。原谅我的脑洞,我想着以后会有公司开发一个融合了这些技术的产品...
期待 VoCo 能够早日变成成熟产品推向市场。
如今唱歌都可以虚拟歌手直接码字了,是不是以后配音也可以直接码字了...