名古屋工业大学 (Nagoya Institute of Technology) 的语音处理实验室 (Speech Processing Laboratory) 已经打造出一款用于建立在个人电脑上运行的语音互动系统的软件工具包 “MMDAgent” 。用 “MMDAgent” 建立的语音互动系统使得个人电脑用户可以与显示器上显示的 3D(三维)人物角色对话,效果逼真,仿佛与真人聊天一样。 “MMDAgent” 软件工具包融合了语音识别、语音合成、 3D 角色显示和语音交互控制等多项单元技术。其功能包括:
“MMDAgent” 是自主开发的、先进的语音合成和语音识别技术的高水平整合。它由该实验室经过长时间开发并推出的语音合成工具包 HTS (基于隐马尔可夫模型 (HMM) 的语音合成系统)和具备高速、准确和极富表现力的对话能力的语音识别引擎 Julius 相结合。
该工具包拥有基于 OpenGL 的先进的 3D 描绘功能。它通过采用卡通描绘和阴影映射来实现真实的 3D 描绘,并利用一个物理引擎来达到呈现逼真表情的目的。
该工具包的语音互动控制部分可以使不懂专业知识的用户应对各种内部条件和外部环境(包括语音输入等)的变化,描述出细腻丰富的语音对话场景。
“MMDAgent” 预定作为开源软件发布。由于其各种模型等的数据格式符合开源规格,用户可以对人物角色的 3D模型、动作和声音以及整个对话场景进行自定义,而且可以使用现有的模型和数据。
“MMDAgent” 将在2010年日本高新技术博览会 (CEATEC Japan) (10月5日在幕张国际会展中心 (Makuhari Messe) 拉开帷幕)上亮相,该系统将被置入一个大的显示屏,演示其用于实物大小的数字标牌的功能。在展会上,参观者将能够与流行的 3D 角色逼真对话。该语音处理实验室作为一个专门的项目实验室,致力于名古屋工业大学的国际语音语言处理研究, Tokuda & Lee Laboratory 在其中发挥主要作用。该实验室一流的语音技术研究成果已经以开源软件的形式对外公布。
应用实例:
数字标牌
娱乐
服务台引导系统
宣传
参考图:
该系统的外观(人物角色是“Mei-chan”,出现在名古屋工业大学校园信息导向系统的屏幕上)。
Crypton Future Media, Inc. 创造的人物角色“初音未来” (Miku Hatsune) ,显示在执行屏幕上。