3月初,三星电子在纽约发布了最新的GALAXY S4智能手机,其中一项名为Eye Scrolling(眼球控制)的技术颇为抢眼。这项技术可以通过手机的前置摄像头来跟踪用户的视线,从而对手机进行简单的操作。
动动眼球,手机屏幕就能自动翻页;手指悬空,网页浏览也能操作自如;动动嘴皮,眼镜还能即时拍照……这不是什么科幻电影里面的场景,而是正在走进我们生活的技术创新。
语音技术全面走入生活
在近年来不断涌现的人机交互技术创新中,除了多点触控之外,最为人们熟知的应该要算语音技术了,这还得感谢iPhone的推广。2012年,苹果在iPhone上推出了一项名为Siri的语音技术,在原有的Voice Control(语音控制)功能上加入了在线云服务功能,将语音识别技术全面推向了云时代。其实Siri并非语音交互技术的首创,早在iPhone面世之前,索尼爱立信就推出Track ID技术,可以通过录制音乐片段自动在网络上搜索并下载原曲。
今时今日的语音交互技术可不只限于音乐搜索那么简单。苹果iPhone上的Siri利用云端服务器的智能化“学习”功能,不断搜集不同用户的喜好并自动优化,在人机互动方面的聪明劲儿曾经让不少用户乐此不疲地“调戏”它。“语音最大的优势是,它是人类最自然的交互方式。”机器学习技术专家、百度多媒体部副总监余凯说,以语音搜索为例,基于自然语言的搜索请求将会成为移动互联时代的主流搜索方式之一。“如今的语音搜索不同于传统搜索模式,不是基于无关联的几个关键词来反馈结果,而是能够理解用户指令,完成一项完整的任务。”
正是因为在语音交互技术上取得了这种智能化、云端化的突破,在经过了20多年的酝酿准备之后,目前语音交互技术已经开始通过智能手机、平板电脑等不同终端平台大规模进入到普通人的生活。以智能手机为例,目前提供语音交互的应用已经十分丰富,语音搜索、语音输入法、语音导航软件、语音社交软件等大量相关应用不断涌现。在这方面,中国的技术水平相当靠前。目前在中文语音交互技术领域,去年才被中国移动注资的科大讯飞已经占据了70%以上的市场份额。“国内正在形成持续的语音产业价值链,国内语音技术的市场应用正在大踏步前进。”科大讯飞董事长刘庆峰表示,目前中国在中英文语音产业方面的技术能力已完全和美国等世界一流国家同步。
“语音技术是一门交叉学科,它的突飞猛进还得仰仗着数字信号处理、人工智能、大数据合成等各种领域技术的突破。”UC优视的CEO俞永福表示,机器要能够准确识别语音并像人一样通过理解判断作出回应,需要基于大量的“学习”,才能与人一样根据过去的经验进行判断预测。这种“学习”有两种方法:通过在数据中找寻类似事例来提供解决方案,或是通过归纳出许多数据样本的共性来对这件事情作出判断,这也是语音技术发展的难点。所幸的是,近年来大数据和云计算的高速发展大大提高了机器对数据的处理能力,为机器学习提供了大量“素材”,并且提高了它的学习速度。俞永福预测,在云计算和大数据的有力推动下,未来几年语音交互技术将会取得爆炸性的发展。
体感交互逐步走向成熟
在语音交互走红的同时,另一类创新的交互方式也在逐渐走向成熟,那就是体感式交互技术。3月初,三星电子在纽约发布了最新的GALAXY S4智能手机,作为苹果的最强劲对手,这一次三星居然没有在硬件配置等方面大做文章,反而将软件应用和人机交互技术的创新作为主要卖点,而在三星罗列的众多“足以自傲”的技术中,一项名为Eye Scrolling(眼球控制)的技术颇为抢眼,这项技术可以通过手机的前置摄像头来跟踪用户的视线,从而对手机进行简单的操作。这听起来实在有些不可思议。
据现场体验了该项技术的媒体报道,就实用效果而言,目前三星眼球控制技术的成熟度还不是太高,具体表现在对用户眼球动作的辨识度不够,导致操作的反应不够流畅,另外也缺乏足够的第三方应用支持,只能在三星自家的浏览器等专属应用上实现操控效果,但这无疑为人机交互提供了一种全新的发展方向。
当然,对于眼球控制技术的实用性,目前业界还有不少争议。不少专家认为眼球控制技术的难点在于机器如何对人类眼睛动作的真实意图进行有效识别,“有时候人们眨眼或者转动眼球都是无意识的,但机器不见得能够分辨得出来,这样就可能会造成比较多的误操作。”Reational智能实验室的技术员刘毅直言,就目前手机摄像头的捕捉能力和手机的智能计算能力,眼球控制的精准性恐怕很难保证。“但这个技术的前景十分可观,因为如果成熟了的话,就意味着那些四肢有残障或者丧失语言能力的残疾人也能方便地使用移动智能设备了。”
相对于眼球控制技术的不成熟,同样属于体感交互技术之一的肢体动作捕捉技术却已经开始普及。这方面,家用娱乐设备厂商可谓急先锋。最早在这方面有所建树的是日本的任天堂公司,其2006年发布的Wii游戏机虽然没有高清的画面,但是却在手柄上大做文章,支持感应人体动作来进行操控,从而让对着电视屏幕打网球成为了一种可能;其后微软推出的Xbox 360游戏机的体感设备套装——Kinect更是大获成功,因为它连传统的游戏手柄也不需要了,玩家只需要对着Kinect套装里配置的摄像头动手动脚就能够实现对游戏的操控,这后面有着先进的动作捕捉技术的支持。
多模人机交互时代即将到来
语音交互、体感交互等众多新兴技术的涌现证明,一个全新的交互时代即将到来。
就创新方向而言,目前交互技术的革命主要集中在三个方面,除了前面提到的语音和体感之外,还有穿戴式设备,这里面最为著名的要数谷歌公司即将推出的Google Glass(谷歌眼镜)。这款产品其实是多种交互方式的集合体,在已经曝光的功能预告片中,我们看到它集手势、语音、触摸等多种触控方式于一体。之所以会有这样的设计,主要是因为无论是眼球捕捉还是语音识别,目前都还无法实现精确和快捷的输入,为了弥补这一缺陷,谷歌甚至还专门申请了手套控制专利,希望通过各种不同操控方式的结合来满足更广泛的需求。
和谷歌有着类似想法的公司不在少数。目前加拿大、日本、美国的众多创新公司都在聚焦可穿戴智能设备的研发,而要让这些设备能够实现和现有智能终端同样的使用效率,操控方式就必须有所突破。“打个比方吧,智能手表的概念现在很热,但是手表类产品不管是出于携带方便还是美观的原因,屏幕都没办法设计得很大,这种情况下,多点触控就显得没那么实用了,反而语音、手势捕捉之类的才能更好地搭配这类设备。”刘毅表示。
微软亚洲研究院语音专家宋謌平认为,未来最理想的人机交互方式应该是多模态的,是许多不同交互方式的无缝结合,用户在不同的环境下,选择他最喜欢、最习惯并且效果最好的方式,更自然地与机器交互。据了解,目前微软已经启动了一项名为NUI(自然用户界面)的研究项目,希望借助新型的传感器、更强大的计算能力以及大数据和机器学习,让人类能够通过语音、手势和触摸等更加多元化的方式与计算系统进行互动。
在追求交互方式多元化的同时,人性化、精准化也是交互技术下一轮创新的重要方向。2012年,一家名为Leap Motion的公司格外火爆,该公司宣称推出的自有体感操控技术要比微软的Kinect精确100倍以上,而且零延迟。用户无需使用键盘和鼠标,甚至不需要使用触摸屏,只要隔空动动手指,PC或者平板电脑屏幕上就会发生相应的反应。“我在网上看过这个公司的视频,真的很牛,看起来就像那些科幻电影里的一样。”在媒体工作的钱珊珊表示,她个人对于这款号称将在今年5月13日开售的产品十分感兴趣,“如果有条件的话,一定要买一套回来试试。”