近日,麦肯锡发布《技术热门趋势报告(The top trends in tech)》,对世界科学技术发展趋势进行了研究。报告认为,更高水平的流程自动化、可视化,分布式基础设施、下一代计算平台、AI应用等已经成为各行各业的发展趋势。同时,报告还对其中具有重要影响科学技术进行了深入洞察,具体包括:数字孪生、3-D/4-D打印技术、应用AI技术、云计算、边缘计算、区块链等等。此前,我们分享了其中关于“数字孪生”的技术洞察,本期将继续解读麦肯锡《技术热门趋势报告》,聚焦“应用AI技术”。
应用AI技术
报告中的应用AI技术包括计算机视觉、自然语言处理和语音技术三种。计算机视觉、自然语言处理、语音技术利用人工智能算法来帮助计算机理解现实世界的数据,包括利用计算机视觉技术来理解视频和图像,利用自然语言处理技术来理解文本,和利用语音技术来理解音频。
这些技术能够促进人机交互和自然环境的数字化。在利用样本数据训练算法后,机器可以识别范式,并对其进行解释和操作。
技术成熟情况
应用AI正在从基础研究向大规模应用过渡,现在处于过渡的后期,已经成为了大规模落地的成熟技术。
到2024年,超过50%的用户触点(user touches)将被人工智能驱动的语音、文字或计算机视觉算法所增强。到2021年,10亿台联网的监控摄像头将收集和共享视觉数据。
行业适用情况
应用AI经历了从被特定行业采纳向被多个行业采纳的过渡,现在过渡已经结束。该技术已经成为了在多个行业广泛落地的成熟技术。
应用AI对企业的价值
无缝人机交互:通过将人工输出转换为机器阅读指令,简化应用程序的使用或与机器的交互。
扩展或创造新产品和服务以覆盖端到端:利用基于AI的数据分析特征(例如,监测癌症就是医学成像设备的一个特征)。
更高水平的数字化和自动化:机器的视听理解水平很高,能够帮助公司实现全自动化,或是通过机器完成部分工作来减轻人类劳动者的负担。
更多客户界面:提供不同的互动方法,通过文本、语音或图像(例如,亚马逊基于照片搜索产品的功能)与客户互动。
应用示例
01
扩展或创造新产品和服务
以覆盖端到端
利用基于AI的数据分析特征(例如,监测癌症就是医学成像设备的一个特征)来扩展或创造新产品和服务。
如:作物保护生产商希望优化产品用途,以预防植物病害。目前,针对通常无法监测到病害的问题,可以把计算机视觉与卫星遥感技术相结合进行农田监测,监测到病害风险后触发警报。而使用计算机视觉算法技术后,可在发现植物病害之前就监测到这些问题,在实际感染病害14天前触发警报,从而使农民减少使用杀虫剂。
02
(人力)资源生产力更高
人机交互变得更高效,即计算机视觉、自然语言处理算法会推进流程并为决策的制定提供依据(例如,通过搜索合同获得特定信息),这样员工就能将时间花在能够增值的任务上。
如:英国的欺诈重案办公室(Serious Fraud Office)保存着超过三千万份文件,该办公室利用计算机视觉对文档进行了分类,并通过数据处理来查找贪污腐败的卷宗。在2017年,该办公室利用计算机视觉算法发现了劳斯莱斯欺诈案,并对该公司处以6.71亿英镑的罚款。使用计算机视觉算法每天能够处理60万份文件,节省了80%的文件处理时间,使得工作人员能够把重心重新转移到起诉上。
03
任务的全自动化
减少了运营开支
AI控制的机器人能够高效完成重复性的后台和前台任务(例如,自助服务杂货店利用计算机视觉结账)。
此外,数字孪生还能减少资本密集型投资,使得管理者能够根据模拟结果做出投资决策,从而降低冗余或替换的风险(因为产品是定制的)。同时,数字孪生还可以增加项目确定性,通过模拟可能路径、追踪绩效并对标里程碑,在偏离项目计划的情况下及时纠正(如把数字孪生运用到建设中的复杂项目)。
04
客户满意度更高
提供各种自然的互动方式,并保持始终如一的服务水平(如聊天或语音机器人)。
发展前景
未来五年计算机视觉、自然语言处理、语音技术的发展前景如下:
阶段一:神经网络的发展进入停滞期;攻克复杂应用的技术难关
现有神经网络仍然存在一些缺陷(如缺乏上下文),限制了解释力和采取行动或进一步累积洞见的能力。我们需要优化和运用现有解决方案(如Facebook利用卷积神经网络开发了面部识别功能,准确率达到了97.5%)。在攻克技术难关后,复杂应用准备进入市场(如5级自动驾驶)。
阶段二:计算机视觉和自然语言处理模型的普及
得益于已建立的数据标准和可调整的预定义模型,计算机视觉和自然语言处理在相对不太复杂的虚拟任务中得到广泛应用。机器通过不会编码的专家的培训,简化人机交互(例如,护士指导机器人处理患者样本)而被加速应用。利用基于认知AI 的加工来根据非结构化数据自动做出判断和决策,从而实现智能流程自动化。
阶段三:生成式预训练模型
在一组不同的未标记数据上预训练语言或视觉模型,从而自动生成感知上下文的内容,这些内容很难同人类创作的内容区分开来。无需人工监督或手动标记输入数据,模型会遵循自己的逻辑而不是遵循所学习的范式,机器可以独立“思考”和创造高精度内容,从而实现真实的人机交互。AI研究实验室OpenAI的生成式预训练模型(GPT-3)学会了仅根据一个提示来执行任务(例如,通过给模型展示一个完整的句子和一个不完整句子来教会模型如何造句)。
发展动力
可用于训练和解释的机器和人类生成的数据呈现爆发式增长(例如,装有传感器和摄像头的消费或者工业设备的数量大幅增长)。
深度神经网络和深度学习方法的出现(例如,卷积神经网络降低了错误率,使计算机在语音和图像识别方面与人类不相上下)。
AI驱动的应用程序成本不断下降,处理能力和算法的可用性不断提高,因此该类应用程序正在普及。
不断提高数据(图像、音频)的质量,提高分析的准确性。