智能语音交互大战已开打!多模态融合将是关键

发布时间：2017-11-09 ，发布人：华恒智信分析员

人机之间的自然交互一直是人工智能领域的一个美好愿景，而语音是人机交互中最重要的手段之一。为了能够在这个即将到来的人工智能生态中抢占制高地，各大科技巨头越来越重视语音技术发展，Google有Assistant，亚马逊有Alexa，微软有Cortana，Facebook有ParlAI，无不在加大语音识别的研发力度。

作为国内BAT三巨头之一，阿里在今年的云栖大会上宣布千亿元成立“达摩院”，研究领域包括：量子计算、人工智能、机器学习、视觉计算、自然语言处理、下一代人机交互等。近日，阿里iDST智能语音交互团队总监鄢志杰博士在接受记者采访时表示，达摩院要做的是面向未来10年、20年后的下一代的人机交互，人机交互会越来越自然，而实现这一突破的关键在于多模态和主动交互两大技术的融合。

要做下一代的人机交互

PC时代，人们与机器通过键盘和鼠标交流，与机器“沟通”需要学会打字、按键操作；移动互联网时代，人们与智能手机通过触摸屏幕交流，只需滑一滑手指即可完成任务；未来智能时代，机器将更像人类的一员，与它之间的交互方式将更趋同于人之间的交互。而要做到像“人”一样交流，机器就必须具备多模态的融合技术。

“相比传统单一的交互模式，多模态的主动交互技术主要基于传感器技术，融合了视觉、听觉、触觉、嗅觉等多种交互方式，机器可以更象人，表达效率和表达的信息完整度更高，是智能交互的发展趋势。”

鄢志杰博士举了一个例子，通过传感器技术可以感知我们所处环境的温度，比如天气热时室内温度比较高，机器就会帮我们把空调打开，而现在的智能家居，还只能被动的接受指令。

这样的应用场景看似简单，但实现起来还是有诸多技术难点需要解决的。鄢志杰博士表示，要做到下一代的人机交互体验，还需要解决三大问题：

1、怎么把传感器采集到的信号进行融合，从而产生融合以后的交互体验，这个是有距离的。因为现在传感器收集的信息是割裂的，比如摄像头在做人脸识别，麦克风在做语音设别，真正融合的还没看到。

2、传感器采集的信息还处于感知层面，相对还是比较浅层的，真正认知层面还是有距离的。

3、交互形式单一，现在无非是屏幕或TTS（从文本到语音），怎么把视觉、听觉、触觉、嗅觉等多种交互方式融合到人机交互中还没有突破。

鄢志杰博士表示，人机交互其实就是用户获取服务的过程，而阿里智能语音交互扮演的是中间桥梁的作用，它通过语音连接多端，跟互联网上广泛的服务对接，为用户提供所需的服务。

智能家居需要“统一语言”来交流

近两年，亚马逊Echo的出现引爆了智能音箱市场。据统计，亚马逊Echo在2016年销售量超过650万台，预计2017年超过1000万台，继亚马逊之后，谷歌发布Google Home智能音箱，苹果也发布了HomePod智能音箱。与此同时，阿里、京东、联想、喜马拉雅等也纷纷入局。

巨头们的杀入以及中小厂商的蜂拥而上，一度提升了智能音箱市场成为风口的可能性。对此，鄢志杰博士表示，智能音箱的火爆是因为在美国市场Echo取得了优异的成绩传导到国内市场的结果，我们也希望在国内市场能智能音箱行业能尽快取得爆发式增长，目前各大巨头都已经布局该领域，我们不排斥竞争，这个市场需要大伙一起来培养和教育。

除了智能音箱，鄢志杰博士认为“传统设备的语音交互升级也是个巨大的市场。比如我们在云栖大会前夕发布的智能语音跑步机，就是基于Link Voice平台快速完成传统跑步机智能语音化的一个典型案例，在市场上就取得非常好的反馈。在今年的双十一，智能语音跑步机也参加了阿里智能会场的预售活动。”

但是，智能语音也面临一些挑战。目前智能家居平台各自为战，拥有各自的通讯协议，用户购买不同平台的设备就要安装各自新的App，很难集合各家平台到统一的控制中心。阿里云IoT拥有国内最大的智能家居平台，并主导成立ICA互联互通联盟，目前已经有100余家厂商加入该联盟，越来越多的设备正在采用统一的“语言”来交流，这为语音控制家居打下了非常好的基础。

来源：飞象网

作者：高靖宇

行业资讯

智能语音交互大战已开打!多模态融合将是关键