智能语音交互大战已开打!多模态融合将是关键
发布时间:2017-11-09 , 发布人:华恒智信分析员
人机之间的自然交互一直是人工智能领域的一个美好愿景,而语音是人机交互中最重要的手段之一。为了能够在这个即将到来的人工智能生态中抢占制高地,各大科技巨头越来越重视语音技术发展,Google有Assistant,亚马逊有Alexa,微软有Cortana,Facebook有ParlAI,无不在加大语音识别的研发力度。
作为国内BAT三巨头之一,阿里在今年的云栖大会上宣布千亿元成立“达摩院”,研究领域包括:量子计算、人工智能、机器学习、视觉计算、自然语言处理、下一代人机交互等。近日,阿里iDST智能语音交互团队总监鄢志杰博士在接受记者采访时表示,达摩院要做的是面向未来10年、20年后的下一代的人机交互,人机交互会越来越自然,而实现这一突破的关键在于多模态和主动交互两大技术的融合。
要做下一代的人机交互
PC时代,人们与机器通过键盘和鼠标交流,与机器“沟通”需要学会打字、按键操作;移动互联网时代,人们与智能手机通过触摸屏幕交流,只需滑一滑手指即可完成任务;未来智能时代,机器将更像人类的一员,与它之间的交互方式将更趋同于人之间的交互。而要做到像“人”一样交流,机器就必须具备多模态的融合技术。
“相比传统单一的交互模式,多模态的主动交互技术主要基于传感器技术,融合了视觉、听觉、触觉、嗅觉等多种交互方式,机器可以更象人,表达效率和表达的信息完整度更高,是智能交互的发展趋势。”
鄢志杰博士举了一个例子,通过传感器技术可以感知我们所处环境的温度,比如天气热时室内温度比较高,机器就会帮我们把空调打开,而现在的智能家居,还只能被动的接受指令。
这样的应用场景看似简单,但实现起来还是有诸多技术难点需要解决的。鄢志杰博士表示,要做到下一代的人机交互体验,还需要解决三大问题:
1、怎么把传感器采集到的信号进行融合,从而产生融合以后的交互体验,这个是有距离的。因为现在传感器收集的信息是割裂的,比如摄像头在做人脸识别,麦克风在做语音设别,真正融合的还没看到。
2、传感器采集的信息还处于感知层面,相对还是比较浅层的,真正认知层面还是有距离的。
3、交互形式单一,现在无非是屏幕或TTS(从文本到语音),怎么把视觉、听觉、触觉、嗅觉等多种交互方式融合到人机交互中还没有突破。
鄢志杰博士表示,人机交互其实就是用户获取服务的过程,而阿里智能语音交互扮演的是中间桥梁的作用,它通过语音连接多端,跟互联网上广泛的服务对接,为用户提供所需的服务。
智能家居需要“统一语言”来交流
近两年,亚马逊Echo的出现引爆了智能音箱市场。据统计,亚马逊Echo在2016年销售量超过650万台,预计2017年超过1000万台,继亚马逊之后,谷歌发布Google Home智能音箱,苹果也发布了HomePod智能音箱。与此同时,阿里、京东、联想、喜马拉雅等也纷纷入局。
巨头们的杀入以及中小厂商的蜂拥而上,一度提升了智能音箱市场成为风口的可能性。对此,鄢志杰博士表示,智能音箱的火爆是因为在美国市场Echo取得了优异的成绩传导到国内市场的结果,我们也希望在国内市场能智能音箱行业能尽快取得爆发式增长,目前各大巨头都已经布局该领域,我们不排斥竞争,这个市场需要大伙一起来培养和教育。
除了智能音箱,鄢志杰博士认为“传统设备的语音交互升级也是个巨大的市场。比如我们在云栖大会前夕发布的智能语音跑步机,就是基于Link Voice平台快速完成传统跑步机智能语音化的一个典型案例,在市场上就取得非常好的反馈。在今年的双十一,智能语音跑步机也参加了阿里智能会场的预售活动。”
但是,智能语音也面临一些挑战。目前智能家居平台各自为战,拥有各自的通讯协议,用户购买不同平台的设备就要安装各自新的App,很难集合各家平台到统一的控制中心。阿里云IoT拥有国内最大的智能家居平台,并主导成立ICA互联互通联盟,目前已经有100余家厂商加入该联盟,越来越多的设备正在采用统一的“语言”来交流,这为语音控制家居打下了非常好的基础。
来源:飞象网
作者:高靖宇