在12月15日的2018 T-EDGE 全球创新大会上,阿里巴巴人工智能实验室语音助手首席科学家聂再清发表了主题演讲。围绕语音交互的下一代发展,聂再清从阿里巴巴对语音、语义、人机交互的理解与落地场景进行了阐述。
在聂再清看来,AI 新技术正在打造下一代人机交互方式,这也是人把物理世界数字化的人机交互过程,而语音助手则成为当下AI 落地的一个热门场景。
这也解释了当下智能音箱的风靡。不论是订外卖、拉窗帘、听音乐,语音交互技术已经进入消费的日常生活,据了解,由阿里巴巴推出的智能音箱“天猫精灵”,自面世不到一年(从2017年8月8日正式开售到2018年7月5日),销售量就突破了500万台,今年双十一期间更是成为了消费电子行业(天猫平台)单品销量冠军。
谈及人工智能领域自然语言理解技术的挑战,聂再清表示,挑战主要来自自然语言理解的多样性和歧义性。
因此,阿里巴巴正在根据公开大数据自动生成语料来解决冷启动语料缺乏问题,利用融合知识图谱和用户画像的深度学习算法打造强大的语义理解能力,以及通过深度强化学习方法在与用户的聊天中自动学习最佳人机对话策略。
“语音助手已经进入大家的日常生活,需要各个开发者参与其中,我们希望搭建简单易用的AI平台,把我们积累的人工智能技术和创新赋能给开发者。”聂再清表示。
以下为聂再清在2018 T-EDGE 全球创新大会上的演讲实录,经钛媒体编辑后发布:
大家好,我是阿里巴巴人工智能实验室的聂再清,今天给大家分享的题目是“语音助手,下一代人机交互入口”,阿里巴巴人工智能实验室的一个重要使命就是用AI的新技术打造下一代的人机交互方式。
什么是我们认为的人机交互方式?就是人类把物理世界数字化时跟机器的交互过程,在座的可能有一些人经历了刚开始只有用键盘和计算机交互的时代,用dos系统一行一行的输入,人跟机器交互需要学习培训,一般人不会用计算机,慢慢我们有了图形界面,我们用鼠标点一下就可以,更多人不经过培训就可以使用了。
现在大家正在用手机进行物理世界的数字化。所有人,包括老年人,包括几岁的小孩都可以用手机触达数字世界,并不断数字化物理世界的很多信息。你通过微信或钉钉确认一个好友邀请,就是把物理世界的好友关系数字化,你看到帐号上的信息,就是看到你银行的数字世界的信息。这种通过手机的触屏交互方式越来越自然,学习成本非常底,几乎人人都参与进来了,也极大地丰富了我们云端的数字世界的内容。
但这也有一个坏处,很多人都在长时间地低头玩手机,甚至有一个新词“低头族”来描述这一现象,描绘的就是大量的人把大量时间放在通过手机和数字世界的交互上,这种生活方式不是非常健康的,我们希望一个更健康更自然的交互方式,这个方式就是我们认为的语音助手。
刚开始,智能音箱和语音助手在美国很受欢迎,而现在我们知道中国用户更喜欢这样的方式。用数据说一下,去年双十一,我们只用九个小时就卖了一百万台智能音箱,从一年前天猫精灵面世开始不到一年就卖了五百万台。今年,我们已经成为电子消费行业在天猫平台上双十一的销量冠军,智能音箱在双十一期间也超过了手机这个品类的销量。天猫精灵已经成为最受欢迎的中文语音助手(智能音箱),在全球智能音箱市场也是第三(在Amazon和Google之后)。
语音助手已经在进入每个人的日常生活,有很多场景都可以使用语音助手,比如早上起床后开灯开窗帘;收听天气预报以及新闻;中午可以订外卖,到了晚上睡觉前可以听着最喜欢的轻音乐入睡……在一天24小时里,很多的场景都可以帮助到。
如果把语音助手变成大家的第一个交互入口的话,我们需要各行各业的开发者都加入进来,把他们的内容、服务、基础设施都连上我们的助手。甚至我们在北京的一家养老院都安装了天猫精灵,帮助行动不便的老人用语音控制家电。老人们都非常喜欢,因为能帮助他们做很多事情。
为了让每个开发者都能参与打造我们的语音助手,我们希望搭建简单易用的AI平台,把我们积累的人工智能技术和创新赋能给开发者。我们推出了AliGenie这个语音助手平台。这个平台涵盖了一个又全又准的知识图谱,不仅仅是百科的知识,还有优酷的知识,有虾米音频的知识。
我们把通用的百科知识和这些Vertical的知识结合起来,把物理世界的人和物一一对应到我们的知识图谱上去。基于这个图谱,AliGenie提供四种基本AI能力:语音识别能力、自然语言处理能力、语音合成的能力、还有用户画像和个性化推荐的能力。
任何一个开发者就可以使用到这四种基本的能力,这四个基本能力之上,我们还提供四种类型的对话:
第一种,业务完成,比如说打开灯和窗帘这种任务,天猫精灵可以帮你通过对话形式解决;第二种,知识问答,就是你有一个问题,天猫精灵能够把你的每个问题都回答好。第三种,智能聊天,是我自己提出来的,这个聊天和我们的闲聊有很大的区别,待会儿我还会重点介绍;最后一种,闲聊,是能够接住用户的任何一句输入的聊天服务。
由于时间关系,今天我主要介绍一下自然语言理解和智能聊天。
什么是语音助手里的自然语言理解?举例来说,你问天猫精灵明天天气怎么样,它需要了解用户意图是要了解天气预报,这个工作就是意图识别(intent detection);天猫精灵还需要从用户请求里获得两个参数:一个是时间一个是地点,我们要把“明天”、“北京”这个时间和地点作为参数输入给API,这个工作就是槽填充(slot filling);知道了意图和槽值(以及上下文),让天猫精灵决定下一步要做什么,是对话管理(dialog management);所以自然语言理解在智能助手里面做三件事:意图识别、槽填充、对话管理。
讲讲这三件事的挑战,以及我们怎么解决的。
大家都知道,自然语言理解是人工智能里面最难的范畴,它的挑战主要来自于哪里?来自于自然语言的多样性和歧义性。
“明天天气怎么样”有几十万种说法,如果我们没有足够的训练数据的话,你的智能助手没有理解对,用户会认为是智障,大家对它的期待很高,所以我们怎么能让不是机器学习专家的开发者的人也能够开发这类应用,这是我们平台要做的事情。
现在我们主要的解决方案是按照公开大数据自动生成的语料让开发人员标注,用一个基于规则的方法自动解决冷启动是语料缺乏的问题,利用融合知识图谱和用户画像的深度学习算法打造强大的语义理解能力,以及通过深度强化学习方法在与用户的聊天中自动学习最佳人机对话策略。
下面我介绍一下我们在研发的智能聊天能力。
作为对比,先看看什么是闲聊。闲聊是一种基于人类曾经发生过的对话库来回答用户请求服务。在闲聊技术体系里,机器并不需要真正理解用户的请求。闲聊有几个特点,一般都是单轮或者很少的轮数,它的好处是任何话题都能接住。闲聊的用处在于接住用户的每一句请求,不让用户因为天猫精灵听不懂他/她的某一句话就不和天猫精灵玩了。
但我不希望跟用户进行太长时间的闲聊,因为如果用户跟天猫精灵聊一百轮闲聊,用户还是记不住什么东西,这是在浪费用户的时间。这是不符合我们的价值观,我们希望人能够通过我们聊天能够学到知识,或者变得更加快乐。
再来看看智能聊天。
智能聊天需要要理解用户请求,同时用强大的知识图谱制作聊天的知识点,通过跟用户对话,把我们知识图谱里面的知识灌输给用户。我们希望跟用户聊的越多越好,他会学到很多知识,我们希望用户聊完以后学到知识并慢慢变成我们的朋友。
智能聊天是能用深度强化学习来学习对话策略的,因为就算天猫精灵聊错一点,没有多大的关系,用户只是会对这个回复不太高兴(不像任务完成时需要100%准确完成主人的任务)。通过深度强化学习,下次天猫精灵就可能更好地知道到底应该怎么和这类用户聊天。我认为深度强化学习能够应用在智能聊天的对话策略学习这个领域。
总结一下,语音助手已经进入大家的日常生活,需要各个开发者参与其中,我们希望搭建简单易用的AI平台,把我们积累的人工智能技术和创新赋能给开发者。以上就是我全部的演讲内容,谢谢大家。