很快《复联3》会上映,大伙喜闻乐见的钢铁侠又要来了。 围绕钢铁侠,有个有意思的现象值得我们开开脑洞:应该每个人都想要战甲里搭载的AI程序“贾维斯”,但所有人都在担心会不会有一天出现想要毁灭世界的AI机器人,奥创。 很多大人物,比如说霍金,都在提醒我们要警惕AI的潜在威胁。但仔细想想,贾维斯和奥创到底有什么区别呢?只是单纯的善恶之分?可善恶又由谁来分辨? 机器应该用智能服务人类,但不能有“过分的智能”,堪称AI领域的“先有鸡还是先有蛋”问题。 或许可以切换到另一种思路去思考这件事:贾维斯之所以让人喜欢,是因为他能读懂和理解钢铁侠的各种需求,令主动提供服务。也许我们在心底期待的,只是机器可以与人进行无成本的沟通与理解,而不是要拥有独立的人格与智慧。 这样的逻辑下,AI服务于人类的基本价值就落到了那个既复杂又简单的名词上:人机交互。 刚刚,清华大学与阿里巴巴宣布达成战略合作,共同成立清华大学- 阿里巴巴自然交互体验联合实验室。这个实验室的目的在于探索“下一代人机交互”的未来。 这个实验室的有趣之处在于,它专注于解决一个十分急迫的问题。这个问题涉及广阔的产业与市场可能,甚至关乎于马云所说要让“机器更像机器,人更像人”的AI价值观。 “五感”合一:人机交互的拐角在何处? 在智能音箱“狂轰滥炸”过之后,或许很多人认为,今天的AI带来的自然交互能力已经相当成熟。但事实上,大伙可能还是有点乐观了。 当然,AI带来的语音识别、语义理解、NLP解决方案,以及花样繁多的传感与机器视觉技术,正在打开人机交互的新脑洞:过去只能通过键盘、鼠标、触屏进行命令输入的机器,正在开始以自然方式与人沟通。 比如我们已经可以语音控制音箱、电视和家居,人脸识别装置也开始普及到生活当中。 但这还远远不够。回想一下,为什么我们有时候打字说不明白的事,就想要电话沟通?有时候电话沟通也不行,必须当面谈谈才可以? 这是因为,人与人之间的交互是相当复杂的。不仅仅是语言在起作用,音色音调、表情、肢体动作,甚至一个人隐含的情绪、气势,都是人们之间进行自然交互的一部分。 但很显然,今天的AI还做不到这点。 举个例子,今天搭载语音交互的空调开始成为新时尚。用语音操纵空调当然相比遥控器方便了很多,但也无非就是换了一种遥控方式而已。消费者获得的实质价值并没有提升。但如果空调不仅能听懂你,还可以看到全家人的位置、穿了多少衣服,还可以感知到屋子里的温度、湿度,甚至每一个用户的体表温度。那么空调就可以自主分析制冷模式,给每个人提供最适合的降温方案。毕竟空调病或者冷气吹太多导致的感冒,发生几率将大大降低。 这就是给机器加上“五感”,进行多模态综合感知的魅力——机器不仅是接受遥控的一方,它可以主动理解人类,通过智能运算得出更好的主动服务方案。 此外,目前AI在处理自然交互的时候,完全依托于计算机科学的知识系统。这就导致其会忽视人类在情绪、心理甚至隐喻层面的表达需求——听起来好像有点太难为人家机器了,但是没办法,精益求精嘛…… 再举个例子,人的语言中是带着各种情绪的。虽然说一样的话,但附带的情感可能完全不同。我们回家让音箱放一首歌,可能是因为我们非常开心想要来点助兴的音乐,也可能是有事不顺心,想要安慰一下自己。 假如机器可以听出来人类语言中附带的情绪,可以观察到用户是低沉还是兴奋。那么给出的服务将完全不同,一句来自机器的问候下,可能很多让人不开心的事都烟消云散了。 模态综合与心理解读,就像这两座大山一样横亘在AI自然交互的家门口。 在探索“下一代人机交互”的路上,假如能够让机器具备听觉、视觉、触觉等综合性的“五感”,甚至加强其识别理解人类情感的能力,那么机器智能获得的价值,可能会超乎想象的巨大。 被忽略的商业价值:藏于万物智能中的经济增长潜力 去年年底的时候,我们报道过阿里巴巴十二位科学家对今年科技走势的预测。其中科学家们有一点共识非常值得注意:语音、视觉、传感连接为一体的多模态机器交互技术,将在今年催生万物智能的爆发。 几天之前,阿里在深圳云栖大会上宣布,IoT将成为继电商、金融、物流、云计算之后的第五条主赛道。 这两件事都表明,搭载自然人机交互的IoT设备,已经让阿里这样的巨头感受到了独特的魅力。 举个简单的例子,我们就能看到多模态的自然交互在实际生活中多么重要。在上海地铁进行语音识别购票的案例中,首先要解决的核心问题是地铁站中环境嘈杂,要准确识别到购票者语音很不容易。这就要求机器除了进行语音交互,拥有优质的声纹识别、降噪算法之外,还需要进一步确认买票人。而最终的解决方案,是在售票机前加入人脸识别装置,通过人脸和唇形识别来判断究竟是谁在买票。 显然,结合了语音交互和机器视觉、人脸识别的机器智能,很简单就解决了一个生活中极重要的问题,而这个问题似乎又无法用其他方式来解决。事实上,近乎有无数场景等待着多模态交互的机器智能去攻破。 因为结合了语音、视觉、传感,甚至机器嗅觉和机器触觉的IoT设备,可以无限接近真人来为用户提供服务。在零售和金融服务中,高效的多模态交互结合综合计算、智能推荐技术,可以极大提高服务效率与商业精准度。 而制造业中让机器与人类多模态交互,达到机器像人体一样听话,那么工业效率的提升近乎是难以估计的。家庭、驾驶、城市服务等场景中,如是案例更是不胜枚举。 机器的因果:我们到底需要AI做什么? 更进一步说,自然交互的价值也不仅仅在于商业世界。就像文章开头中描述的那样,人类最初对AI的恐惧与担忧,是萦绕在AI发展过程中永恒的达摩克利斯之剑。 到底如何达成消解恐惧与技术突破的双赢呢?从率先开展的自然交互进击中,我们似乎能读到一丝阿里的技术观:以人为本,驯服技术,让机器始终是机器。 或许我们经常会联想到AI的失控,是因为很多研究都是以技术为中心。那么随着技术的一点点拓展,很多问题也随之而来:机器道德、黑箱难题、数据灾难,等等。而假如我们以“人到底需要AI和机器来做什么”为出发点,或许就会发现整个技术逻辑在变得不同。 马云说“过去三十年我们让人像机器,接下来三十年我们让机器像人。但归根结底要让人更像人,机器更像机器”,其中隐藏的就是阿里技术逻辑的出发点和归途。 交互升级,是人类与机器相处的本源命题,从杠杆、轴承、开关,到键盘、鼠标、触屏,交互在一步步向人类舒服的姿势靠拢。而接下来,语言、手势甚至表情,当然是我们控制机器的更合理方式。 这条路上我们最终得到的,是能更好服务人类的机器,而不是人类无法理解的机器。这是一种我们很少去思考的AI观:但假如我们认真思考一下到底发展AI、探索AI是为了什么,或许答案其实很简单:为了让人类过的更好。 只要永远以人为本,机器的因果问题也就迎刃而解。或许这种技术信仰会让少部分科幻和阴谋论爱好者失望,但对于绝大多数人类来说,这是不需要选择的选择——机器会理解我们,并且我们不需要担心ta。