小时候很喜欢一部剧叫《恐龙战队》,里面有个角色叫“阿尔法”,是个每天忙来忙去的机器人,能传唤队员并和他们交流,令我很好奇。
今天,我们对于能对话的机器已经不那么新奇了,这得益于智能语音技术的发展和一些语音产品的出现。一度调戏Siri成为全民话题,这肯定不是Apple公司初衷。这暴露了它的不完善,也让大众离语音产品更近了。本文是我在学习智能语音过程中的思考,希望从智能语音的人机交互层面给大家带来一些启发。
语言是人类文明的重要成果,也是人类最重要的工具之一,它为保存和传递人类文明起到了不可或缺的作用。概括来说它的主要作用就4个字:传递信息。
“而我们所说的智能语音,学术界叫“自然语言处理”,是计算机科学领域与人工智能领域的一个研究方向,主要研究能实现人与计算机之间用自然语言进行有效传递信息的理论和方法。—引自百度 ”
智能语音交互严谨点说应该是自然语言交互(natura language interaction),为了方便理解我依然采用“智能语音交互”这个词。
siri、微软小冰、google now、Echo、科大讯飞、京东叮咚、出门问问等智能语音类产品开始出现,虽然存在很大的不完善,但回望历史我们能发现智能语音技术一直是在进步的。
在了解智能语音的过程中,我产生了一些问题,围绕这些问题我对智能语音交互进行了一些思考,希望能给你带来一些启发。
人类与世界万物的交互过程大概是这样的:通过眼睛去观察人、事、物、环境等,再辅以耳朵听、鼻子闻、舌头尝、嘴巴交流、肢体触碰,而后大脑产生记忆和思考并做出动作、表情、语言和生理反馈,这个过程是循环和组合的。
不同的环境和习惯会有不同,但基本是在这个范围。 这个过程中,前半部分主要是接收信息,后半部分主要负责交流互动,而语言和动作是最主要的交流互动方式。
我们每天使用的手机、电脑、相机、汽车,包括现在很火的AR、VR设备,基本上都要靠手去操控。(用手操控属于动作这个范畴)这跟人类的进化方式有很大关系,我们的祖先从学会制作工具开始,手就成为了人类接触万物的最主要工具。
当我们在开车时,眼睛和手被占用,再去操作手机、中控触屏等设备会非常不便,危险系数也会大大增加。
原本语言是人与人之间交流的工具,很难像双手一样直接与物体产生反应。 但是随着公认的第四次工业革命的到来,人工智能让我们有了更多可能,当机器能听懂我们的意思并很好的执行时,很多场景的人机交互方式将会被改变,更多适合的场景将会被挖掘出来,就像当年智能手机进入我们的生活。10年前,我们是无法想象通过手机做现在的大多数事情的。
成为之一,是因为除了语音外,原本的手的操作、体感操作、面部表情识别、注意力识别、甚至是情绪的波动,都可能在不同场景成为我们与机器的交互方式,未来这很可能是综合的交互体验。
“近场的定义是小于1个波长的范围内(或者波长量级)的电磁场。而远场是电磁波传播到远处之后的场(分布)。——引自百度”
近场语音主要是基于手机等设备,基本上是一些辅助的使用需求,Siri和微软小冰就是近场语音产品。远场语音也越来越受重视,亚马逊的Echo就是远场语音,很受欢迎,至少用户能在5米外的距离语音指示它播放音乐。
自然语言理解方面的研究已经60多年了,虽然还不完善,但令人欣喜的是类似Siri、Echo这样的产品不断涌现,而不再是虚无缥缈的概念。
当我们与机器进行语音交互时,机器需要通过声学处理我们的声音和周围环境,减少干扰和噪音。再通过语音识别技术将听到的声音翻译成文字,语义理解技术则会分析这些文字的意义,最后机器去执行用户的指令或者通过语音合成技术把要表达的内容合成语音。
在此过程,声学处理、语音识别、语义理解等属于自然语言理解,语音合成等是自然语言生成,这些都是非常核心的技术,还要配合人工智能、机器深度学习等等。
真实环境下,受噪音等影响机器仍然听不准自然语言。机器将听到的语音翻译成文字时,重音、口音模糊、语法模糊等又很影响成功率。人类语言太复杂,受到单词边界模糊、多义词、句法模糊、上下文理解等影响,语义理解又是一大障碍。
如果一门课程上一年没开设,对于“这门课程去年有多少同学没通过”这样的问题,机器是回答“都没通过”还是“去年没开这门课”?同时机器还需要提前存储“去年没开这门课”的信息。
想想我们从小时候啥也不懂到现在懂得的知识和信息,这是难以想象的数据量!所以现阶段来看,在某垂直领域开发智能语音产品是相对现实的选择。
研究智能语音与机器的交互,不得不说界面交互,这是使用者和设计者都非常熟悉的人机交互方式。从界面交互出发,其实有很多可思考的或借鉴的点。
界面交互是一种线性的交互方式,本质上是不同的页面通过不同的层级关系串联起来的。所以,我们在使用的时候会有一层层返回,tab导航切换,回到app首页和home键回到手机桌面的概念。
语音交互不适合这样做,我们人类在语言交流时,是一种非线性发散式的,我们会在聊某个话题时突然切换到另外一个不相关的话题上,这之间没有层级关系,更谈不上返回关系。
界面交互在设计的时候,是将很多“小任务”(按钮点击、模块选择、页面跳转等等)提供给用户,用户通过不同的组合选择,最终达成自己的目标。
但是在语音交互时,更多是直接表达,你会跟服务员说:请给我一杯咖啡。而不会说:请用杯子从咖啡壶里倒一杯咖啡给我。
我们在使用电脑和手机上网时,有时候是漫无目的,但在语音交互产品上如果漫无目的的进行下去,会让人很烦躁,因为你得不停地说下去。
当我们在一个人多的场合可以毫无顾忌的使用手机和ipad,但若跟机器进行语音对话,就会令人很尴尬。再例如,在ATM机上取款时你会使用语音吗??
所以在一些使用语音交互效率高的场景,如何避免这样尴尬的情绪很重要。而另一些更私密的场景语音交互可能是个灾难。
任何一款产品不管是什么样的交互方式,没有使用场景,满足不了用户需求,一定是无法成功的。智能语音类产品也不例外,并且从现阶段的技术上来看,垂直一些的使用场景更适合用智能语音交互。
汽车的车载智能语音系统,已经有很多商业产品了。是不是可以在挖掘出其他出行场景呢?比如骑车时?
智能语音类产品还可以应用于客服行业,可以极大的程度降低人员成本,也可以解决语音客服体验差效率低的问题。
如果应用智能语音系统呢?理想的情况跟人工客服没有区别,但是全部由机器完成,想想看节省了多少人力成本。甚至线下的客服工作也可以替代。
不管是界面产品还是语音产品,最终目的都是解决人们的问题。界面产品设计的部分标准和经验依然适用。
比如设计流程上,同样需要理解业务诉求、用户诉求,要进行用户调研、分析用户特征和观察用户行为,要挖掘使用场景中的问题和痛点,要梳理任务流程、设计信息架构和方案设计,并且要去验证和迭代。
在界面交互中页面加载3秒以内,配合状态反馈,用户是可以接受的。而语音交互用户会更不耐心等待,所以加载过程要快,就像人与人之间对话一样自然,才会令用户满意。
固定的音乐、铃声,给用户形成印象,让人一听见就知道是什么产品。例如微信、iphone铃声、新闻联播片头曲。动听、令人愉悦的声音、音乐、铃声很重要,是产品气质的表现。
这是最后的疑问,我还没有答案。机器的语音交流,不像人类一样自然永远是最大问题,因为只有人与人之间交流才是最自然和舒适的。如何让机器学习和模仿人类,使它慢慢的向自然人“进化”?
网站在前期的时候都是很难上排名的吗,那么是因为你的网站基础优化都没做好,怎么可能会有排名呢,首页说到了基础的优化那就要从根本的地方说起。前期就是先把网站的设计和网...
随着情人节的结束,2月份的设计圈干货大合集悄然更新。新的工具新的资源,依然是以往的分量,依然是相同的味道。和过去的合集相似,免费的素材、工具、服务占据了列表中9成的...
每个网站都是由不同功能不同类型的页面构成的,当用户打开错误链接的时候,网站的404页面就派上用场了。一个可靠的404页面在告知用户他们走错地方的同时,还应当引导用户继续浏...
今天来给大家讲讲如何用Axure实现上下滚动效果。 如何实现上下滚动效果: 让内容在显示区域滚动; 内容面板没有接触到顶部时,让内容面板移动至顶部; 内容面板接触到顶部,没有接...
你还在加班为每一个小功能的实现自己“码码码”吗?今天想早点下班的你,快来看看我最新发现的工具包吧!有了他们,这些功能你只需要直接用,或者用一点时间把他们优化的比作者创造时更...
最近在读Steve Krug的Dont Make Me Think,本文基本是自己的读书笔记第二篇,拿出来做下总结和大家分享一下。想看第一篇的小伙伴,可点击查看。 今天的主要内容是介绍一下Web设计中导航...
加载的作用在于缓解用户的等待焦虑,同时及时的向用户反馈当前的系统状态,以提升产品的用户体验。 什么是加载?为什么需要加载? 加载如同反馈,在人机交互中,用户与界面的...
最近在读Steve Krug的Dont Make Me Think,本文基本是自己的读书笔记,拿出来做下总结和大家分享一下。 本书的核心和主要内容很简单,就是书名:Dont Make Me Think(别让我思考),今天的主...
关于交出一份另人满意的设计稿,本文作者结合一些案例来分享了三点技巧。enjoy~ 去年对于美国最大的消息应该是:2016年11月9日,唐纳德特朗普已获得276张选举人票,超过胜选所需的...
这是一个关于焦虑的故事。 对于UX设计,你不必知道一切。我发现自己经常这样对别人说。在用户体验设计中,你不需要成为所有可能的垂直领域中的专家。当然,你可能也做不到。...