全方面了解天猫精灵cc10功能 天猫精灵cc10配置参数表( 二 )


可不要小看这个改进 , 在接触过很多智能音箱的用户后 , 我能够深刻感受到这种改进的意义 。 其实在家里 , 除了孩子能够一遍遍不厌其烦地喊出唤醒词之外 , 成人其实是不愿意去做这种重复性操作的 , 特别有家中有客人的情况下 , 更是不能像孩子一般“放飞自我”的 。 所以 , 在检测到人脸靠近后 , 通过提取嘴唇的动作信息 , 天猫精灵能更聪明地辨认出谁想跟它交流 , 让人感受到不同以往的亲和力 。
解读多模态交互

全方面了解天猫精灵cc10功能 天猫精灵cc10配置参数表

文章插图

除了天猫精灵的设计团队外 , 近年来我也接触过很多智能音箱品牌的设计团队 , 甚至是产业链上端的人工智能开发的团队 。 很多设计师都认同扩展交互模式对于提升智能家居使用体验的好处 , 但关于多模态交互的研究更多停留在学术研究层面 。
纵观近两年的智能音箱产品 , 交互方式依旧有限 , 基本停留在语音、触控之上 , 而且业界的研究步伐基本上停留在解决视觉、语音等单一模态的交互精准度问题上 。 形成这样的局面其实很好理解 , 在一个上升市场上 , 采用成熟方案便能挣到钱 , 似乎开发提升用户体验的新功能便不那么必要 。 但是 , 在用户体验上能够大胆突破的无一不是行业中的佼佼者——比如拿出iPhone的乔布斯 。
用过这么多的智能音箱之后 , 我经常会感受到智能音箱不够聪明 。 答案其实很简单:在当前的人工智能水准下 , 单方面提升单一模态的识别准确度并不那么有效 , 特别是机器学习需要过程 , 用户使用习惯千差万别的情况下 。 以语音交互为例 , 并不是机器的计算力不够 , 而是机器不知道何时该“听” , 何时该“看” , 导致无法接收到有效的信息 , 才会给出“笨拙”的决策和反馈 。 以往我们总是通过唤醒词来提示机器 , 这样的交互不仅机械化 , 而且经常出现我上述提及的尴尬状况 。
在与天猫精灵团队过程中 , 他们的算法专家也一再提及 , 多模态交互正是通过融合视觉识别能力、语音识别能力以及上下文语义 , 把视觉和语音信息通过深度学习的方式进行融合然后输入到机器“大脑” , 进而做出综合性决策 。 其实这样的说法也很好理解:我们的大脑也不是通过单一方式与外界交互的 , 眼、耳、鼻、舌、皮肤无一不是感知外界的手段 。 比如当我们看到迎面而来的火车时 , 不仅要通过眼睛看到的 , 火车的汽笛声、提前到来的风压、脚下的震动无一不是判别的依据 。 身边比较近的例子便是4D影院带来的沉浸感比普通影院更强 。
所以在天猫精灵之上开启多模态“自然唤醒”的功能后 , 只需要盯着机器张嘴说话 , 天猫精灵会自动识别出用户的唇动、眼神朝向、表情动作等视觉信息 , 对照用户语音便能做出准确的反馈 , 而不需要唤醒词的帮助 。 虽然真实生活场景中 , 还会受到人脸距离、光线等因素的影响 , 但是它开创了人机交互“自然唤醒”的一个新的里程碑 。
升级到5.0的AliGenie系统 , 正是智慧家庭领域的破冰者 。 这是智能音箱(智慧屏)上首次将唇动、手势、语音语义等多种形态的交互信息融合在一起 , 通过机器的深度学习和多模态感知的方式来理解用户的交互意图 , 并及时给出反馈的创举 。 而这样的创新诞生于阿里旗下其实并不奇怪 , “巨大投入+突破性思维”正是阿里巴巴一直以来在各个领域占据高点的基础 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。