neo noe neocomimi( 二 )


这一领域的研究自 20 世纪 90年 代就已开始,国外一些著名的研究机构,如麻省理工、卡内基梅隆、ATR 研究所等都异常活跃,但直到最近五六年来才开始逐渐商业化 。一是因为人脸数据库的丰富及完善,二是因为市场个性化需求的不断涌现 。互联网在其中功不可没,每天有大量的照片上传至网络,提供了可供学习、研究、训练的素材 。随着智能手机的普及,拍照效果优质的摄像头更加廉价易得,几乎成了人们的标配 。企业对于个性化精准运营的需求,日益强烈 。
相比国外,国内研究起步要晚一些,中科院、清华等院校在 20 世纪 90年 代末开始了相关研究 。人脸表情数据库也在逐渐完善和丰富,除了单一表情数据库,也出现了复杂表情数据库 。近年来也出现了阅面、Facethink 、海妖等要做情绪识别的创业公司 。

neo noe neocomimi

文章插图
相比于表情,语音是人们表达情感最直接、最有效、最自然的方式,通常包括语义信息(文本)和非语义的的声学信息(语音),在学界、商业领域均有研究与应用,代表性公司 AlchemyAPI(文本)、Beyond Verbal(语音)、EI Technologies(语音)也频频获得资本和大公司青睐 。
声学方面,最早的语音情感研究始于 20 世纪 80年 代,当时已经有学者研究如何使用统计特征法进行情感分类了 。90年 代初,MIT 多媒体实验室构建了一个 “情感编辑器”,收集人的语音信号,结合面部表情、生理信号,识别人类情绪 。直到进几年来,IEEE 推出专门的期刊,筹办专业竞赛,学界的研究才大幅增加 。中文的语音情感研究指导近十年来才开始,比较资深的研究人员主要集中在清华、浙大、东南大学以及中国科学院语言研究所等 。
这一领域的创业公司也要晚于表情识别出现 。直到 2012年,全球才出现了第一家这个领域的创业公司——Beyond Verbal 。这家公司于 2013年5月和7月获得两笔投资,2014年9月 再度获得330 万美元融资 。目前,已经有 161 万样本,API 产品可提示 11 个不同情绪组,包括愤怒、孤独感、自制、快乐和兴奋等 。这个领域的其他知名公司还包括了英国 EI Technologies、美国 MIT 的 Cogito 。
这些公司语音情感识别的实现路径也是提取特征,这些特征主要包括韵律特征、音质特征(共振峰、频谱能量分布,谐波噪声比等)、谱特征 。其中,韵律特征包括基频、语速、发音持续时间等,基本能够体现说话人的大部分情感信息,是最为广泛使用的方法 。近年来,也出现了将韵律特征与音质特征结合的识别方法 。
在生理信号情绪识别方面,国内外已经有不少研究 。这些信号主要有心电信号ECG、脑电信号EEG、皮肤电信号GSR、呼吸信号RSP、血流量脉冲信号BVP、肌电信号EMG、皮肤温度信号等 。近年来,随着可穿戴设备的普及,应用也随之增加 。从卖萌的日本 Neocomimi 猫耳朵,到知性的芬兰 “情绪花瓣” Moodmetric 智能手环,从服务企业的 Q Sensor 腕带,到治疗相关疾病的 SHORE 智能眼镜(与 Google Glass 结合),层出不穷 。
neo noe neocomimi

文章插图
不过,对大多数普通人来说,上面这些都还是陌生的术语 。事实上,除了少数用于情绪识别的可穿戴设备以外,这个领域的应用,尤其是表情识别应用,大多服务 B 端客户,或帮助商业客户精准了解用户情绪,提升广告投放的效果;或帮助医院客户管理、治愈自闭症;或帮助政府客户进行安全监控 。
情绪识别技术最早被应用于帮助自闭症患者适应社会,所以不少初创公司还有 “情怀” 的一面 。Affectiva就是起源于一个帮助自闭症患者的项目,创业前期创始团队就与前 CEO 因为这一问题发生过争论,最终前 CEO 黯然离场 。英国公司Realeyes不仅热衷于帮助自闭症患者,联手 Google Glass 开发应用,技术团队还表示很希望未来能做出帮助人变快乐的产品 。Eyeris等公司,则在研究将情绪识别与自动驾驶技术结合,减少不必要的交通事故 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。