文 / 大话小数
1953年,英国科学家Edward Colin Cherry在研究注意机制(attention mechanism)时提出了著名的”鸡尾酒会”问题(Cocktail Party Problem):在鸡尾酒会中,同时存在着许多不同的声源,如多个人同时说话的声音、餐具的碰撞声、音乐声等 。然而,在这种充满噪音干扰的声学环境中,听者却能够听懂所注意的人说的目标语句 。
“鸡尾酒会”问题从提出之日起便一直是神经学、心理学、计算机等领域令人着迷的研究课题 。而近年来,随着智能AI设备广泛融入日常生活,如何让机器像人那样在复杂听觉环境下处理目标人物所说的目标语句?这一问题越来越受到人们的重视 。
在银行、保险公司等金融机构中也存在“鸡尾酒会”问题,如在对客服务的场景中需要录制录音录像作为后期质检以满足监管政策的要求 。目前,各金融机构开始逐渐使用人工智能质检代替人工抽检来提高录音录像质检的效率及覆盖率 。在对录音录像进行人工智能质检的过程中,机器会使用自动语音识别技术(Automatic Speech Recognition)识别录音录像中的语音内容 。然而在对客服务录音录像的过程中,凡是在麦克风指向性拾音的范围内,所有声音都会被录制下来,使得声音中可能包括现场的噪声、其他人说话的声音、混响等干扰,这些干扰会严重影响质检识别的准确率 。
因此,语音分离是智能机器解决“鸡尾酒会”问题的第一步 。在语音识别的前端加上语音分离技术,把目标说话人的声音和其他干扰分开就可以提高语音识别系统的鲁棒性,这也是人工智能质检系统中不可或缺的一环 。
目前,根据语音干扰的不同,语音分离任务可以分为三类:
- 当干扰为噪声信号时,可以称为语音增强(Speech Enhancement)或语音降噪(Noise Suppression);
- 当干扰为其他说话人时,可以称为话者分离(Speaker Separation);
- 当干扰为目标说话人自己声音的反射波时,可以称为“解混响”(De-reverberation);
【酒吧常见的鸡尾酒 鸡尾酒会】1.传统语音分离算法
根据算法原理的不同形式,传统的语音分离算法可以分为基于信号处理的算法、基于分解的算法和基于规则的算法 。语音分离算法的具体描述及优劣势分析详见表1 。
- 单眼皮画眼线步骤图片 单眼皮眼线画法步骤
- 小学数学课堂的有效教学 小学数学课堂教学的有效性
- 风水乘生气 如何找到风水中的乘生气
- 霸王卸甲风水真的有吗 霸王卸甲风水图解
- 来宾风水图 来宾风水最好地方
- 风水与命理 风水决定人生的命运
- 风水靠山是什么意思 风水中的四大靠山
- 东阳最好的别墅区 东阳风水大师
- 什么样的香皂洗脸最好 用什么香皂洗脸好呢
- 卵巢囊肿这个病是怎么回事 卵巢囊肿是怎么来的
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
