所以 , 蜂鸣鸟音频实验室接下来重点要做的 , 就是在更基础的音频技术上进行突破 , 并从这个角度出发 , 改变钉钉、钉钉合作伙伴直至产业的现状 。
背后的具体技术路线 , 也已经可以从团队研发储备中推测出来 。
比如针对前文中远场拾音的麦克风阵列技术 , 这一技术主要负责声音信号的定位和提取 。 光是去年一年 , 冯津伟所在的团队与达摩院语音实验室的其他合作者一道 , 就在INTER-SPEECH等国际音频顶会上 , 发表了系列论文6篇 , 均与自研的“指向性差分麦克风阵列”技术有关 。
这项研究首次将麦克风声学特性和差分波束理论的优势进行结合 , 明显改善了语音低频拾音的鲁棒性 , 将差分波束在低频段的白噪声增益明显提升 , 并将远场拾音的语音识别准确率提升至行业领先水平 。
另外 , 以差分阵列为载体 , 冯津伟团队还和相关团队合作 , 提出了业界首个利用差分阵列计算空间方位信息 , 用于角色分离的技术框架 。 也积极参与了业界首个基于指向性麦克风阵列的大规模远场语音开源数据集建设 。
文章图片
还有语音3A算法 。
冯津伟团队会将达摩院Fullband 3A快速在钉钉落地 , 这项算法对会议拾音的3个核心能力做了深度优化:
- 优化主讲增益(AGC) 。 实测3米以外10dBFS的声音可增益至22dBFS , 距离主机5米的地方讲话 , 对方依然可以听得很清楚 。
- 优化回声消除(AEC) 。 能有效消除99%由扬声器外放声音经空间传播后产生的回声 , 人声失真控制在3%以内;实现房间自适应 , 可以智能检测房间混响 , 实现双讲透明 。
- 优化噪声抑制(ANS) 。 能够抑制特定的噪声 , 比如压制主讲人旁边的人声和会议室常见的空调、鼠标、键盘、翻书等噪音 , 确保传递出的声音更纯净 。
文章图片
技术储备显然已经就位 , 思路亦清晰明朗 。 从这个角度来说 , 钉钉加码音视频技术这一举动 , 似乎也值得被重新评估 。
返璞方能归真 无疑 , 元宇宙是当下最火科技热词 , 而钉钉的会议场景 , 又恰恰是巨头们纷纷看好的元宇宙应用阵地 。
技术、场景对口 , 又背靠阿里这样的大集团 , 乘概念之势提前抢占生态位 , 听上去倒也是业内的常规操作 。
但或许 , 恰恰是在概念满天飞之时 , 才更应该冷静思考 , 什么才是现有技术能直观改变用户体验之处 , 什么才是行业最急需的技术进步 。
钉钉单纯加码音视频 , 又着重选择了音频这个更不容易被“看”到的赛道 , 看似逆潮流 , 但反过来说 , 焉不是一种对自身定位的明确 , 一种技术底气的体现 。
文章图片
说到这里 , 吃瓜已毕:钉钉确实加码了音视频 , 但进军元宇宙——还不到这份上 。
话说回来 , 虽然不是直指元宇宙 , 但正如前文所说 , 音频等技术同样是保障元宇宙交互体验的基础 。 钉钉音视频将开放建生态作为重点 , 或许反而能在元宇宙的未来风向里站稳自己的生态位 。
而且 , 冯津伟也强调 , 有了音频实验室的中间环节 , 钉钉接下来与达摩院语音、视频、视觉、XR等相关实验室的合作将会更深入 , 毕竟同为研究人员 , 更有共同话题嘛(手动狗头) 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
