最经典的落地案例 , 就是支持钉钉F1音视频一体机的打造 , 将语音3A算法(主要负责音频降噪和增益)应用到智能硬件中 。
除此之外 , 远程教育的“专递课堂”项目、钉钉音视频一体机“F2”项目……背后也均有冯津伟团队音频技术方案的身影 。
【这波钉钉搞音频实验室,真没蹭热点】结合两方面的信息 , 钉钉成立“实验室”这一看上去不合常情的举措 , 也就有了更为明确的解释:
蜂鸣鸟音频实验室主打应用型研究——研究方向与钉钉音视频的场景结合更为紧密 。
冯津伟博士表示 , 这其实也是云钉一体给钉钉带来的更深入的价值——从横向支持到走进来专项做业务 。
“因为钉钉这个独特的商业环境 , 每一项技术都直接能被用户感知到 , 所以蜂鸣鸟音频实验室的风格会在技术的理想主义和现实主义之间 。 我们的定位是研究‘领先半步到一步’的技术 , 既具有领先性 , 又能落地 。 ”冯津伟这样解释 。
并且具体到团队本身 , 研究基础早已具备 , 实验室成立亦能加速技术的聚拢和落地 。
文章图片
说到这里 , 最关键的问题也可以展开解答了:
这个时间节点 , 明确提出瞄准“下一代音视频形态研究” , 还和产品结合如此紧密 , 钉钉莫非真的如外界所猜测 , 要在微软Meta之后 , 加速冲向元宇宙了?
做领先半步到一步的技术
冯津伟博士的答案很明确:否 。
他指出 , XR是蜂鸣鸟音频实验室的一个研究方向 , 但实验室的核心目标还是围绕音频的基础能力建设与创新 , 最优先要做的 , 还是改善钉钉音视频的软硬件体验 。
甚至归纳起来时 , 钉钉蜂鸣鸟音频实验室成立的真实原因 , 比想象中要更加朴素——
无论是从自身业务角度、还是从整个行业来看 , 音频都是一块必须要补的技术“短板” 。
文章图片
在冯津伟看来 , 站在行业角度 , 音频技术在会议场景下其实还有很大的发展空间 。 甚至“音频技术研发的优先级应该大于视频技术” 。
他引用了音视频行业的一句名言:
No video, people talk; no audio, people walk.(即使没有视频 , 人们还能在会议中聊天;但没有音频的话 , 人们就只能散会了)而包括弱网场景、3D音频、个性化降噪在内的音频技术 , 其实更是下一代交互技术(如跟元宇宙紧密结合的XR)的核心体验要点 。
但目前的现状却是 , 像微软、Meta这样的大型互联网公司 , 在视频技术上已经有不少储备 。 相比之下 , 大部分会议软件在音频技术上 , 投入都相对较少 , 整体也还没有太大的动作 。
文章图片
一个最常见的场景就是开会 , 我们在开视频会议时 , 如果用的是手机、电脑自带的麦克风 , 就会发现稍远一点距离就听不清了;有几个人争论 , AI速记软件就傻傻分不清楚了 , 一堆看不懂的文字纪要出来了;如果会议室混响很大 , 别说AI速记软件 , 回音的影响下 , 人也是听不清了 。
这是音频研究上最基础的拾音问题 。 无论是视频会议 , 还是语音识别 , 除非对着麦克风说话 , 都会面临这项难题 。
实际上 , 远场拾音一直是业界的难点与痛点 , 挑战来自在闭空间中的混响、噪声、回波 , 其中去混响曾被美国工程院列为“当代未解决的十大工程问题之一” , 学术界和工业界已经研究了几十年 , 目前仍没有完美的解决方案 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
