而百度作为国内唯一拥有最完整 AI 技术布局的公司 , 语音、视觉、NLP、知识图谱等核心技术均处于世界一流水平 , 这也为 AI 手语主播的“养成”打下了坚实的基础 。
2个月的极致努力
一群理工耿直 boy 的浪漫主义
在百度智能云团队眼中 , 打造 AI 手语数字人 , 不仅是技术上的创新与探索 , 更是在价值向善上的追寻与贡献 。 这样的思考维度 , 让团队从一开始就选择了一条艰难而正确的路 。
01 坚持自然手语语料 , 做就做难而正确的事
在百度智能云团队深入调研时发现 , 行业内大多数采用的都是手势汉语语料 , 现成的数据无需重新标注 , 只要让数字人将动作实现即可 , 交付风险小、速度快 。 但手势汉语在很多情况下会让听障观众产生理解歧义 , 被看作是“治标不治本”的选择 。
更好的技术路径其实是自然手语语料 , 面对顶级体育赛事的直播压力 , 数字人还需要增加体育新闻场景的特定语料 , 这样一来 , 数据需要重新采集标注 , 额外增加的成本难以预估 , 风险不可谓不小 。
两难面前 , 百度人一如既往的做事原则指引了方向 。 负责该项目的一位百度同学平静乐观地说:“咱们选自然手语语料 , 百度就是理工男耿直 boy , 简单可依赖 , 做就做难而正确的事 。 ”这句豪言瞬间破除了大家的踌躇不前 。
时间紧 , 任务重 , 意味着专业人员必须全力以赴 。 百度智能云在最短时间内组建了一只精锐部队——手语翻译专项团队 , 打通内部各技术部门 , 联合手语委专家 , 特殊教育专家等 , 打造了一套针对体育盛会直播特定场景的数据生产方案 。
同时 , 团队在跟手语老师、专家的交流过程中 , 学习到大量的行业知识 , 将这些知识成功融合到百度的模型效果和听障人群体的体验中 。
文章图片
▲与手语专家组举行多次会议
02 三大技术模型打造核心能力
大家平常了解的语言翻译 , 大多只是文本到文本或语音到文本的翻译 。 但手语数字人需要具备的翻译能力 , 则是进行语音到手语动作的转换 , 背后涉及到语音到文本 , 文本到手语符号 , 再到手语数字人动作的漫长过程 。
想要手语数字人“听得清”、“会翻译”、“会表达” , 就需要三大模型依次解决 。 ??
>> ASR 语音识别模型 , 让数字人“听得清”
百度基于成熟领先的 ASR 语音识别模型技术为手语数字人解决“听得清”的问题 , 准确性达到98%以上 , 成功帮助数字人听懂用户的话 , 面对中英文混杂、生僻字、方言等各种语音都能轻松搞定 。
正如视频中 AI 手语主播与朱广权亲切互动所呈现的那样 , 即使面对段子手朱广权的神级语速 , 百度高效、成熟的 ASR 语音识别模型也能轻松 Hold 住 。
文章图片
>> 手语翻译模型 , 让数字人“会翻译”
跟一般的中英文语言翻译模型不同 , 手语翻译模型在信息凝炼度和时延两个维度面临极其复杂的困难 。 其中精准度影响到数字人手势的精准 , 精简度影响到传递信息的及时性 。
为了做好自然手语语料 , 让数字人“翻译”更准确 , 百度团队联手天津理工大学 , 请来上百位听障学生做语料的数据标注 。 这是因为算法背后需要高质量的数据 , 由听障学生做标注 , 更能与听障人群感同身受 , 不错过每一个细节 , 反映出他们的切身需求 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
