IT之家 11 月 16 日消息 , 日前 , 微软发布最新 Azure 神经网络语音合成技术 Uni-TTSv3 多语言语音合成模型 。 与上一代语音合成模型相比 , Uni-TTSv3 语音合成保真度更高、速度更快、训练时间更短 , 更降本增效 。 借助 Uni-TTSv3 , 微软升级美语合成女声 Jenny 。 全新升级的 Jenny Multilingual Neural , 拥有跨语言能力 , 支持 14 个国家和地区的语言 。
文章图片
IT之家获悉 , 此外 , 基于 Uni-TTSv3 而构建的深度神经网络定制语音服务 , 也扩展了跨语言定制服务功能 , 客户只需提供一个语言的录音数据作为语料 , 即可训练定制模型同时说多个语言 。
Jenny Multilingual Neural 音频示例:
随着技术不断迭代 , 微软智能语音性能已能媲美真人 , 并支持超过 110 个国家和地区的语言 , 提供超过 270 个神经网络声音 。 为进一步拓宽语音使用场景 , 满足各行业客户的多元化需求 , 微软智能语音也在不断探索新的服务和能力:
- 跨语种语音技术需求:仅用一个音色就能生成同时覆盖全球用户的多语言应用需求 , 譬如在虚拟游戏中创建具有多语言能力的 NPC (Non-Player Character , 非玩家角色) , 在智能客服等场景中使用多种语言与用户交谈 , 提升用户体验 。
- 稳定高效的平台需求:使语音模型更加鲁棒(robust , 系统稳定性) , 即使在定制服务场景中 , 也可以不受外界环境影响 , 稳定、高效的处理不同类型的训练数据 。
保真度高
Uni-TTSv3 是非自回归语音合成模型 , 基于 FastSpeech 2(快速高质量语音合成模型) 构建 , 通过直接使用真实语音进行训练 , 并引入更多有关语速、语调、重音模式等语音变化信息 , 提高合成语音质量 。 经行业公认的、专业评估语音自然度的 MOS(Mean Opinion Score 平均意见评分)评测结果显示 , 智能合成女声 Jenny Multilingual Neural 的各语种语音平均评分达到 4.2 分以上(总分 5 分) , 语音保真度高 。
文章图片
▲ Uni-TTSv3 模型结构图
多语言通用
【微软发布最新语音合成模型Uni-TTSv3】Uni-TTSv3 是强大的多语言语音模型 , 在多语言和多说话人数据集上训练 。 Uni-TTSv3 通过训练来自 50 多个不同地域和口音的发音人在不同场景下录制的超过 3,000 个小时的语音数据 , 构建多语言通用基础语音模型 , 确保 AI 语音在语速、语调和重音模式等不变的情况下演绎多国语言 。
训练时间更短
Uni-TTSv3 授权 Azure 语音合成平台和自定义神经语音支持多语种语音 。 借助 Uni-TTSv3 升级自定义神经语音训练管道 , 支持客户用更短的训练时间创建高质量的语音模型 。 与上一代语音合成模型相比 , Uni-TTSv3 调优过程简单 , 尤其在声学训练部分 , 训练时间显著减少 50% 左右 , 更加降本增效 。
文章图片
▲ Uni-TTSv3 模型训练示意图
你可以点此链接试用体验 Uni-TTSv3 多语言语音合成模型 , 并使用微软 Azure 有声内容制作平台制作高质量合成语音 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
