微软亚洲研究院多模态模型NüWA:以自然语言创造视觉内容( 三 )


图2给出了两个例子 。 第一个例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”(一群人在看摩托车手骑四轮车)来补全黑色区域 。 已有工作 GLIDE 虽然可以补全 , 但是可以看到边界处有明显的白线 , 并且补全的区域比较模糊 。 NüWA 模型使用自回归的方式从左到右依次扫描生成 , 边界处相比于 GLIDE 更加自然 。 但是由于在补全黑色区域时看不到右侧的车轮 , 因此标准的 NüWA 模型存在补全边界衔接不对的问题 。 NüWA-LIP 修复了 NüWA 这一不足 , 它会提前预看整个图像 , 并创新地使用无损编码技术 , 然后再自回归地生成 , 因此可以做到黑色区域边界处衔接自然 , 并且补全区域也很清晰 。
在 FID 指标测试中 , 通过将修复图与原始图对比 , NüWA-LIP 在自然语言指示图像修复的任务上取得了最好分数 。 (注:FID 分数越低表示修复图像的质量越高 。 )
微软亚洲研究院多模态模型NüWA:以自然语言创造视觉内容
文章图片

表2:NüWA-LIP 在图像编辑任务中的 FID 指标达到10.5
NüWA-Infinity:让视觉创作趋于 “无限流”
除了图像修复之外 , 微软亚洲研究院在高分辨率、大图像的横向延展方面也进行了持续研究 , 提出了 NüWA Infinity 模型 。 顾名思义 , NüWA Infinity 可以根据给定的图像生成无限连续的高清“大片” 。 “一开始 NüWA 能够生成、编辑的图像和视频的分辨率相对较低 , 一般是256×256分辨率的小图 。 我们希望通过模型可以生成更高清的大图 , 形成更大的视觉冲击 , 满足不同创作者的实际需求 。 简单来说 , NüWA Infinity 会根据图像的不同层次内容扫描每一帧窗口 , 不断渲染形成高像素、连续的大图 , ”微软亚洲研究院研究员吴晨飞介绍说 。
想知道 Windows 经典桌面的右侧是什么样么?点击下图 , NüWA-Infinity 为你“揭开”神秘面纱 。 (请手机横屏查看)
微软亚洲研究院多模态模型NüWA:以自然语言创造视觉内容
文章图片

微软亚洲研究院多模态模型NüWA:以自然语言创造视觉内容
文章图片

段楠补充说 , “表面看 NüWA Infinity 解决了之前 NüWA 生成图片不高清 , 以及视频帧数有限的问题 。 但其实 NüWA Infinity 从底层形成了一套生成机制 , 不仅可以对图片进行延展式的生成 , 也可以应用于视频预测创作 , 而这也是我们接下来要攻克的研究课题 。 ”
自此 , NüWA-LIP 让机器接受语言指令自动修图成为了可能 , 而 NüWA-Infinity 则使得图像生成质量向高清、无限的真实世界迈进了一大步 。 按照这样的迭代创新步伐 , 未来创作者拥有一套趋于“无限流”的视觉创作辅助工具 , 指日可待 。
NüWA 多模态模型连锁反应:或将带来更多“杀手级”应用
未来 , 随着人工智能技术的发展 , 增强现实、虚拟现实等沉浸式的人机交互界面将会得到更广泛的应用 , 数字世界和物理世界的结合也将越来越紧密 。 而不同类型的多模态内容则是拉近虚拟空间与现实世界的强力胶 , 因此 , 虚拟内容的创建、编辑和交互将至关重要 。 NüWA 提供的视觉内容生成和编辑技术 , 为这些应用提供了无限的想象空间 。 当多模态技术成为未来人工智能应用发展的方向时 , 多模态模型将会为学习、广告、新闻、会议、娱乐、社交网络、数字人、脑机交互等领域带来更多的下一代“杀手级”应用 。
相关论文链接:

  • NüWA
    https://arxiv.org/abs/2111.12417
  • NüWA-LIP
    https://arxiv.org/abs/2202.05009

    特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。