为了训练分割分支的同时并对新图像进行分割 , 研究人员使用编码器和优化将图像嵌入GAN的隐空间中 。 在先前的工作的基础上构建了一个编码器 , 能够将图像嵌入W+空间 。
训练编码器的目标函数由标准像素级L2和感知LPIPS重建损失组成 , 使用真实训练数据和GAN生成的样本进行计算 。 对于GAN样本 , 还使用已知的隐向量对编码器进行了显式规则化 。 在实际应用中 , 使用编码器初始化图像的隐空间embedding , 然后通过优化迭代重构隐代码w+ , 再次使用标准的重构目标函数 。

文章插图
EditGAN的核心思想是利用图像的p(x , y)联合分布和语义分割进行高精度的图像编辑 。 给定要编辑的新图像X , 可以将其嵌入到EditGAN的W+隐空间 , 或者也可以从模型本身采样并使用这些图像 。
分割分支(segmentation branch)将生成相应的分割 , 因为分割和RGB图像共享相同的隐W+编码 。 使用简单的交互式数字绘画或标签工具就可以根据需要的编辑手动修改分割 。
通过上述优化得到的隐空间编辑向量具有语义 , 但是常与其它属性相混淆 。 因此 , 对于要编辑的新图像 , 可以把图像嵌入到隐空间 , 然后通过应用先前学习的编辑向量直接执行相同的编辑操作 , 而无需再次进行优化 。

文章插图
在实验部分 , 为了EditGAN的图像编辑能力 , 研究人员使用MaskGAN引入的smile edit基准 。 将具有中性表情的脸被转换为笑脸 , 性能主要由三个指标衡量:
语义正确性:使用预先训练的笑脸属性分类器 , 测量面部编辑后是否显示笑脸表情;
Distribution-level Image Quality:使用Frechet Inception Distance(FID)和Kernel Inception Distance(KID)在400个编辑的测试图像和Celeba-HD测试数据集之间进行计算;
Identity Preservation , 利用预训练的ArcFace 特征提取网络 , 测量了应用编辑时对象的标识性特征是否保持不变 , 使用了原始图像和编辑图像之间的余弦相似性 。

文章插图
研究人员对多个基线进行了定量比较 , 并以标识保留、质量保留和目标属性准确性等指标对其进行了输出 , 同时需要较小幅度的注释训练数据 。

文章插图
可以看出EditGAN 是第一个GAN 驱动的图像编辑框架 , 它能够:
提供非常高精度的图像编辑
只需要很少的标注训练数据(不依赖于外部分类器)
可以实时交互运行
允许多个编辑操作的直接合成
对于out-of-domain 图像也有很好的效果
参考资料:
【第一个GAN驱动的图像编辑框架!多伦多大学华人博士提出EditGAN】https://arxiv.org/abs/2111.03186
- 梁欢英达老婆 梁欢英达
- AMOLED面板驱动芯片紧缺将持续至2022年
- 如何建设创新型国家,什么是创新驱动发展战略?
- 如何赚钱,如何赚钱学生党?
- 如何安装打印机驱动程序 如何安装Arch Linux
- win7无网卡驱动怎么办 Win7纯净版无网卡驱动出现问题如何解决
- 电脑更新显卡驱动后蓝屏 Win7旗舰版更新显卡驱动后蓝屏了怎么办
- win7无法安装u盘驱动 Win7旗舰版插U盘每次都要安装驱动程序怎么办
- Win7旗舰版如何禁用网络搜索驱动
- win7显卡驱动安装不上是什么原因导致 详解win7显卡驱动安装失败怎么办
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
