图灵奖得主论文:“生成流网络”拓展深度学习领域( 三 )


图灵奖得主论文:“生成流网络”拓展深度学习领域

文章插图

如何估计自由能呢?让我们考虑条件式 GFlowNet 的一种特殊情况, 它允许网络估计自由能 F(s) 。 为此, 研究者提议训练一个条件式 GFlowNet, 其中条件输入 x 是轨迹中较早的状态 s 。
状态条件式 GFlowNet 的定义如下, 并且将 F(s|s)定义为 conditional state self-flow 。
图灵奖得主论文:“生成流网络”拓展深度学习领域

文章插图

研究者表示, 使用 GFlowNet 可以训练基于能量的模型 。 具体地, GFlowNet 被训练用于将能量函数转换为逼近对应的采样器 。 因此, GFlowNet 可以用作 MCMC 采样的替代方法 。
此外, GFlowNet 还可用于主动学习 。 Bengio et al. (2021)使用的主动学习方案中, GFlowNet 被用于对候选 x 进行采样, 其中研究者预计奖励 R(x)通常很大, 这是因为 GFlowNet 与 R(x)成比例地采样 。
多流、分布式 GFlowNets、无监督 GFlowNets 和帕累托 GFlowNets
与分布式强化学习类似, 非常有趣的一点是, 泛化 GFlowNets 不仅可以捕获可实现的最终奖励的预期值, 还能得到其他分布式统计数据 。 更一般地讲, GFlowNets 可以被想象成一个族(family), 其中每一个都可以在自身流中对感兴趣的特定的未来环境结果进行建模 。
下图为以结果为条件的(outcome-conditioned)GFlowNet 的定义:
图灵奖得主论文:“生成流网络”拓展深度学习领域

文章插图

在实践中, GFlowNet 永远无法完美地训练完成, 因此应当将这种以结果为条件的 GFlowNet 与强化学习中以目标为条件的策略或者奖励条件颠倒的强化学习(upside-down RL)同等看待 。 未来更是可以将这些以结果为条件的 GFlowNets 扩展到随机奖励或随机环境中 。
此外, 训练一个以结果为条件的 GFlowNet 只能离线完成, 因为条件输入(如最终返回)可能只有在轨迹被采样后才能知道 。
图灵奖得主论文:“生成流网络”拓展深度学习领域

文章插图

论文的完整目录如下:
图灵奖得主论文:“生成流网络”拓展深度学习领域

文章插图

图灵奖得主论文:“生成流网络”拓展深度学习领域

文章插图

2021 NeurIPS MeetUp China
受疫情影响, NeurIPS 2021依然选择了线上的形式举办 。 虽然这可以为大家节省一笔注册、机票、住宿开支, 但不能线下参与这场一年一度的学术会议、与学术大咖近距离交流讨论还是有些遗憾 。
我们将在NeurIPS官方支持下, 于12月11日在上海博雅酒店举办线下NeurIPS MeetUp China, 促进国内人工智能学术交流 。
2021 NeurIPS MeetUp China将设置 Keynote、圆桌论坛、论文分享、 Poster和企业招聘等环节, 邀请顶级专家、论文作者与现场参会观众共同交流 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。