chris cole alex丶kael( 六 )


上面提到的这一切成果的重要基础都是在 1991 年奠定的 。后来,在慕尼黑工业大学和(当时还是私人的)瑞士 Dalle Molle 人工智能研究所(IDSIA)的基础基金以及我在 1990 年代和 2000 年代早期的「神经网络寒冬」中从瑞士、德国、欧盟获得的公共基金的资助下,我的团队还研发出了「LSTM&CTC」等成果,试图在几乎没有人对神经网络感兴趣的年代保持这一领域的活力 。
在此,我要特别鸣谢 Kurt Bauknecht、Leslie Kaelbling、Ron Wiliams 以及 Ray Solomonoff 等教授,他们对我提交的基金申请的积极评价在很大程度上帮助我自从 1990 年代以来获得了来自 SNF 的资金支持 。
5. 通过对抗生成神经网络实现人工好奇心(1990)
当人类与自己身处的世界交互时,他们会学着预测自己行为的后果 。人们有很强的好奇心,会通过设计实验得出新的数据,并且可以从中学到更多知识 。1990 年,为了构建具有好奇心的人工智能体,我提出了一种新型的主动无监督学习(或自监督学习)算法[AC90, AC90b] 。该方法以一个极小极大博弈为基础,其中一个神经网络最小化另一个神经网络最大化的目标函数 。现在,我把这种两个无监督的对抗性神经网络之间的博弈称为对抗性好奇心 [AC19],以区别于我们后来自从 1991 年提出的人工好奇心 (详见第六章) 。
然而,对抗性好奇心的工作原理如何呢?我们不妨将第一个神经网络成为控制器 C,C 以一定概率生成可能对某个环境产生影响的输出 。第二个神经网络被称为世界模型 M,M 可以预测环境对于 C 的输出做出的反应,其使用梯度下降法最小化其误差,从而逐渐成为更好的预测器 。然而,在一个「零和博弈」中,C 试图找到的是使得 M 的误差最大的输出 。因此,M 的损失就是 C 的增益 。
也就是说,C 的目的是生成新的输出或者实验来产生仍然能使 M 感到新奇的数据,直到生成的数据对于 M 来说十分熟悉、最终变得「无聊」 。近年来,研究者们基于这个原理进行的相关总结和拓展请参阅 [AC09] 。
因此,在 1990 年,我们已经拥有了无监督(或自监督)的同时满足「生成式」和「对抗性」(这里我们采用很久以后在 2014 年的 [GAN1] 中出现的术语)两大特征的神经网络,它们生成能够产生新数据的实验输出,这不仅仅适用于静态的模式,同时也可以用于模式的序列,甚至是通用场景下的强化学习 。
当下火热的对抗生成网络(GAN)[GAN0][GAN1](2010-2014) 是对抗性好奇心[AC90] 的一种应用,其中环境仅仅返回 C 目前的输出是否属于一个给定的集合 [AC19] 。
此外,请注意:对抗性好奇心 [AC90, AC90b]、GAN[GAN0, GAN1] 以及对抗可预测性最小化(详见第七章)是密切相关的概念 。而它们与早期的对抗性机器学习问题的设定 [GS59][H90] 又很不一样,早期的对抗性机器学习既不涉及无监督神经网络,也不涉及数据建模,而且也没有使用梯度下降方法 [AC19] 。
6. 通过最大化学习进度的神经网络实现人工好奇心(1990)
最近,有许多综述文章 [AC06][AC09][AC10] 对关于 1990 年提出的对抗性好奇心(AC1990,详见第 5 章)的改进进行了总结 。在这里,我将重点介绍1991 年 [AC91][AC91b] 对对抗性好奇心的第一个重要改进 。
在这份工作中,AC1990 的世界模型 M 的误差(需要最小化,详见第五章)是控制器 C 的奖励(需要最大化) 。这在许多确定性的环境中是一种非常好的策略 。然而,在随机化的环境中,这种策略则可能失效 。C 可能会学着重点关注 M 总是由于随机性或由于其计算限制而得到高预测误差的情况 。例如,一个由 C 控制的智能体可能会面对一个播放着极其难以预测的白噪声的电视屏幕而束手无策 [AC10] 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。