史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步

过去三年 , DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目:用强化学习控制核聚变反应堆内过热的等离子体 , 如今它已宣告成功 。
>>>>
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
文章图片

DeepMind研究科学家David Pfau在论文发表后感叹道:「为了分享这个时刻我已经等了很久 , 这是 第一次在核聚变研究设备上进行深度强化学习的演示!」
可控核聚变、强人工智能、脑机接口是人类科技发展的几个重要方向 , 有关它们何时可以实现 , 科学家们的说法永远是「还需几十年」——面临的挑战太多 , 手头的方法却很有限 。
那么用人工智能去控制核聚变 , 是不是一个有前途的方向?这个问题可能需要由提出 AlphaGo 的 DeepMind 来回答了 。
最近 , EPFL 和 DeepMind 使用深度强化学习控制托卡马克装置等离子体的研究登上了《自然》杂志 。
论文地址:https://www.nature.com/articles/s41586-021-04301-9
首先 , 我们来思考一个问题:为什么要用人工智能控制核聚变?
托卡马克是一种用于容纳核聚变反应的环形容器 , 其内部呈现出一种特殊的混乱状态 。 氢原子在极高的温度下被挤压在一起 , 产生比太阳表面还热的、旋转的、翻滚的等离子体 。 找到控制和限制等离子体的方法将是释放核聚变潜力的关键 , 而后者被认为是未来几十年清洁能源的源泉 。
在这一点上 , 科学原理似乎是说得通的 , 剩下的就是工程挑战 。 参与该研究的瑞士等离子体中心(SPC)主任 Ambrogio Fasoli 表示:「我们需要能够加热这个装置 , 并保持足够长的时间 , 以便我们从中吸取能量 。 」
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
文章图片

在同样由聚变驱动的恒星中 , 仅依靠引力质量就足以将氢原子拉到一起并克服它们的相反电荷 。 在地球上 , 科学家们改为使用强大的磁线圈来限制核聚变反应 , 将其推到所需的位置 。 这些线圈必须仔细控制 , 以防止等离子体接触容器本身:这会损坏容器壁并减慢聚变反应 。
但每次研究人员想要改变等离子体的配置并尝试不同的形状 , 以产生更多的能量或更纯净的等离子体时 , 都需要大量的工程和设计工作 。 传统的系统是由计算机控制的 , 基于模型和模拟 , 但 Fasoli 表示传统方法「复杂且不一定能起到优化的作用」 。
DeepMind 控制团队负责人 Martin Riedmiller 表示:「人工智能 , 特别是强化学习 , 特别适合解决托卡马克中控制等离子体的复杂问题 。 」DeepMind 在论文中详细介绍了所提的可以自主控制等离子体的 AI 。
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
文章图片

技术概览
DeepMind 提出的模型架构如下图所示 , 该方法具有三个阶段:

  • 第一阶段:设计者为实验指定目标 , 可能伴随着随时间变化的控制目标;
  • 第二阶段:深度 RL 算法与托卡马克模拟器交互 , 以找到接近最优的控制策略来满足指定目标;
  • 第三阶段:以神经网络表示的控制策略直接在托卡马克硬件上实时运行(零样本) 。
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
文章图片

图 1:控制器设计架构(controller design architecture)的各组件示意图 。
在第一阶段 , 实验目标由一组目标指定 , 这些目标包含不同的期望特性 。 特性范围包括位置和等离子体电流的基本稳定 , 以及多个时变目标的复杂组合 。 然后 , 这些目标被组合成一个奖励函数 , 在每个时间步骤中为状态分配一个标量质量度量 。 该奖励函数还惩罚控制策略 , 让其不会达到终端状态 。 至关重要的是 , 精心设计的奖励函数将被最低限度地指定 , 从而为学习算法提供最大的灵活性以达到预期的结果 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。