谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了 _宣传

机器之心报道
机器之心编辑部

「当前的 AI 模型只做一件事。 Pathways 使我们能够训练一个模型，做成千上万件事情。」

在谈及当前的 AI 系统所面临的问题时，低效是经常被提及的一个。
谷歌人工智能主管 Jeff Dean 曾在一篇博文中写道，「今天的人工智能系统总是从头开始学习新问题 —— 数学模型的参数从随机数开始。就像每次学习一项新技能（例如跳绳），你总会忘记之前所学的一切，包括如何平衡、如何跳跃、如何协调手的运动等，然后从无到有重新学习。这或多或少是我们今天训练大多数机器学习模型的方式：我们不是扩展现有模型来学习新任务，而是从无到有训练新模型来做一件事（或者我们有时将通用模型专门用于特定任务）。结果是我们最终为数千个单独的任务开发了数千个模型。以这种方式学习每项新任务不仅需要更长的时间，而且还需要更多的数据。」
为了改变这种局面， Jeff Dean 等人去年提出了一种名叫「Pathways」的通用 AI 架构。他介绍说， Pathways 旨在用一个架构同时处理多项任务，并且拥有快速学习新任务、更好地理解世界的能力。

文章图片

该架构的特点可以概括为：

能够训练一个模型来做成千上万件事情；
当前模型只注重一种感官， Pathways 可做到多种；
当前模型密集且效率低下， Pathways 会把模型变得稀疏而高效。

在发布想法大半年之后， Jeff Dean 终于公布了 Pathways 的论文，其中包含很多技术细节。

文章图片

论文链接 https://arxiv.org/pdf/2203.12533.pdf
论文写道， PATHWAYS 使用了异步算子的一个分片数据流图（sharded dataflow graph），这些算子消耗并产生 futures ，并在数千个加速器上高效地对异构并行计算进行 gang-schedule ，同时在它们专用的 interconnect 上协调数据传输。 PATHWAYS 使用了一种新的异步分布式数据流设计，它允许控制平面并行执行，尽管数据平面中存在依赖关系。这种设计允许 PATHWAYS 采用单控制器模型，从而更容易表达复杂的新并行模式。
实验结果表明，当在 2048 个 TPU 上运行 SPMD（single program multiple data）计算时， PATHWAYS 的性能（加速器利用率接近 100%）可以媲美 SOTA 系统，同时吞吐量可媲美跨越 16 个 stage 或者被分割成两个通过数据中心网络连接的加速器岛的 Transformer 模型的 SPMD 案例。
以下是论文细节：
研究背景
在过去的十年里，深度学习在图像理解、自然语言处理等多个领域取得了显著的进展，这是 ML 模型、加速器硬件以及将两者联系在一起的软件系统协同进化的结果。这种协同进化带来的隐患是：深度学习系统可能过度专注于当前的工作负载，无法预测未来的需求。
PATHWAYS 是一个为分布式 ML 构建的新系统，剑指未来 ML 工作负载将需要的特定能力。当前，这些工作负载缺乏 SOTA 系统的支持。
例如，当今 SOTA ML 工作负载大多使用单程序多数据（SPMD）模型，该模型受到了 MPI 的启发，其中所有加速器都在同步运行相同的计算，加速器之间的通信由 AllReduce 等集体来描述。
但近年来，研究人员开始在 ML 计算中被 SPMD 掣肘。大型语言模型已经使用流水线并行而不是纯粹的数据并行来扩展；混合专家（MoE）等模型已经开始探索计算稀疏性，其最自然的表达方式是使用细粒度控制流和跨加速器的异构计算；系统设计者们已经开始采用巧妙的技术来在 MPI 风格的系统上执行流水线（pipelined）、同构 MoE 模型，但是， MPI 编程模型对于用户和底层系统来说都太受限制了。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。