详解AI加速器（四）：GPU、DPU、IPU、TPU…AI加速方案无限种可能( 三 ) _公司

文章图片

第二代 IPU 芯片图。图源 GraphCore
IPU 由 tiled 多核设计组成， tiled 架构由 MIT 于 2000 年代初研发，该设计描述了复制结构的 2D 网格，每个网格都结合了网络交换机、小型本地内存和处理核心。第一代 IPU 有 1216 个 tile ，目前第二代 IPU 有 1472 个 tile 。每个 IPU 内核最多可以执行 6 个线程，这些线程是包含其专有指令集架构 (ISA) 的代码流。
IPU 采用的是大规模并行同构众核架构。其最基本的硬件处理单元是 IPU-Core ，它是一个 SMT 多线程处理器，可以同时跑 6 个线程，更接近多线程 CPU ，而非 GPU 的 SIMD/SIMT 架构。 IPU-Tiles 由 IPU-Core 和本地的存储器（256KB SRAM）组成，共有 1216 个。因此，一颗 IPU 芯片大约有 300MB 的片上存储器，且无外部 DRAM 接口。连接 IPU-Tiles 的互联机制称作 IPU-Exchange ，可以实现无阻塞的 all-to-all 通信，共有大约 8TB 的带宽。最后， IPU-Links 实现多芯片互联， PCIe 实现和 Host CPU 的连接。
可重构数据流
Wave Computing、SambaNova 和 SimpleMachines 是三家推出加速器芯片的初创公司。其中 Wave Computing 成立于 2008 年，其使命是「通过可扩展的实时 AI 解决方案，从边缘到数据中心革新深度学习」，该公司由 Dado Banatao 和 Pete Foley 创立。一段时间以来，它一直处于隐身模式，从各种来源获得资金。
Wave Computing 的核心产品是数据流处理器单元（DPU），采用非冯诺依曼架构的软件可动态重构处理器 CGRA（Coarse grain reconfigurable array/accelerator）技术，适用于大规模异步并行计算问题。 2019 年前后， Wave Computing 针对边缘计算市场的算力需求，将 MIPS 技术与 Wave 旗下 WaveFlow 和 WaveTensor 技术相结合，推出 TritonAI 64 IP 平台。但不幸的是，它在 2020 年申请了破产保护。

文章图片

基于时间的 DPU 核映射。图源：Wave Computing
SambaNova 成立于 2017 年底，自那以来，该公司获得了由 Google Ventures ， Intel Capital 和 Blackrock 领导的三轮融资以及在美国能源部的 Laurence Livermore 和 Los Alamos 的部署。他们现在已经可以为一些客户提供新产品。

文章图片

SambaNova 的 RDU 框图。
SambaNova 正在为数据中心构建芯片和软件栈，目标是用 AI 进行推理和训练。其架构的核心是可重构数据流单元（RDU ， reconfigurable dataflow unit）。 RDU 芯片包含一组计算单元（称为 PCU）和暂存器存储单元（称为 PMU），它们以 2D 网格结构组织起来，并与 NoC 交换机连接。 RDU 通过一组称为 AGU 和 CU 的单元结构访问芯片外存储器。

文章图片

SambaNova 的关键用例。图源：HPCWire
SambaNova 的软件堆栈（称为 Sambaflow）采用高级 Python 应用程序（例如 PyTorch、TensorFlow ）并将它们降低为可以在编译时对芯片 PCU、PMU、AGU 和 CU 进行编程的表示。 SambaNova 展示了 RDU 架构可以运行复杂的 NLP 模型、推荐模型和高分辨率视觉模型。
SimpleMachines 由威斯康星大学的一群学术研究人员于 2017 年创立。该研究小组一直在探索依赖于结合冯诺依曼（逐条指令）和非冯诺依曼（即数据流）执行的异构数据路径的可重构架构。
该公司提供的数据均参考了在顶级学术会议和期刊发表的原创研究论文。指导架构原则有点类似于 SambaNova 正在做的事情，即开发一个可重新配置的架构，以支持非常规编程模型，实现能够应对高度变化的 AI 应用程序空间的灵活执行。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。