贾扬清演讲实录：一个AI开发者的奇幻漂流( 二 ) _模型

文章图片

尤其是当超大规模的模型变得越来越受关注，往下我们需要有更加好地AI编译环境，让软件和硬件更容易地迭代和开发。往上我们会需要有更好的系统和模型，或者说系统和算法工程师更好的相协同工作模式，让我们构建起分布式的模型以及规模化训练。在今天接下来的讲座当中，我们就会讲到在AICompiler 以及在分布式框架Whale等等上面做的工作和思考。
最后我们来说人的故事。我们以前在做代码开发的时候，有GitHub等非常成熟的模式。 AI要管的东西更多，有数据、有算法代码、有模型、有计算资源、有训练跟推理的资源。怎么样来让一个开发平台从以前的单机，到今天的多机多卡多个数据中心的情况下，依然能够高效地管理调度这些资源。今天后面会跟大家讲到，我们在AIdesigner 或者说AI 工作空间上的思考，用一个统一的空间来拉通我们的算法迭代，数据管理、模型训练和最后模型上线。
AI 的痛苦在于本质上今天AI还没有范式。 AI 不是一个产品，这句话有两层含义，一方面它不光是一个单点的产品，而是一系列能力的组合；AI 今天非常强烈地需要标准软件和定制化服务的协同。
我们在云栖大会推出的阿里灵杰就是这样的一个大数据和AI一体化的产品体系。为什么要推出灵杰呢？我们非常强烈地意识到，我们需要把软件、定制化服务、以及开发者效率都结合起来。灵杰做的一件事情是，它将可以标准化的部分标准化，将没法标准化的部分用一系列工具和组件的方式提供出来，让开发者在定制上层服务的时候，能够更加便捷易用。
【贾扬清演讲实录：一个AI开发者的奇幻漂流】我们可以把灵杰理解为四层产品的有机组合。它的最底层是基于云基础设施，比如像计算、存储、网络等等这一些我们耳熟能详的基础产品。和以前不同的是，我们并不需要思考，从资源视角怎么样搭一个集群、加一堆GPU、或者装一个硬盘。今天我们可以从需求视角来考虑，需要多大存储、怎样的异构计算、怎样通过云原生容器化等等方式把资源简单地链接起来。这是最底层基础设施给我们提供的简单化、便捷化的能力。

文章图片

在上面是大数据和AI一体化的平台。我觉得它是灵杰的核心部分。首先它给我们提供了大数据跟AI结合的能力。比如MaxCompute平台已经可以调用10万台集群来支持2000万张表跟千万级任务调度，它的Serverless模式代表着我们可以在非常小的，例如一张表、一个数据集、一个GB、一个任务开始就用零公摊成本来使用几乎无限的弹性。
和大家分享一个数字。过去我们经常有一个感觉，觉得大数据和AI是分开的。当我们在看阿里集团内自己的应用情况时，在大数据平台上，有超过30%的数据计算都已经应用于AI模型训练，这里都还没有计入AI推理这块。通过AI Compiler和Whale软件框架，我们今天也在进一步提升AI计算效率。
当然平台的另一个重点是提升开发效率。在今天后面的分享中，我们会向大家介绍在大数据和AI一体化的平台上，如何用AI 工作空间这样的轻量化平台，以及PAI-DSW、PAI-DLC、PAI-EAS等组件来打通数据、训练、资源管理、推理和服务等等这一系列挑战。
工程平台最终目的是为了实现算法创新。想象一下8年前我们要做一个AI应用的时候应该怎么办？基本上就是我们自己去搜集数据，然后训练一个模型，再非常痛苦地把这个模型在自己手工搭建Web Server里面透出出来。还要时刻担心，如果没有人来访问这个模型，是不是资源就浪费了，如果太多人来访问，是不是服务稳定性又会打折扣。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。