硬件测试 电脑硬件配置检测软件( 二 )


有效算力评测率先落地人工智能领域,全栈垂直优化价值凸显
从白皮书披露的情况看,计算中心有效算力评测方法与评测体系的标准化已经率先落地人工智能领域 。这不难理解,因为据权威机构预测,随着视频、图片等更多需要AI技术来处理的非机构化数据的大量涌现,未来10年通用算力将增长10倍,而人工智能算力将增长500倍,算力的增量将主要是AI算力 。
2021年8月26日,由中国电子技术标准化研究院牵头起草,中国科学院软件研究所、北京航空航天大学、华为技术有限公司等共同研制的T/CESA 1169—2021《信息技术人工智能服务器系统性能测试规范》发布,并于同年9月1日起实施 。该标准提出了有效算力指标公式,制定了面向人工智能计算中心的有效算力测试集,并给出了人工智能领域的有效算力测试方法,展现了CUE测试的独特价值 。

硬件测试 电脑硬件配置检测软件

文章插图

在人工智能领域,实际吞吐率代表人工智能服务器系统对特定训练或推理作业的有效计算能力 。提升有效计算能力可达到硬件系统扩容的效果 。有效算力的提升,软件方面的优化可包含如计算设备加速库中算子的优化、软件栈的轻量化等技术的应用 。比如对特定训练作业的有效计算能力,是单位时间内训练过程能消耗的样本数量(视觉类测试是图片数每秒、自然语言处理类测试是句数每秒) 。评价人工智能服务器系统的综合训练能力,可将多个代表性训练作业的有效计算能力综合起来,形成整系统的有效计算能力,即根据上述公式,计算整系统在给定任务集合S上,实际吞吐率与每任务基线吞吐率之比的加权几何平均 。
硬件测试 电脑硬件配置检测软件

文章插图
【硬件测试 电脑硬件配置检测软件】
从中可见,在一定规模规格算力集群系统上进行有效算力测试,通过优化硬件配置、基础软件版本以及应用参数等,可以实现全栈优化的效果,并根据实测工具获得最终性能数值 。这样的数值可以作为不同技术路线集群系统的性能对比,以牵引技术架构与软硬件设计的演进 。
换句话说,有效算力评测体现的是全栈垂直优化的价值,可真实反映计算中心资源使用情况,通过效能分析,指导计算中心面向业务场景,从全栈融合的角度——自机房、能源基础设施、硬件基础设施至软件基础设施各层的整体设计与建设,提高计算中心资源使用率 。
有效算力推动算力基础设施建设,人工智能计算中心建设提速
很显然,这样的评测指标和方法立足真实业务应用性能,覆盖了计算中心全生命周期,可用于评价计算中心建设的绿色性、先进性、实用性 。各地的建设主体可按照有效算力标准对计算中心进行系统化设计,牵引软硬件的深度协同,从全栈优化中获取更优的有效算力,实现从能耗比到算能比的演进,提升资源可分配的效能 。
当前,在数字经济高质量发展、“东数西算”、“双碳”目标等国策的综合牵引下,全国各地的人工智能计算中心、一体化大数据中心、超算中心等算力基础设施建设正如火如荼 。在这些大并行/并发集群系统特征更为明显的业务场景,有效算力评测体系整系统评测、全栈垂直优化的理念和方法将最能够更好地推动算力基础设施建设 。
资料显示,华为等业界伙伴也已基于该体系在计算中心的项目建设中取得显著成效 。早在2021年9月,面向人工智能计算中心、高性能计算中心,和一体化大数据中心等多种场景,华为已经推出集群计算解决方案,通过系统工程与架构创新,实现从能源效率指标PUE最佳到有效算力指标CUE最佳的跨越 。目前,该集群计算解决方案已用于武汉、西安、中原、成都、南京、杭州等各地的人工智能计算中心项目 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。