T/SHSIC 0101-2023 智算中心算力性能评估测试方法
T/SHSIC 0101-2023 The evaluation and testing method for computing power performance of a smart computing center
基本信息
发布历史
-
2023年06月
研制信息
- 起草单位:
- 中国电信股份有限公司上海分公司、上海超级计算中心、上海华东电信研究院、 上海邮电设计咨询研究院有限公司、华为技术有限公司、上海大学、中国移动通信集团上海有限公司、 中国联合网络通信有限公司上海市分公司、北京邮电大学、上海燧原科技有限公司、昆仑芯(北京)科 技有限公司、上海天数智芯半导体有限公司
- 起草人:
- 董斌、张丹丹、张馨、张驰、支小莉、黄瑾、徐玉清、双锴、刘凯、彭莉、孙 继、沈阳、曹晓琦、童维勤、李康童、肖晴、姜恺、王思善、朱方、郑荣、代小菊、徐钰峰、朱云峰、 夏钊、马名旭、余雪松、胡铭珊
- 出版信息:
- 页数:27页 | 字数:- | 开本: -
内容描述
ICS35.240
CCSL70
团体标准
T/SHSIC0101—2023
智算中心算力性能评估测试方法
ComputingPowerPerformanceEvaluationandTestMethodofIntelligent
ComputingCenter
2023-06-14发布2023-06-30实施
上海市通信学会发布
T/SHSIC0101—2023
目次
前言..............................................................................III
1范围................................................................................1
2规范性引用文件......................................................................1
3术语和定义..........................................................................1
4测试规则............................................................................2
4.1测试环境要求....................................................................2
4.2训练测试规则....................................................................2
4.3推理测试规则....................................................................4
4.4评估测试规则....................................................................7
4.5测试报告要求....................................................................7
5基本性能指标测量....................................................................7
5.1峰值算力........................................................................7
5.2功耗............................................................................8
5.3加速比..........................................................................9
6应用性能指标测量...................................................................10
6.1训练场景.......................................................................10
6.2推理场景.......................................................................11
7有效性指标评估.....................................................................13
7.1算力功耗比.....................................................................13
7.2电能使用效率...................................................................13
7.3有效计算能力...................................................................14
8资源管理能力评估...................................................................15
8.1虚拟化能力.....................................................................15
8.2资源聚合能力...................................................................16
8.3资源管理能力...................................................................17
9生态支持评估.......................................................................18
9.1软件配套支持能力...............................................................18
9.2开放性支持能力.................................................................20
9.3产业生态支持...................................................................21
附录A(资料性)不同场景下可选测试模型和数据集..................................23
参考文献.............................................................................24
II
T/SHSIC0101—2023
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起
草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由上海市通信学会提出。
本文件由上海市通信学会归口。
本文件起草单位:中国电信股份有限公司上海分公司、上海超级计算中心、上海华东电信研究院、
上海邮电设计咨询研究院有限公司、华为技术有限公司、上海大学、中国移动通信集团上海有限公司、
中国联合网络通信有限公司上海市分公司、北京邮电大学、上海燧原科技有限公司、昆仑芯(北京)科
技有限公司、上海天数智芯半导体有限公司。
本文件主要起草人:董斌、张丹丹、张馨、张驰、支小莉、黄瑾、徐玉清、双锴、刘凯、彭莉、孙
继、沈阳、曹晓琦、童维勤、李康童、肖晴、姜恺、王思善、朱方、郑荣、代小菊、徐钰峰、朱云峰、
夏钊、马名旭、余雪松、胡铭珊等。
首期承诺执行单位:中国电信股份有限公司上海分公司、上海超级计算中心、上海华东电信研究院、
上海邮电设计咨询研究院有限公司、华为技术有限公司、上海大学、中国移动通信集团上海有限公司、
中国联合网络通信有限公司上海市分公司、北京邮电大学、上海燧原科技有限公司、昆仑芯(北京)科
技有限公司、上海天数智芯半导体有限公司。
III
T/SHSIC0101—2023
智算中心算力性能评估测试方法
1范围
本文件规定了智算中心在算力方面的基本性能指标测量、应用性能指标测量、有效性指标测量、资
源管理能力评估、生态支持评估等多维度性能指标及测试、评估方法。
本文件适用于智算中心的智能算力,包括人工智能加速卡、服务器到集群系统的测试、评估、选型、
部署和运营。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
3术语和定义
下列术语和定义适用于本文件。
3.1
智算中心intelligentcomputingcenter
智能算力生产中心,以融合架构计算系统为平台,以数据为资源,以强大算力驱动AI模型对数据进
行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务形式,向组织及个人进行供应。
3.2
标准数据集standarddataset
本文件指可以以公开的方式获得的,用于训练、验证和测试特定机器学习模型,并符合规范要求的
数据集。
3.3
软件工具开发包SDK
由第三方服务商提供的实现软件产品某项功能的工具包
3.4
资源管理resourcemanagement
对各种算力资源进行合理有效的复用、聚合、监控、调度和使用。
3.5
资源切分resourcesegmentation
通过虚拟化等手段将算力资源切分成不同的粒度,并灵活地按需分配。
1
T/SHSIC0101—2023
3.6
资源聚合resourceaggregation
对不同来源的算力资源进行有机融合,并创造出新的算力资源的过程。
3.7
资源监控resourcemonitoring
对算力资源被调度和使用情况的监控。
3.8
全栈服务fullstackservice
提供端到端的完整的从IaaS基础架构到PaaS平台再到通用型SaaS服务的算力解决方案。
3.9
第三方兼容third-partycompatibility
对第三方设备、开发框架等的兼容性。
3.10
模型迁移modelporting
将现有模型移植到另一种加速卡平台或转换为其他框架下可运行模型。
4测试规则
4.1测试环境要求
a)测试用例中涉及搭载人工智能加速卡的服务器、测试环境的配置上宜基本一致,需明确和记录
CPU主频、内存、存储、交换机型号,机房温湿度等;
b)测试使用到的测试工具和监控工具宜统一,测试过程、结果的数据采集方式一致;
c)测试用例算法模型和数据集由测试者根据目标选择,封闭模式使用业界公开的算法模型和数
据集(参考附录A),开放模式测试者基于自身行业领域,提供的自定义算法模型和数据集;
d)用于测试的数据集中80%用于训练测试用例,20%用于推理测试用例,其中用于训练用例的数据
集按照70%、15%、15%比例随机划分为模型训练的训练集、验证集和测试集。
4.2训练测试规则
4.2.1训练测试过程,应符合以下要求:
a)训练被测系统包括但不限于算法模型、数据集、智算中心硬件及配套软件;
b)训练测试过程,包含以下步骤:
1)测试准备:
•被测者于测试前,应准备好测试集;
•如需要,被测者可对数据进行必要的格式转化或封装;
•训练数据安置在计算中心内的存储机构上(特定存储服务器或节点的硬盘);
2)测试运行:
2
T/SHSIC0101—2023
•被测者按测试内容,编写并运行必要的训练代码(包含数据预处理、数据读入、训练、
结果模型格式转化与持久化),得到结果模型;
•训练期间,记录过程数据、按测试项(第5节、第6节、第7节)规定测量、计算指
标值、记录日志、生成结果数据;
•规则检查;
3)结果报送:
•被测者发送测试结果给测试者;
•测试者检查结果合规性;
•测试结束。
4.2.2训练测试,符合以下规定:
a)训练测试,不应实施以下操作:
1)在测试过程中进行硬件或软件改配;
2)使用本文件规定之外的训练集进行模型训练,也不应实施模型预训练及迁移学习策略;
3)训练测试过程中,对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载
(要求被测者实现的方法除外);
4)在数据准备过程中:
•替换数据集;
•减少数据集中的样本(除不足1batch的残余数据之外);
•除b)2)规定的操作生成的样本外,增加数据集中的样本;
•分析数据规律或预先提取、编码、保存样本特征;
•对数据做排序、索引或拆分操作;
5)在训练过程中改变指定的优化方法;
6)增加改变超参的层(如改变卷积核的维度);
b)训练测试,符合以下规定:
1)应编制并运行的训练测试代码:
•实现必要接口;
•使用测试工具提供的过程指标计算方法;
•使用测试工具提供的日志记录方法;
2)数据准备时:
•训练数据尺寸不同或不符合模型需要时,可实施尺寸调整操作;
•在不改变原输入图像(对视觉类场景)像素值的情况下,可实施插值操作,包含但不
限于:线性插值、双线性插值、区域插值等;
•训练集、验证集、测试集的划分比例,默认为75%、10%及15%,特殊的划分应符合场
景的特别规定;
•可利用分布式环境实施数据准备;
3)训练过程中:
•可使用可变学习率、训练批量大小,学习率、训练批量大小改变方法,由训练算法确
定;
•权重及偏置应以常量或随机值初始化;
•试验次数应符合场景要求;
4)实施分布式训练时:
3
T/SHSIC0101—2023
•并行训练,方式可包含但不限于模型并行、数据并行及混合并行;
•可使用本地硬盘、分布式文件系统(如NFS)或存储服务器存放训练数据。
4.2.3训练结果,符合如下要求:
a)训练结果模型与参考模型一致,符合以下要求:
1)对基于固定负载的测试,训练结果模型精度应符合场景的具体规定;
2)对基于固定负载的测试,训练模型脚本与参考脚本应定义一致的网络结构,训练模型脚本
不应导致以下情况的发生:
•多余或缺失的层;
•多余或缺失的神经元;
•改变的激励函数(对应层之间);
•多余或缺失的跨层连接;
•改变的池化方法(对应层之间);
b)训练过程应符合4.2.2b)的规定;
c)结果应包含以下信息:
1)测试环境信息,包括但不限于模型、标准数据集(或用户指定的行业数据集)、采用的开
发框架;
2)场景要求的准确率指标值;
3)训练日志按每个epoch输出。每个epoch对应的格式为:“[yyyy:MM:ddHH:mm:ss]–
[trial_number]–[epoch_number]–[accuracy]”。其中,第一项为日志输出时的时间戳,
第二项为训练次数(正整数),第三项为epoch数(正整数),第四项为当前测试集上的
准确率(依照场景要求的指标定义);
4)结果模型文件(含权重和结构信息);
5)规则检查结果。
4.3推理测试规则
4.3.1推理作业,应符合以下要求:
a)作业从测试系统发往被测系统,结果从被测系统发送回测试系统;
b)每个样本仅含有推理模块要求的必要(输入)参数,不含有额外信息;
c)推理作业遵循特定的到达模式,符合表1的要求;
表1作业到达模式
作业缓存b超时控制
运行趟数
到达模式a编号定义(允许/不门限
(趟)
允许)(s)
第i(i为正整数)个作业在第(i-1)个作业完成后
连续(单
0紧邻到达。作业(i-1)未完成或超时控制门限未达到不允许12
一)到达
时,作业i不发送
4
T/SHSIC0101—2023
固定周期到作业以固定周期T到达,一次到达n个作业(n为正
1允许14
达整数)
作业缓存b超时控制
运行趟数
到达模式a编号定义(允许/不门限
(趟)
允许)(s)
作业以泊松分布到达:
e
P(X=k)=
泊松分布到k−!λk
2λ允许14
达其中:k是某单位时间内到达的作业数(k为正整数),
(为正整数)是单位时间(如每秒)作业平均到
达次数
𝜆𝜆𝜆𝜆
泊松分布到达模式中,有j个短周期,每周期内有突
发性大量作业,周期持续一定时长TG(如5s-10s),
高峰到达3并维持一定并发度水平σ(σ为正整数,如σ>210允许160
个作业/
定制服务
推荐标准
- WS/T 663-2020 中小学生屈光不正筛查规范 2020-01-11
- YB/T 4793.1-2019 烧结矿竖冷窑冷却及显热高效回收设计规范 2019-12-24
- SL/T 246-2019 灌溉与排水工程技术管理规程 2019-05-31
- YB/T 4795-2019 栅格法铸余渣分隔技术规范 2019-12-24
- SL/T 777-2019 滨海核电建设项目水资源论证导则 2019-05-31
- SL/T 179-2019 小型水电站初步设计报告编制规程 2019-05-31
- SL/T 789-2019 水利安全生产标准化通用规范 2019-11-13
- YB/T 4794-2019 铁尾矿高浓度运行技术规范 2019-12-24
- SL/T 415-2019 水文基础设施及技术装备管理规范 2019-05-31
- SL/T 778-2019 山洪沟防洪治理工程技术规范 2019-05-31