T/ISC 0056-2024 人工智能 加速卡技术要求及测试方法
T/ISC 0056-2024
基本信息
发布历史
-
2024年09月
文前页预览
研制信息
- 起草单位:
- 中国移动通信集团有限公司、中国互联网协会人工智能工作委员会、中国信息通 信研究院、北京智源人工智能研究院、上海燧原科技股份有限公司、中科寒武纪科技股份有限公司、上 海天数智芯半导体有限公司、南方电网人工智能科技有限公司、国能数智科技开发(北京)有限公司、 中国石油化工集团有限公司、中移(苏州)软件技术有限公司、华为技术有限公司、海光信息技术股份 有限公司、摩尔线程智能科技(北京)有限责任公司、新华三技术有限公司、曙光信息产业股份有限公 司、北京智谱华章科技有限公司、广州趣丸网络科技有限公司、北京百度网讯科技有限公司、中讯邮电 咨询设计院有限公司、浪潮通信技术有限公司
- 起草人:
- 冯俊兰、邓超、邓凯、曹峰、门春雷、金镝、秦日臻、董昊、马建华、李青懋、 靳震、曹汐、梅敬青、王思善、赵淑静、王辉、余雪松、胡铭珊、任正国、张晓东、赵学良、马德营、 张久仙、张亚丽、杨鹏霖、肖国峰、万晓兰、贺群、冯涛、张顺四、蒋晓琳、申佳、尹梦君
- 出版信息:
- 页数:34页 | 字数:- | 开本: -
内容描述
ICS31.200
CCSL56
团体标准
T/ISC0056—2024
人工智能加速卡技术要求及测试方法
Artificialintelligence—Technicalrequirementsandtestingmethodsfor
acceleratingcard
2024-09-03发布2024-10-03实施
中国互联网协会发布
T/ISC0056—2024
目次
前言................................................................................II
1范围...............................................................................1
2规范性引用文件.....................................................................1
3术语和定义.........................................................................1
4缩略语.............................................................................3
5概述...............................................................................3
6技术要求...........................................................................4
6.1加速卡通用技术要求.............................................................4
6.2训练卡技术要求.................................................................4
6.3推理卡技术要求.................................................................8
6.4加速卡安全性要求..............................................................11
7测试环境..........................................................................11
7.1测试对象......................................................................11
7.2测试组网......................................................................11
7.3系统配置......................................................................12
7.4环境条件......................................................................14
8测试方法..........................................................................14
8.1预置条件......................................................................14
8.2通用技术要求测试..............................................................14
8.3训练卡测试....................................................................17
8.4推理卡测试....................................................................22
8.5安全性测试....................................................................27
附录A(资料性)系统配置.............................................................29
A.1操作系统........................................................................29
A.2深度学习框架....................................................................29
A.3参考测试用例....................................................................29
A.3.1训练场景....................................................................29
A.3.2推理场景....................................................................30
I
T/ISC0056—2024
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件由中国互联网协会归口。
本文件起草单位:中国移动通信集团有限公司、中国互联网协会人工智能工作委员会、中国信息通
信研究院、北京智源人工智能研究院、上海燧原科技股份有限公司、中科寒武纪科技股份有限公司、上
海天数智芯半导体有限公司、南方电网人工智能科技有限公司、国能数智科技开发(北京)有限公司、
中国石油化工集团有限公司、中移(苏州)软件技术有限公司、华为技术有限公司、海光信息技术股份
有限公司、摩尔线程智能科技(北京)有限责任公司、新华三技术有限公司、曙光信息产业股份有限公
司、北京智谱华章科技有限公司、广州趣丸网络科技有限公司、北京百度网讯科技有限公司、中讯邮电
咨询设计院有限公司、浪潮通信技术有限公司。
本文件主要起草人:冯俊兰、邓超、邓凯、曹峰、门春雷、金镝、秦日臻、董昊、马建华、李青懋、
靳震、曹汐、梅敬青、王思善、赵淑静、王辉、余雪松、胡铭珊、任正国、张晓东、赵学良、马德营、
张久仙、张亚丽、杨鹏霖、肖国峰、万晓兰、贺群、冯涛、张顺四、蒋晓琳、申佳、尹梦君。
II
T/ISC0056—2024
人工智能加速卡技术要求及测试方法
1范围
本文件规定了人工智能加速卡的技术要求,包括人工智能加速卡的通用技术要求、人工智能训练卡
和推理卡的功能要求、性能要求、兼容性要求、可靠性要求、性能度量指标,以及人工智能加速卡的安
全性要求,并给出了人工智能训练卡和推理卡的测试环境及测试方法。本文件规定的技术要求主要面向
于数据中心或服务器使用的人工智能加速卡。
本文件适用于人工智能加速卡的生产方、评测方、使用方等对加速卡进行设计、测试、评估、选型
和应用。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T9813.3-2017计算机通用规范第3部分:服务器
GB/T17235.1-1998信息技术连续色调静态图像的数字压缩及编码第1部分:要求和指南
GB/T34986-2017产品加速试验方法
GB/T37092-2018信息安全技术密码模块安全要求
GB/T41867-2022信息技术人工智能术语
GB/T42018-2022信息技术人工智能平台计算资源规范
GM/T0008-2012安全芯片密码检测准则
GM/T0028-2014密码模块安全技术要求
YD/T3944-2021人工智能芯片基准测试评估方法
YD/T4398-2023电信行业云原生平台架构与技术要求
T/CESA1303-2023人工智能异构人工智能加速器统一接口
ISO/IEC15948:2004信息技术计算机图形和图像处理便携式网络图形:功能规范[Information
technology–Computergraphicsandimageprocessing–PortableNetworkGraphics(PNG):Functional
specification]
ITU-TH.264—2021通用视听服务高级视频编码(Advancedvideocodingforgenericaudiovisual
services)
ITU-TH.265—2021高效视频编码(Highefficiencyvideocoding)
3术语和定义
GB/T41867-2022、GB/T42018-2022和YD/T3944-2021界定的以及下列术语和定义适用于本文件。
为了便于使用,以下重复列出了GB/T41867-2022、GB/T42018-2022和YD/T3944-2021中的某些术语和
定义。
1
T/ISC0056—2024
3.1
人工智能artificialintelligence
人工智能系统(3.2)相关机制和应用的研究和开发。
[来源:GB/T41867-2022,3.1.2]
3.2
人工智能系统artificialintelligencesystem
针对人类定义的给定目标,产生诸如内容、预测、推荐或决策等输出的一类工程系统。
[来源:GB/T41867-2022,3.1.8]
3.3
人工智能服务器artificialintelligenceserver
信息系统中能够为人工智能应用提供高效能计算处理能力的服务器。
注1:以通用服务器为基础,配备人工智能加速卡后,为人工智能应用提供专用加速能力的服务器,称人工智能兼
容服务器。
注2:专为人工智能加速计算设计,提供人工智能专用计算能力的服务器,称人工智能一体机服务器。
[来源:GB/T41867-2022,3.1.3]
3.4
人工智能集群artificialintelligencecluster
遵循统一控制的,人工智能计算功能单元的集合。
注1:人工智能计算功能单元可包含人工智能加速处理器、人工智能服务器、人工智能加速模组等。
注2:当由人工智能服务器组成时,人工智能集群可称为人工智能服务器集群,其中的人工智能服务器可称为节点。
[来源:GB/T41867-2022,3.1.4]
3.5
人工智能加速卡artificialintelligenceacceleratingcard
专为人工智能计算设计、符合人工智能服务器硬件接口的扩展加速设备,简称“加速卡”。
[来源:GB/T42018-2022,3.6]
注:文中的人工智能加速卡主要面向数据中心或服务器场景使用。
3.6
人工智能训练加速卡artificialintelligencetrainingacceleratingcard
一种旨在加快人工智能模型训练过程的集成电路板卡,简称“训练卡”。具备高度并行处理能力,
可以显著提升人工智能模型的训练速度和效率。
3.7
人工智能推理加速卡artificialintelligenceinferenceacceleratingcard
一种旨在加快人工智能模型推理过程的集成电路板卡,简称“推理卡”。主要用于部署已经训练好
的模型并在实际应用中进行推断和预测。推理卡通常具备高效的计算能力和低延迟,可提升人工智能模
型在实时应用中的性能和响应速度。
3.8
批次大小Batchsize
单次处理时输入的样本(如图像,时间序列等)数量。
[来源:YD/T3944-2021,3.1.9]
2
T/ISC0056—2024
3.9
云原生cloudnative
是面向云应用设计的一种思想理念,充分发挥云效能的最佳实践路径,帮助企业构建弹性可靠、松
耦合、易管理、可观测的应用系统,提升交付效率,降低运维复杂度。
[来源:YD/T4398-2023,3.1]
4缩略语
ARM:高级精简指令集处理器(AdvancedReducedInstructionSetComputerMachines)
BF16:脑浮点数(BrainFloatingPoint)
CPU:中央处理单元(CentralProcessingUnit)
ECC:错误纠正码(ErrorCorrectingCode)
FP8:8位浮点数(8-bitFloatingPoint)
FP16:半精度浮点数(Half-precisionFloatingPoint)
FP32:单精度浮点数(Single-precisionFloatingPoint)
FPS:帧每秒(FramesPerSecond)
HBM:高带宽内存(HighBandwidthMemory)
INT8:8位四分之一精度整型(8bitsquarter-precisionINTeger)
LPDDR:低功率双数据率(LowPowerDoubleDataRate)
MTBF:平均无故障工作时间(MeanTimeBetweenFailure)
OAM:开放计算项目加速器模块(OpenComputeProjectAcceleratorModule)
PCIe:外设部件互联高速通道(PeripheralComponentInterconnectExpress)
RDMA:远程直接内存访问(RemoteDirectMemoryAccess)
RoCE:以太网上的远程直接内存访问(RDMAoverConvergedEthernet)
TF32:张量单精度浮点数(TensorFloat-32)
TFLOPs:一万亿次浮点运算(TeraFloating-pointOperations)
TFLOPS:每秒一万亿次浮点运算(TeraFloating-pointOperationsPerSecond)
TOPS:每秒一万亿次运算(TeraOperationsPerSecond)
TRNG:真随机数发生器(TrueRandomNumberGenerator)
5概述
人工智能加速卡是一种硬件设备,具有适配人工智能算法运算微架构、能够完成人工智能应用运算
处理的集成电路元件,可作为服务器的一部分,与其他组件(如CPU、存储设备等)协同工作,提供更
高效、更快速的计算能力。人工智能加速卡通常由多个处理器和内存组成,这些处理器能够高效地进行
矩阵计算,使其相比于CPU具有更加出色的计算能力和效率,可加速人工智能模型的训练和推理速度。
人工智能加速卡被广泛应用于人工智能领域,如计算机视觉、自然语言处理、语音识别等场景。人
工智能加速卡根据不同场景下对其功能和性能等的要求不同,通常可分为人工智能训练加速卡(简称训
练卡)和人工智能推理加速卡(简称推理卡)。本文件规定的人工智能加速卡主要为面向数据中心及云
端的产品。
本文件主要技术内容分为三个部分,包括技术要求、测试环境和测试方法。技术要求部分给出人工
智能加速卡的通用技术要求,训练卡和推理卡的功能要求、性能要求、兼容性要求、可靠性要求、训练
/推理性能度量指标,以及安全性要求。测试环境部分针对技术要求中的各项内容给出测试所需明确的
3
T/ISC0056—2024
测试对象、测试组网、系统配置和环境条件。测试方法部分针对技术要求部分提出的各项要求,分别给
出相应的测试方法。
6技术要求
6.1加速卡通用技术要求
人工智能加速卡的通用技术要求如下:
a)应内置生产厂家、产品型号、序列号、固件版本、显存信息等基础配置信息,且可被配置了加
速卡的设备(如服务器)操作系统正常读取;
b)应支持资产管理功能,可通过服务器远程管理系统读取加速卡的序列号信息,且该信息应与
配置了加速卡的设备操作系统读取的信息保持一致;
c)应支持固件版本管理功能,可通过服务器远程管理系统读取加速卡的固件版本信息,且该信
息应与配置了加速卡的设备操作系统读取的信息保持一致;
d)应支持功耗监控功能,可通过服务器远程管理系统读取加速卡的当前功耗信息,且该信息与
配置了加速卡的设备操作系统读取的功耗值差距应在5%以内;
e)应支持温度监控功能,可通过服务器远程管理系统读取加速卡的当前温度信息,且该信息与
配置了加速卡的设备操作系统读取的温度值差距应在5%以内;
f)应支持至少一种Linux操作系统,操作系统版本可参考附录A.1;
g)应支持至少一种满足信息技术应用创新要求的操作系统;
h)应具备与CPU的卡间通信功能;
i)应支持加速卡性能分析工具;
j)宜具备虚拟化功能,支持通过虚拟化软件对整张物理加速卡进行切分;
k)应具备电流过载或功率过载的保护机制;
l)应具备面向业务负载的动态功耗性能管理机制;
m)应具备针对错误或异常的处理及上报机制;
n)应具备云原生的接入能力,如支持K8s等技术。
6.2训练卡技术要求
6.2.1训练卡功能要求
训练卡的功能要求如下:
a)应支持BF16、FP16、FP32数据精度类型;
b)宜支持INT8、FP8、TF32数据精度类型中的一种或多种;
c)应支持混合精度训练;
d)应支持自定义算子开发功能,如矩阵乘法、卷积等;
e)宜支持T/CESA1303-2023中给出的算子类型;
f)应支持服务器内部训练卡的卡间高速互联通信功能;
g)应支持服务器之间训练卡间的高性能通信能力(如支持RoCE、InfiniBand等RDMA技术);
h) 应支持集合通讯库及典型的集合通信算法(如allruduce、allgather等),具备卡间集合
通信能力;
i)应支持数据并行、流水线并行、张量并行等并行策略中的一种或多种;
j)宜支持软件加速库,通过软件层面优化加速模型训练;
4
T/ISC0056—2024
k)宜直接具备或与解码器配合实现图像和视频的解码能力(支持ITU-TH.264-2021、ITU-T
H.265-2021等规定的视频格式中的一种或多种,支持GB/T17235.1-1998、ISO/IEC15948:2004
等规定的图像格式中的一种或多种)。
6.2.2训练卡性能要求
训练卡的性能要求如下:
a)峰值计算性能宜不低于200TOPS(INT8)、96TFLOPS(BF16)、96TFLOPS(FP16)、24
TFLOPS(FP32);
b)显存容量宜不小于32GB;
c)面向大模型等训练场景,显存带宽宜不低于600GB/s;
d)面向大模型等训练场景,节点内卡间互联聚合带宽宜不低于200GB/s(双向)。
6.2.3训练卡兼容性要求
训练卡的兼容性要求如下:
a)应支持至少一种深度学习框架;
b)应支持至少一种分布式训练框架;
c)应支持PCIe接口或OAM接口;
d)PCIe接口形态卡应支持PCIe4.0或以上版本接口协议中的至少一种;
e)OAM接口形态卡应支持OAM1.1或以上版本接口协议中的至少一种;
f)应支持HBM、GDDR、LPDDR等高带宽内存中的一种或多种。
6.2.4训练卡可靠性要求
训练卡的可靠性要求如下:
a)应支持模型断点续训功能,能够自动断点保存、故障诊断与上报、自动恢复训练等;
b)应通过3×24小时压力测试;
c)宜支持内存错误修复(如基于ECC);
d)宜具备在受控环境中的理想条件及非受控环境中的各种环境压力条件下的MTBF测试结果。
6.2.5训练性能度量指标
训练时间
训练时间是指在特定数据集上训练一个模型使其达到目标准确率时所用的时间(不包括预处理和模
型加载时间),一般采取运行多次去掉最低和最高的数字后取平均值。对于大规模预训练模型,可使用
模型在特定数据集上训练一轮或多轮所用的时间来衡量。训练时间的测量方法如表1所示。
表1训练时间测量方法
度量指标说明测量方法
a)训练开始前,串行并紧邻调用计时命令,获得时间点t1;
从训练开始命令调用到训练
训练时间b)训练退出时,串行并紧邻调用计时命令,获得时间点t2;
退出之间的时间间隔
c)计算训练用时:T=t2-t1。
5
T/ISC0056—2024
训练吞吐率
训练吞吐率体现了训练卡对选定的模型训练任务的计算能力。对视觉类测试,单位为图片数每秒
(images/s);对自然语言处理类测试,单位为句数每秒(sentences/s);对自然语言语句生成模型,
吞吐率为定长输入(句中单词或字的个数)、输出条件下,每秒处理的语素数量,单位是tokens/s。训
练吞吐率的测量方法如表2所示。
表2训练吞吐率测量方法
度量指标说明测量方法
a)统计每个训期i所使用的时间Ti,计算每训期平均时间T;
b)训练吞吐率计算公式为:
训练卡在训练过程中,每个训c)对文本生成类的训练任务,训练吞吐率为:
训练吞吐率期处理的数据量与时间的比
值。
其中:
numberof(*)表示计量特定数据集合所含的样本数量;
numberoftokens(*)表示计量特定数据集合所含的语素数
量。
训练功耗
训练功耗是指训练卡在执行模型训练任务期间,单位时间内所消耗的能源的值,单位为瓦(W)。
训练功耗的测量方法如表3所示。
表3训练功耗测量方法
度量指标说明测量方法
计算公式为:
在执行训练任务期间,周期性
训练功耗测量被测设备的负载功率,并
其中:
计算均值。
P:有效期内的平均输入功率;
Pi:有效期内得到的输入功率值为{p1,p2,…,PN};
N:次数。
训练能效
训练能效是指训练卡在模型训练过程中, 针对特定的数据精度,单位时间内消耗单位功耗,所完成
的计算量,单位为万亿次浮点运算次数每瓦(TFLOPs/W)。训练能效的测试方法如表4所示。
6
T/ISC0056—2024
表4训练能效测量方法
度量指标说明测量方法
计算公式为:
训练卡单位时间内消耗单位
训练能效其中:
功耗所完成的计算量。
sizeof(*):针对训练集,计算并转化为浮点运算次数,单位是TFLOPs;
T:每个训期的平均用时;
P:训练任务中每个训期的平均功率,可参照的方法计算。
全精度训练能效
全精度训练能效是指训练卡在模型训练过程中,针对所支持的全部数据精度的训练能效总和。全精
度训练能效的测量方法如表5所示。
表5全精度训练能效测量方法
度量指标说明测量方法
计算公式为:
训练卡所支持的全部数据精
全精度训练
度的训练能效总和,分为张量
能效其中:
算效和矢量算效。
n:支持的数据精度种类数量;
Ti:在第i种数据精度下进行模型训练的张量峰值算力,单位为GOPS;
Vi:在第i种数据精度下进行模型训练的矢量峰值算力,单位为GFLOPS;
Wi:在第i种数据精度下进行模型训练时的平均功耗。
多卡训练线性度
多卡训练线性度用来衡量加速卡在模型集群规模化训练下的可扩展性,可分为卡线性度和集群线性
度。多卡训练线性度的测试方法如表6所示。
表6多卡训练线性度测量方法
度量指标说明测量方法
选取某一模型训练任务,计算
计算公式为:
使用单台服务器节点的多张
卡并行训练时每秒处理的样
卡线性度 本数量,与使用单张卡训练时
其中:
每秒处理的样本数量之间的
V1:采用N张卡并行训练时每秒处理的样本数量;
比值,再用此比值除以卡的数
V2:采用单张卡训练时每秒处理的样本数量。
量。
7
T/ISC0056—2024
选取某一模型训练任务,计算
使用包含多台服务器节点及计算公式为:
多张训练卡的集群开展并行
训练时每秒处理的样本数量,
集群线性度
与使用单张卡训练时每秒处其中:
理的样本数量之间的比值,再V3:采用包含N张卡的集群训练时每秒处理的样本数量;
用此比值除以集群中卡的数V4:采用单张卡训练时每秒处理的样本数量。
量。
检查点保存和加载时间
检查点保存时间是指在模型训练过程中的任一时间点,将模型训练状态保存到存储设备所需要的时
间(包括模型参数和优化器等模型状态的存储时间);检查点加载时间是指将存储设备中的模型状态(包
括模型参数和优化器等模型状态)加载到训练卡上并开始模型正常训练所需要的时间,一般采取运行多
次去掉最低和最高的数字后取平均值。检查点保存和加载时间的测量方法如表7所示。
表7检查点保存和加载时间测量方法
度量指标说明测量方法
a)模型状态保存开始前,串行并紧邻调用计时命令,获得时间点t1;
将模型状态从训练卡保存到存
保存时间b)模型状态保存完成后,串行并紧邻调用计时命令,获得时间点t2;
储设备所需的时间
c)计算保存用时:T1=t2-t1。
a)模型状态加载开始前,串行并紧邻调用计时命令,获得时间点t3;
从存储设备中将模型状态加载
加载时间b)模型状态加载完成后,串行并紧邻调用计时命令,获得时间点t4;
到训练卡中所需的时间
c)计算加载用时:T
定制服务
推荐标准
- DB37/T 346-2003 植物线虫浅盘分离方法 2003-01-24
- DB37/T 358-2003 脱皮花生仁检验规程 2003-01-24
- DB37/T 349-2003 法国野燕麦鉴定方法 2003-01-24
- DB37/T 338-2003 克芜踪制剂中百草枯的测定方法 2003-01-24
- DB37/T 357-2003 水产品和畜、禽肉中氯霉素残留量检验方法-气相色谱法 2003-01-24
- DB37/T 351-2003 曼陀罗鉴定方法 2003-01-24
- DB37/T 353-2003 南方三棘果鉴定方法 2003-01-24
- DB37/T 347-2003 宽叶高加利鉴定方法 2003-01-24
- DB37/T 344-2003 花生中黄曲霉毒素残留量的检验方法-高效液相色谱法 2003-01-24
- DB37/T 352-2003 疏花蒺藜草鉴定方法 2003-01-24