GB/T 45288.2-2025 人工智能 大模型 第2部分:评测指标与方法

GB/T 45288.2-2025 Artificial intelligence—Large-scale model—Part 2:Testing and evaluation for metrics and methods

国家标准 中文简体 现行 页数:26页 | 格式:PDF

基本信息

标准号
GB/T 45288.2-2025
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2025-02-28
实施日期
2025-02-28
发布单位/组织
国家市场监督管理总局、国家标准化管理委员会
归口单位
全国信息技术标准化技术委员会(SAC/TC 28)
适用范围
本文件确立了人工智能大模型的评测指标,描述了人工智能大模型的评测方法。
本文件适用于模型提供者、应用服务者和应用消费者等对大模型能力进行评估与测试,也适用于指导大模型的设计、开发、应用。

发布历史

研制信息

起草单位:
中国电子技术标准化研究院、上海人工智能创新中心、中国科学院自动化研究所、蚂蚁科技集团股份有限公司、北京航空航天大学、清华大学、杭州联汇科技股份有限公司、中国铁建股份有限公司、北京百度网讯科技有限公司、中国南方电网有限责任公司、中国移动通信有限公司研究院、国家能源投资集团有限责任公司信息技术分公司、华为云计算技术有限公司、上海商汤智能科技有限公司、阿里云计算有限公司、深圳市腾讯计算机系统有限公司、北京奇虎科技有限公司、北京智源人工智能研究院、中铁第五勘察设计院集团有限公司、北京智谱华章科技有限公司、浪潮云信息技术股份公司、科大讯飞股份有限公司、中国电力科学研究院有限公司、天津大学、中国电信股份有限公司研究院、中央广播电视总台、北京百川智能科技有限公司、同方知网数字出版技术股份有限公司、北京中关村实验室、上海市人工智能行业协会、南方电网科学研究院有限责任公司、西安电子科技大学、西南科技大学、哈尔滨工业大学、中国科学院软件研究所、北京大学武汉人工智能研究院、青岛海信电子技术服务有限公司、北京格灵深瞳信息技术股份有限公司、北京工业大学、南方电网人工智能科技有限公司、中国电信集团有限公司、天翼云科技有限公司、北京软件产品质量检测检验中心有限公司、北京世纪好未来教育科技有限公司、北京小米移动软件有限公司、北京智芯微电子科技有限公司、中国移动通信集团有限公司、云知声智能科技股份有限公司、北京中关村科金技术有限公司、青岛海尔科技有限公司、杭州海康威视数字技术股份有限公司、京东方科技集团股份有限公司、昆仑数智科技有限责任公司、浪潮电子信息产业股份有限公司、浪潮软件科技有限公司、马上消费金融股份有限公司、鹏城实验室、平头哥(上海)半导体技术有限公司、麒麟合盛网络技术股份有限公司、山东浪潮科学研究院有限公司、山东省人工智能研究院、上海计算机软件技术开发中心、上海人工智能研究院有限公司、北京安声科技有限公司、上海燧原科技股份有限公司、上海天数智芯半导体有限公司、深圳前海微众银行股份有限公司、深圳思谋信息科技有限公司、西北工业大学、西门子(中国)有限公司、云从科技集团股份有限公司、上海文鳐信息科技有限公司、浙江大华技术股份有限公司、万达信息股份有限公司、上海玄武信息科技有限公司、中移互联网有限公司、四川长虹电子控股集团有限公司
起草人:
董建、徐洋、鲍薇、陈恺、汪群博、马骋昊、孙曦、宋文林、刘祥龙、陶建华、赵天成、黄现翠、孙传兴、马珊珊、李栋、于佃海、龙云、刘伟东、经迪春、郑子木、蒋慧、彭骏涛、胡智超、张向征、杨熙、郑中、冯涛、郑佳佳、刘聪、周飞、陈晰、李建欣、熊德意、杨明川、王峰、梅剑平、陈炜鹏、张宏伟、张松阳、彭晋、刘静、刘艾杉、王嘉凯、高东辉、马同森、张天霖、高铁柱、陈曦、梁志宏、何刚、俞文心、杨沐昀、孟令中、朱贵波、王金桥、郑若琳、沈芷月、聂简荻、任海峰、石羡、吴玺宏、刘尚、刘卫卫、石聪聪、丁鹏、刘小欧、项超、薛德军、王龙跃、刘微、胡全一、孙浩源、孙林、赵必美、玄日成、赵春昊、索思亮、陈立明、蒋屹新、武姗姗、高鹏军、孔昊、薛云志、刘子韬、于磊、郑哲、邓超、梁家恩、崔明飞、鄂磊、任烨、张志刚、陈宏志、吴韶华、王珂琛、冯月、李睿、李晋伟、龙震岳、高慧、张旭、段强、单珂、陈敏刚、宋海涛、刘益帆、王思善、余雪松、李斌、张驰、张涛、生若谷、孙进、芮子文、孔维生、童庆、杨登峰、孙文庆、朱林、杨兰
出版信息:
页数:26页 | 字数:44 千字 | 开本: 大16开

内容描述

ICS35240

CCSL.70

中华人民共和国国家标准

GB/T452882—2025

.

人工智能大模型

第2部分评测指标与方法

:

Artificialintelligence—Large-scalemodel—

Part2Testinandevaluationformetricsandmethods

:g

2025-02-28发布2025-02-28实施

国家市场监督管理总局发布

国家标准化管理委员会

GB/T452882—2025

.

目次

前言

…………………………Ⅲ

引言

…………………………Ⅴ

范围

1………………………1

规范性引用文件

2…………………………1

术语和定义

3………………1

缩略语

4……………………1

评测指标

5…………………1

理解能力评测指标

5.1…………………1

生成能力评测指标

5.2…………………8

评测方法

6…………………11

概述

6.1…………………11

评测数据集

6.2…………………………14

评测环境

6.3……………14

评测工具

6.4……………14

评测实施

6.5……………14

附录资料性评测指标计算方法

A()……………………17

客观评测方法

A.1……………………17

主观评测方法

A.2……………………18

参考文献

……………………21

GB/T452882—2025

.

前言

本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定

GB/T1.1—2020《1:》

起草

本文件是人工智能大模型的第部分已经发布了以下部分

GB/T45288《》2。GB/T45288:

第部分通用要求

———1:;

第部分评测指标与方法

———2:;

第部分服务能力成熟度评估

———3:。

请注意本文件的某些内容可能涉及专利文件的发布机构不承担识别专利的责任

。。

本文件由全国信息技术标准化技术委员会提出并归口

(SAC/TC28)。

本标准起草单位中国电子技术标准化研究院上海人工智能创新中心中国科学院自动化研究所

:、、、

蚂蚁科技集团股份有限公司北京航空航天大学清华大学杭州联汇科技股份有限公司中国铁建股份

、、、、

有限公司北京百度网讯科技有限公司中国南方电网有限责任公司中国移动通信有限公司研究院

、、、、

国家能源投资集团有限责任公司信息技术分公司华为云计算技术有限公司上海商汤智能科技有限公

、、

司阿里云计算有限公司深圳市腾讯计算机系统有限公司北京奇虎科技有限公司北京智源人工智能

、、、、

研究院中铁第五勘察设计院集团有限公司北京智谱华章科技有限公司浪潮云信息技术股份公司科

、、、、

大讯飞股份有限公司中国电力科学研究院有限公司天津大学中国电信股份有限公司研究院中央广

、、、、

播电视总台北京百川智能科技有限公司同方知网数字出版技术股份有限公司北京中关村实验室上

、、、、

海市人工智能行业协会南方电网科学研究院有限责任公司西安电子科技大学西南科技大学哈尔滨

、、、、

工业大学中国科学院软件研究所北京大学武汉人工智能研究院青岛海信电子技术服务有限公司

、、、、

北京格灵深瞳信息技术股份有限公司北京工业大学南方电网人工智能科技有限公司中国电信集团

、、、

有限公司天翼云科技有限公司北京软件产品质量检测检验中心有限公司北京世纪好未来教育科技

、、、

有限公司北京小米移动软件有限公司北京智芯微电子科技有限公司中国移动通信集团有限公司云

、、、、

知声智能科技股份有限公司北京中关村科金技术有限公司青岛海尔科技有限公司杭州海康威视数

、、、

字技术股份有限公司京东方科技集团股份有限公司昆仑数智科技有限责任公司浪潮电子信息产业

、、、

股份有限公司浪潮软件科技有限公司马上消费金融股份有限公司鹏城实验室平头哥上海半导体

、、、、()

技术有限公司麒麟合盛网络技术股份有限公司山东浪潮科学研究院有限公司山东省人工智能研究

、、、

院上海计算机软件技术开发中心上海人工智能研究院有限公司北京安声科技有限公司上海燧原科

、、、、

技股份有限公司上海天数智芯半导体有限公司深圳前海微众银行股份有限公司深圳思谋信息科技

、、、

有限公司西北工业大学西门子中国有限公司云从科技集团股份有限公司上海文鳐信息科技有限

、、()、、

公司浙江大华技术股份有限公司万达信息股份有限公司上海玄武信息科技有限公司中移互联网有

、、、、

限公司四川长虹电子控股集团有限公司

、。

本标准主要起草人董建徐洋鲍薇陈恺汪群博马骋昊孙曦宋文林刘祥龙陶建华赵天成

:、、、、、、、、、、、

黄现翠孙传兴马珊珊李栋于佃海龙云刘伟东经迪春郑子木蒋慧彭骏涛胡智超张向征

、、、、、、、、、、、、、

杨熙郑中冯涛郑佳佳刘聪周飞陈晰李建欣熊德意杨明川王峰梅剑平陈炜鹏张宏伟

、、、、、、、、、、、、、、

张松阳彭晋刘静刘艾杉王嘉凯高东辉马同森张天霖高铁柱陈曦梁志宏何刚俞文心

、、、、、、、、、、、、、

杨沐昀孟令中朱贵波王金桥郑若琳沈芷月聂简荻任海峰石羡吴玺宏刘尚刘卫卫石聪聪

、、、、、、、、、、、、、

丁鹏刘小欧项超薛德军王龙跃刘微胡全一孙浩源孙林赵必美玄日成赵春昊索思亮

、、、、、、、、、、、、、

陈立明蒋屹新武姗姗高鹏军孔昊薛云志刘子韬于磊郑哲邓超梁家恩崔明飞鄂磊任烨

、、、、、、、、、、、、、、

GB/T452882—2025

.

张志刚陈宏志吴韶华王珂琛冯月李睿李晋伟龙震岳高慧张旭段强单珂陈敏刚宋海涛

、、、、、、、、、、、、、、

刘益帆王思善余雪松李斌张驰张涛生若谷孙进芮子文孔维生童庆杨登峰孙文庆朱林

、、、、、、、、、、、、、、

杨兰

GB/T452882—2025

.

引言

大模型已成为人工智能发展的重要技术手段在引领产业变革中发挥重要作用国内外人工智能相

,,

关机构相继研究开发百余种大模型产品和评测榜单导致用户难以有效评测人工智能产品的技术水平

,

和服务能力人工智能大模型旨在规定通用大模型的技术要求评测指标和服务能

。GB/T45288《》、

力拟由五个部分构成

,。

第部分通用要求目的在于确立大模型的参考架构规定通用技术要求

———1:。,。

第部分评测指标与方法目的在于确立大模型的评测指标描述评测方法

———2:。,。

第部分服务能力成熟度评估目的在于给出大模型服务能力成熟度等级及评估方法

———3:。。

第部分计算机视觉大模型目的在于定义计算机视觉大模型的概念和功能规定技术要求

———4:。,

和测试方法

第部分多模态大模型目的在于定义多模态大模型的概念和功能规定技术要求和测试

———5:。,

方法

GB/T452882—2025

.

人工智能大模型

第2部分评测指标与方法

:

1范围

本文件确立了人工智能大模型的评测指标描述了人工智能大模型的评测方法

,。

本文件适用于模型提供者应用服务者和应用消费者等对大模型能力进行评估与测试也适用于指

、,

导大模型的设计开发应用

、、。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文

。,

件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于

,;,()

本文件

人工智能面向机器学习的数据标注规程

GB/T42755—2023

人工智能大模型第部分通用要求

GB/T45288.11:

3术语和定义

界定的术语和定义适用于本文件

GB/T45288.1。

4缩略语

下列缩略语适用于本文件

应用编程接口

API:(ApplicationProgrammingInterface)

双语评估替补

BLEU:(BilingualEvaluationUnderstudy)

5评测指标

51理解能力评测指标

.

511概述

..

大模型理解能力评测主要分为单模态维度和多模态维度单模态维度主要包括文本图像音频

,、、

个二级维度多模态维度主要包括图文文音图音图文音个二级维度理解能力评测维度和典

3。、、、4。

型任务见表

1。

1

GB/T452882—2025

.

表1理解能力评测维度和典型任务

一级维度二级维度典型任务描述

文本分类将文本划分为不同的类别或标签

信息抽取模型能根据文本内容完成内容实体事件属性关系等信息的抽取

,、、、、

理解和应用数学概念原理来解决涉及数学运算问题的能力如解析表

数学推理、,

达式公式推导等

因果推理模型在文本模态中识别和计算因果关系的能力

文本常识推理在日常情境下结合常识理解和推断隐含信息的能力

,

任务分解模型能将复杂任务分解为多个步骤并合理规划任务的执行顺序

,

文本问答模型能根据用户提出的问题提供合理准确实用的答案

,、、

多轮对话模型在进行多轮对话场景下的问答能力

代码理解模型能对给定的编程代码给出相应的文本解释说明

,

长文本理解模型能对长文本内容深入理解和分析并提取其中信息

单模态,

静态图像分类模型能理解静态图像的语义内容并输出其对应的类别标签

,

把静态图像分成若干个特定的具有独特性质的区域并提取感兴趣目标

静态图像分割、

的技术和过程

图像目标检测在静态图像中检测和定位特定的目标物

动态图像分类给定一个动态图像为其划分到指定的类别中

,

对视频数据进行分析识别出视频中包含的人或物体的动作或行为并

行为识别,,

对其进行分类和识别

将声信号转换成电信号再通过计算机进行识别包括说话人辨识和说

声纹识别,,

话人验证

音频

音频问答模型能理解用户提供音频信息中的问题并提供合理准确实用的答案

,、、

环境音分类模型能识别分析环境音中的语义信息等

图文检索模型能根据给定的图片文本检索到与之最匹配的文本图片构成配对

//

静态图像问答模型能回答针对静态图像的文本问题

视觉空间关系模型能基于图片内容正确判断文本中所描述的对象间位置关系

视觉语言推理模型能基于给定的一对图片和描述判断描述与图片间的对应关系是否一致

图文,

视觉蕴含模型能推理判断给定图片和文本之间的关系

视频检索模型能根据给定的视频文本检索到与之最匹配的文本视频构成配对

//

多模态视频问答模型能回答针对视频的文本问题

图表推理模型能理解推理图表信息并据此作出合理的推断

,

文音文音检索模型能根据给定的音频文本检索到与之最匹配的文本音频构成配对

//

图音视频异常检测能同时基于视频和相应的声音对视频中的异常模式进行识别检测

模型能根据给定的有声视频文本检索到与之最匹配的文本有声视频

有声视频检索//

图文音构成配对

有声视频问答模型能回答针对有声视频的文本问题

2

GB/T452882—2025

.

512文本分类

..

评测大模型对输入文本内容的整体分析能力包含但不限于以下能力

,。

分类任务能把输入的文本映射到具体的类目上用户只需要提供待分类的文本而无需关注

a):,,

具体实现主要包括单标签多标签分类任务

。:、。

句子分词能将句子序列切分成词序列

b):。

词性标注能为自然语言文本中的每个词汇赋予一个词性这里的词性类别可能是名词动词

c):,、、

形容词或其他

情感分析能确定文本中蕴含的情感倾向如正面负面或中性

d):,、。

定制服务

    推荐标准