GB/T 45288.2-2025 人工智能 大模型 第2部分:评测指标与方法

GB/T 45288.2-2025 Artificial intelligence—Large-scale model—Part 2:Testing and evaluation for metrics and methods

国家标准 中文简体 现行 页数:32页 | 格式:PDF

基本信息

标准号
GB/T 45288.2-2025
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2025-02-28
实施日期
2025-02-28
发布单位/组织
国家市场监督管理总局、国家标准化管理委员会
归口单位
全国信息技术标准化技术委员会(SAC/TC 28)
适用范围
本文件确立了人工智能大模型的评测指标,描述了人工智能大模型的评测方法。
本文件适用于模型提供者、应用服务者和应用消费者等对大模型能力进行评估与测试,也适用于指导大模型的设计、开发、应用。

发布历史

文前页预览

研制信息

起草单位:
中国电子技术标准化研究院、上海人工智能创新中心、中国科学院自动化研究所、蚂蚁科技集团股份有限公司、北京航空航天大学、清华大学、杭州联汇科技股份有限公司、中国铁建股份有限公司、北京百度网讯科技有限公司、中国南方电网有限责任公司、中国移动通信有限公司研究院、国家能源投资集团有限责任公司信息技术分公司、华为云计算技术有限公司、上海商汤智能科技有限公司、阿里云计算有限公司、深圳市腾讯计算机系统有限公司、北京奇虎科技有限公司、北京智源人工智能研究院、中铁第五勘察设计院集团有限公司、北京智谱华章科技有限公司、浪潮云信息技术股份公司、科大讯飞股份有限公司、中国电力科学研究院有限公司、天津大学、中国电信股份有限公司研究院、中央广播电视总台、北京百川智能科技有限公司、同方知网数字出版技术股份有限公司、北京中关村实验室、上海市人工智能行业协会、南方电网科学研究院有限责任公司、西安电子科技大学、西南科技大学、哈尔滨工业大学、中国科学院软件研究所、北京大学武汉人工智能研究院、青岛海信电子技术服务有限公司、北京格灵深瞳信息技术股份有限公司、北京工业大学、南方电网人工智能科技有限公司、中国电信集团有限公司、天翼云科技有限公司、北京软件产品质量检测检验中心有限公司、北京世纪好未来教育科技有限公司、北京小米移动软件有限公司、北京智芯微电子科技有限公司、中国移动通信集团有限公司、云知声智能科技股份有限公司、北京中关村科金技术有限公司、青岛海尔科技有限公司、杭州海康威视数字技术股份有限公司、京东方科技集团股份有限公司、昆仑数智科技有限责任公司、浪潮电子信息产业股份有限公司、浪潮软件科技有限公司、马上消费金融股份有限公司、鹏城实验室、平头哥(上海)半导体技术有限公司、麒麟合盛网络技术股份有限公司、山东浪潮科学研究院有限公司、山东省人工智能研究院、上海计算机软件技术开发中心、上海人工智能研究院有限公司、北京安声科技有限公司、上海燧原科技股份有限公司、上海天数智芯半导体有限公司、深圳前海微众银行股份有限公司、深圳思谋信息科技有限公司、西北工业大学、西门子(中国)有限公司、云从科技集团股份有限公司、上海文鳐信息科技有限公司、浙江大华技术股份有限公司、万达信息股份有限公司、上海玄武信息科技有限公司、中移互联网有限公司、四川长虹电子控股集团有限公司
起草人:
董建、徐洋、鲍薇、陈恺、汪群博、马骋昊、孙曦、宋文林、刘祥龙、陶建华、赵天成、黄现翠、孙传兴、马珊珊、李栋、于佃海、龙云、刘伟东、经迪春、郑子木、蒋慧、彭骏涛、胡智超、张向征、杨熙、郑中、冯涛、郑佳佳、刘聪、周飞、陈晰、李建欣、熊德意、杨明川、王峰、梅剑平、陈炜鹏、张宏伟、张松阳、彭晋、刘静、刘艾杉、王嘉凯、高东辉、马同森、张天霖、高铁柱、陈曦、梁志宏、何刚、俞文心、杨沐昀、孟令中、朱贵波、王金桥、郑若琳、沈芷月、聂简荻、任海峰、石羡、吴玺宏、刘尚、刘卫卫、石聪聪、丁鹏、刘小欧、项超、薛德军、王龙跃、刘微、胡全一、孙浩源、孙林、赵必美、玄日成、赵春昊、索思亮、陈立明、蒋屹新、武姗姗、高鹏军、孔昊、薛云志、刘子韬、于磊、郑哲、邓超、梁家恩、崔明飞、鄂磊、任烨、张志刚、陈宏志、吴韶华、王珂琛、冯月、李睿、李晋伟、龙震岳、高慧、张旭、段强、单珂、陈敏刚、宋海涛、刘益帆、王思善、余雪松、李斌、张驰、张涛、生若谷、孙进、芮子文、孔维生、童庆、杨登峰、孙文庆、朱林、杨兰
出版信息:
页数:32页 | 字数:44 千字 | 开本: 大16开

内容描述

ICS35240

CCSL.70

中华人民共和国国家标准

GB/T452882—2025

.

人工智能大模型

第2部分评测指标与方法

:

Artificialintelligence—Large-scalemodel—

Part2Testinandevaluationformetricsandmethods

:g

2025-02-28发布2025-02-28实施

国家市场监督管理总局发布

国家标准化管理委员会

GB/T452882—2025

.

目次

前言

…………………………Ⅲ

引言

…………………………Ⅴ

范围

1………………………1

规范性引用文件

2…………………………1

术语和定义

3………………1

缩略语

4……………………1

评测指标

5…………………1

理解能力评测指标

5.1…………………1

生成能力评测指标

5.2…………………8

评测方法

6…………………11

概述

6.1…………………11

评测数据集

6.2…………………………14

评测环境

6.3……………14

评测工具

6.4……………14

评测实施

6.5……………14

附录资料性评测指标计算方法

A()……………………17

客观评测方法

A.1……………………17

主观评测方法

A.2……………………18

参考文献

……………………21

GB/T452882—2025

.

前言

本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定

GB/T1.1—2020《1:》

起草

本文件是人工智能大模型的第部分已经发布了以下部分

GB/T45288《》2。GB/T45288:

第部分通用要求

———1:;

第部分评测指标与方法

———2:;

第部分服务能力成熟度评估

———3:。

请注意本文件的某些内容可能涉及专利文件的发布机构不承担识别专利的责任

。。

本文件由全国信息技术标准化技术委员会提出并归口

(SAC/TC28)。

本标准起草单位中国电子技术标准化研究院上海人工智能创新中心中国科学院自动化研究所

:、、、

蚂蚁科技集团股份有限公司北京航空航天大学清华大学杭州联汇科技股份有限公司中国铁建股份

、、、、

有限公司北京百度网讯科技有限公司中国南方电网有限责任公司中国移动通信有限公司研究院

、、、、

国家能源投资集团有限责任公司信息技术分公司华为云计算技术有限公司上海商汤智能科技有限公

、、

司阿里云计算有限公司深圳市腾讯计算机系统有限公司北京奇虎科技有限公司北京智源人工智能

、、、、

研究院中铁第五勘察设计院集团有限公司北京智谱华章科技有限公司浪潮云信息技术股份公司科

、、、、

大讯飞股份有限公司中国电力科学研究院有限公司天津大学中国电信股份有限公司研究院中央广

、、、、

播电视总台北京百川智能科技有限公司同方知网数字出版技术股份有限公司北京中关村实验室上

、、、、

海市人工智能行业协会南方电网科学研究院有限责任公司西安电子科技大学西南科技大学哈尔滨

、、、、

工业大学中国科学院软件研究所北京大学武汉人工智能研究院青岛海信电子技术服务有限公司

、、、、

北京格灵深瞳信息技术股份有限公司北京工业大学南方电网人工智能科技有限公司中国电信集团

、、、

有限公司天翼云科技有限公司北京软件产品质量检测检验中心有限公司北京世纪好未来教育科技

、、、

有限公司北京小米移动软件有限公司北京智芯微电子科技有限公司中国移动通信集团有限公司云

、、、、

知声智能科技股份有限公司北京中关村科金技术有限公司青岛海尔科技有限公司杭州海康威视数

、、、

字技术股份有限公司京东方科技集团股份有限公司昆仑数智科技有限责任公司浪潮电子信息产业

、、、

股份有限公司浪潮软件科技有限公司马上消费金融股份有限公司鹏城实验室平头哥上海半导体

、、、、()

技术有限公司麒麟合盛网络技术股份有限公司山东浪潮科学研究院有限公司山东省人工智能研究

、、、

院上海计算机软件技术开发中心上海人工智能研究院有限公司北京安声科技有限公司上海燧原科

、、、、

技股份有限公司上海天数智芯半导体有限公司深圳前海微众银行股份有限公司深圳思谋信息科技

、、、

有限公司西北工业大学西门子中国有限公司云从科技集团股份有限公司上海文鳐信息科技有限

、、()、、

公司浙江大华技术股份有限公司万达信息股份有限公司上海玄武信息科技有限公司中移互联网有

、、、、

限公司四川长虹电子控股集团有限公司

、。

本标准主要起草人董建徐洋鲍薇陈恺汪群博马骋昊孙曦宋文林刘祥龙陶建华赵天成

:、、、、、、、、、、、

黄现翠孙传兴马珊珊李栋于佃海龙云刘伟东经迪春郑子木蒋慧彭骏涛胡智超张向征

、、、、、、、、、、、、、

杨熙郑中冯涛郑佳佳刘聪周飞陈晰李建欣熊德意杨明川王峰梅剑平陈炜鹏张宏伟

、、、、、、、、、、、、、、

张松阳彭晋刘静刘艾杉王嘉凯高东辉马同森张天霖高铁柱陈曦梁志宏何刚俞文心

、、、、、、、、、、、、、

杨沐昀孟令中朱贵波王金桥郑若琳沈芷月聂简荻任海峰石羡吴玺宏刘尚刘卫卫石聪聪

、、、、、、、、、、、、、

丁鹏刘小欧项超薛德军王龙跃刘微胡全一孙浩源孙林赵必美玄日成赵春昊索思亮

、、、、、、、、、、、、、

陈立明蒋屹新武姗姗高鹏军孔昊薛云志刘子韬于磊郑哲邓超梁家恩崔明飞鄂磊任烨

、、、、、、、、、、、、、、

GB/T452882—2025

.

张志刚陈宏志吴韶华王珂琛冯月李睿李晋伟龙震岳高慧张旭段强单珂陈敏刚宋海涛

、、、、、、、、、、、、、、

刘益帆王思善余雪松李斌张驰张涛生若谷孙进芮子文孔维生童庆杨登峰孙文庆朱林

、、、、、、、、、、、、、、

杨兰

GB/T452882—2025

.

引言

大模型已成为人工智能发展的重要技术手段在引领产业变革中发挥重要作用国内外人工智能相

,,

关机构相继研究开发百余种大模型产品和评测榜单导致用户难以有效评测人工智能产品的技术水平

,

和服务能力人工智能大模型旨在规定通用大模型的技术要求评测指标和服务能

。GB/T45288《》、

力拟由五个部分构成

,。

第部分通用要求目的在于确立大模型的参考架构规定通用技术要求

———1:。,。

第部分评测指标与方法目的在于确立大模型的评测指标描述评测方法

———2:。,。

第部分服务能力成熟度评估目的在于给出大模型服务能力成熟度等级及评估方法

———3:。。

第部分计算机视觉大模型目的在于定义计算机视觉大模型的概念和功能规定技术要求

———4:。,

和测试方法

第部分多模态大模型目的在于定义多模态大模型的概念和功能规定技术要求和测试

———5:。,

方法

GB/T452882—2025

.

人工智能大模型

第2部分评测指标与方法

:

1范围

本文件确立了人工智能大模型的评测指标描述了人工智能大模型的评测方法

,。

本文件适用于模型提供者应用服务者和应用消费者等对大模型能力进行评估与测试也适用于指

、,

导大模型的设计开发应用

、、。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文

。,

件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于

,;,()

本文件

人工智能面向机器学习的数据标注规程

GB/T42755—2023

人工智能大模型第部分通用要求

GB/T45288.11:

3术语和定义

界定的术语和定义适用于本文件

GB/T45288.1。

4缩略语

下列缩略语适用于本文件

应用编程接口

API:(ApplicationProgrammingInterface)

双语评估替补

BLEU:(BilingualEvaluationUnderstudy)

5评测指标

51理解能力评测指标

.

511概述

..

大模型理解能力评测主要分为单模态维度和多模态维度单模态维度主要包括文本图像音频

,、、

个二级维度多模态维度主要包括图文文音图音图文音个二级维度理解能力评测维度和典

3。、、、4。

型任务见表

1。

1