T/CESA 1197-2022 人工智能深度合成图像系统技术规范

T/CESA 1197-2022 Artificial intelligence Deep Synthesizing Image System Technical Specification

团体标准中文(简体) 现行页数：38页 | 格式：PDF

基本信息

标准号

T/CESA 1197-2022

标准类型

团体标准

标准状态

现行

中国标准分类号（CCS）

国际标准分类号（ICS）

35.240.01 信息技术应用综合

发布日期

2022-06-30

实施日期

2022-06-30

发布单位/组织

归口单位

中国电子工业标准化技术协会

适用范围

主要技术内容:本文件确立了深度合成图像（含视频）系统的框架，规定了系统技术要求，描述了对应的测试评价方法。本文件适用于深度合成图像系统的设计、开发、测试、评估、管理等

发布历史

2022年06月

T/CESA 1197-2022　人工智能深度合成图像系统技术规范

当前标准现行 2022-06-30

文前页预览

研制信息

起草单位：: 中国电子技术标准化研究院、腾讯云计算（北京）有限责任公司、上海计算机软件技术开发中心、上海商汤智能科技有限公司、北京旷视科技有限公司、深圳市矽赫科技有限公司、四川云从天府人工智能科技有限公司、西安深信科创信息技术有限公司、美的集团（上海）有限公司、海信集团控股股份有限公司、深圳云天励飞技术股份有限公司、马上消费金融股份有限公司、西安交通大学、西北工业大学、北京百度网讯科技有限公司、京东科技信息技术有限公司、上海人工智能研究院有限公司、武汉精测电子集团股份有限公司

起草人：: 董建、马珊珊、刘海涛、刘晶、樊华、刘嘉怡、许元博、周磊、汪铖杰、徐洋、杨雨泽、邰颖、罗栋豪、朱俊伟、陈敏刚、陈文捷、赵代平、高瑞声、吴庚、梅敬青、付英波、洪鹏达、洪宝璇、李军、李继伟、翟军治、蒋泽锟、脱立恒、蔡亚森、高雪松、方静、郑文先、陈斌、杨春勇、王洪斌、蔺琛皓、张磊、岳海潇、李笑如、李博、宋海涛、王资凯、张胜森

出版信息：: 页数：38页 | 字数：- | 开本： -

内容描述

ICS35.240

CCSL70

团体标准

T/CESA1197—2022

人工智能深度合成图像系统技术规范

Artificialintelligence—Technicalspecificationfordeepsyntheticimagesystem

2022-06-30发布2022-06-30实施

中国电子工业标准化技术协会发布

T/CESA1197—2022

前言.....................................................................................................................................................................III

1范围...................................................................................................................................................................1

2规范性引用文件...............................................................................................................................................1

3术语和定义.......................................................................................................................................................1

4缩略语...............................................................................................................................................................2

5深度合成图像系统框架...................................................................................................................................3

6深度合成图像系统技术要求...........................................................................................................................4

6.1深度合成图像系统通用要求...................................................................................................................4

6.2深度合成2D人像系统要求...................................................................................................................12

6.3深度合成3D人像系统要求...................................................................................................................19

6.4深度合成人像防伪检测性能要求.........................................................................................................22

7深度合成图像系统测试评价方法.................................................................................................................24

7.1深度合成图像系统通用测试.................................................................................................................24

7.2深度合成2D人像系统测试...................................................................................................................28

7.3深度合成3D人像系统测试...................................................................................................................31

7.4深度合成人像防伪检测方法.................................................................................................................33

T/CESA1197—2022

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由中国电子技术标准化研究院提出。

本文件由中国电子技术标准化研究院、中国电子工业标准化技术协会归口。

本文件起草单位：中国电子技术标准化研究院、腾讯云计算（北京）有限责任公司、上海计算机软

件技术开发中心、上海商汤智能科技有限公司、北京旷视科技有限公司、深圳市矽赫科技有限公司、四

川云从天府人工智能科技有限公司、西安深信科创信息技术有限公司、美的集团（上海）有限公司、海

信集团控股股份有限公司、深圳云天励飞技术股份有限公司、马上消费金融股份有限公司、西安交通大

学、西北工业大学、北京百度网讯科技有限公司、京东科技信息技术有限公司、上海人工智能研究院有

限公司、武汉精测电子集团股份有限公司。

本文件主要起草人：董建、马珊珊、刘海涛、刘晶、樊华、刘嘉怡、许元博、周磊、汪铖杰、徐洋、

杨雨泽、邰颖、罗栋豪、朱俊伟、陈敏刚、陈文捷、赵代平、高瑞声、吴庚、梅敬青、付英波、洪鹏达、

洪宝璇、李军、李继伟、翟军治、蒋泽锟、脱立恒、蔡亚森、高雪松、方静、郑文先、陈斌、杨春勇、

王洪斌、蔺琛皓、张磊、岳海潇、李笑如、李博、宋海涛、王资凯、张胜森。

III

T/CESA1197—2022

人工智能深度合成图像系统技术规范

1范围

本文件确立了深度合成图像（含视频）系统的框架，规定了系统技术要求，描述了对应的测试评价

方法。

本文件适用于深度合成图像系统的设计、开发、测试、评估、管理等。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，

仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本

文件。

GB/T5271.29—2000信息技术词汇第29部分:人工智能语音识别与合成

GB/T21023—2007中文语音识别系统通用技术规范

GB/T36464.3—2018信息技术智能语音交互系统第3部分:智能客服

3术语和定义

GB/T5271.29—2000界定的以及下列术语和定义适用于本文件。

3.1

深度合成技术deepsynthesistechnology

利用以深度学习、虚拟现实为代表的生成合成类算法，在制作文本、图像、音频、视频、虚拟场景

等过程中合成内容的技术。

注：深度合成技术应用场景包括包括语音合成、人脸再现、全身合成、数字虚拟人、虚拟现实等。

3.2

深度合成图像系统deepsyntheticimagesystem

采用AI技术用于人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等对图像、视频中人脸

等生物特征进行生成或者编辑的技术系统。

注：深度合成图像系统的应用场景包括AI人像、美颜、换脸、影视动画制作等。

3.3

图像生成imagegeneration

从现有数据集生成图像的过程。

T/CESA1197—2022

3.4

图像合成imagecomposition

把来自一张图片或者不同图片的多个视觉元素前景剪切下来，粘贴到另外一张背景图片上，得到一

张合成图像。

注：图像生成和图形合成的区别，图像生成负责由无到有，图像合成负责从有到优。

3.5

语音合成speechsynthesis

人工语音的生成。

[来源：GB/T5271.29—2000，12.01.53]

3.6

深度合成2D人像deepsynthesisof2Dportraits

基于深度合成技术生成的二维人像，包括图像、视频和语音。

3.7

深度合成3D人像deepsynthesisof3Dportraits

基于深度合成技术生成的三维人像，包括图像、视频和语音。

4缩略语

下列缩略语适用于本文件。

AI：人工智能（ArtificialIntelligence）

API：应用程序编程接口（ApplicationProgrammingInterface）

DS：深度合成（DeepSynthesis）

EAO：平均重叠期望（Expectedaverageoverlap)

FID：距离得分（FrechetInceptionDistancescore）

GAN：对抗式生成网络(GenerativeAdversarialNetwork)

IoU：交并比（IntersectionoverUnion）

mAP：平均精确度均值（meanAveragePrecision）

MIoU：平均交并比（MeanIntersectionoverUnion）

NeRF：神经辐射场（NeuralRadianceFields)

NLP：自然语言理解（NatureLanguageProcess）

PGAN：渐进式增长生成对抗网络(ProgressiveGenerativeAdversarialNetwork)

PSNR：峰值信噪比(PeakSignal-to-NoiseRatio)

SDK：软件开发工具包（SoftwareDevelopmentKit）

SSIM：结构相似性(StructuralSimilarityIndexMeasure)

StarGAN：星型生成对抗网络（StarGenerativeAdversarialNetwork）

StyleGAN：风格生成对抗网络（StyleGenerativeAdversarialNetwork）

TTS：从文本到语音（TextToSpeech）

VAE变分自编码器(VariationalAuto-Encoder)

2D：二维（2-Dimensional）

3D：三维（3-Dimensional）

T/CESA1197—2022

5深度合成图像系统框架

深度合成图像系统框架包括AI能力层、管理层和接入层，见图1。

图1深度合成图像系统框架

图1中各层组成模块如下：

a)AI能力层:主要分为图像模块、人像模块和防伪检测模块。

1)图像模块包括图像生成、图像合成、图像修复和图像增强能力，能对一般图像进行深度合

成处理；

2)人像模块包括2D/3D人像合成、语音模块、NLP对话和音频同步能力，其中2D/3D人像合

成模块用来制作人像；语音模块包括使用TTS技术语音合成能力，和语音识别能力；NLP

对话则赋予了系统交互能力，够做到理解输入问题，做出符合语境、语法正常、语义连贯

的回答；音频同步则是用来同步人像模块中的音视频；

3)防伪检测模块：主要是对系统输入的人像（人脸、人体）图像进行鉴别，判断数字内容的

真实性、完整性和原始性。

b)管理层：主要是对深度合成图像系统的媒体资源和人像进行管理与调度。

1)媒体资源管理平台：用以提供视频超分和老片修复等功能；

2)人像管理平台提供两类人像管理，一类是播报式人像管理，主要是对人物形象和语音信息

进行管理；与播报式人像管理相比，对话式人像管理对NLP对话能力和语音识别能力的需

求更为明显，对话场景要求系统具有优秀的语音识别能力，做到语音信息准确的转换为文

本信息，并传递给NLP对话能力模块，对问题进行语义理解，并做出答复，接下来与播报

式人像管理的流程类似，对回答的内容做视频输出即可。

c)接入层：深度合成系统框架主要以三种方式接入目标系统：API、小程序插件、SDK。

1)API的方式提供了轻量化的部署方式，但对网络环境提出了较高的要求，因为深度合成图

像系统最终向目标系统提供内容视频或内容视频流。因此目标系统的网络环境应作为第一

考量。API服务的优点是部署简单，不需要考量服务环境中的算力问题与运行环境问题；

2)小程序插件可以有效的缩短开发的周期，可以节约大量的开发成本，而且还可以给用户带

来多样化的服务，但使用插件通常要先进行申请；

T/CESA1197—2022

3)SDK部署的优点是减少了对网络环境的依赖，可在网络环境较差的情况下正常运行深度合

成图像系统框架，但对工作环境有一定的要求，比如环境上的图形计算能力、图形处理器

在生产环境下的稳定性等。

6深度合成图像系统技术要求

6.1深度合成图像系统通用要求

6.1.1功能

6.1.1.1图像生成

图像生成功能应支持根据指定的场景特征（包括特定目标、特定主题、特定风格等）生成对应图像，

生成的图像应符合场景要求。

6.1.1.2图像合成

6.1.1.2.1目标检测

目标检测功能应支持识别常见物体和特定目标在图像中的位置（以方框形式给出目标轮廓）及其类

型，用以分析该图像是否能与其他图像的内容进行融合。

6.1.1.2.2目标分割

目标分割功能应支持给出图像中常见物体和特定目标的精细化边缘（像素级别区分度）及其类型，

用以分离特定目标以及处理融合过程中出现的物体间遮挡的情况，使得融合后图像更加合理。

6.1.1.2.3位置跟踪

位置跟踪功能应支持持续跟踪视频画面中特定目标的位置变化，用以处理视频融合中目标位置的变

化情况，使得视频中目标的运动状态符合物理规律。

6.1.1.2.4图像和谐化

图像和谐化功能应支持调节多个融合部分的亮度、颜色、光线等特征，使得融合后的图像作为一

个整体的观感更加自然。

6.1.1.3图像修复

6.1.1.3.1概述

图像修复功能即通过一定的算法修复低质图像中存在的多维度问题。图像修复主要包括图像缺陷修

复、图像内容缺失补全和图像颜色缺失补全及修复。

6.1.1.3.2图像缺陷修复

图像缺陷修复功能应支持修复图像中的典型缺陷问题，该类问题会影响用户对成像内容的正常视觉

感知，问题包括但不限于：模糊问题、噪声问题、划痕问题、隔行问题等。修复后较修复前，缺陷问题

得到明显改善，用户视觉观感得到明显提升。

T/CESA1197—2022

6.1.1.3.3图像内容缺失补全功能

图像内容缺失补全功能应支持修复图像部分内容缺失的问题或修复因去除非必要遮挡而造成的图

像内容缺失的问题，根据缺失图像块周围仍保留的图像内容恢复出缺失部分的内容，并保证补全部分与

周围图像的和谐过渡，补全后图像的整体观感自然不违和。

6.1.1.3.4图像颜色缺失补全及修复

对图像颜色缺失补全及修复功能要求如下：

a)应支持针对黑白图像的颜色补全功能，能将黑白图像恢复成为彩色图像，并保证补全后彩色图

像的观感合理性和舒适度；

b)应支持针对色彩不合理图像的颜色修复功能，能将观感不合理、不舒适的图像色彩调整为更加

合理、更加舒适的色彩，提升用户视觉观感。

6.1.1.4图像增强

6.1.1.4.1概述

图像增强功能，即通过一定的增强算法使图像具有更强的信息表达能力，增强后的图像较增强前在

清晰度、流畅度、丰富度等各维度有明显提升。图像增强功能主要包括图像分辨率提升功能、视频帧率

提升功能、图像动态范围提升功能。

6.1.1.4.2图像分辨率提升

图像分辨率提升功能应支持将图像分辨率提升至原先的数倍或提升至某一特定的高分辨率（目标分

辨率），并且提升后图像较提升前具有更丰富的细节信息，在视觉观感的清晰度上有明显提升。

6.1.1.4.3视频帧率提升

视频帧率提升功能应支持将视频帧率提升至原先的数倍，即单位时间内的帧数较提升前有明显增

加，播放时单帧画面视觉停留时间减少，能提升用户视觉观感的流畅度。

6.1.1.4.4图像动态范围扩大

图像动态范围扩大功能应支持将图像像素的亮度表达范围提升至原先的数倍，将图像像素的颜色表

达范围提升至原先的数十倍，使得提升后视频的对比度增大，画面更富层次感，色彩更加丰富。

6.1.2性能

6.1.2.1图像生成

6.1.2.1.1场景匹配度

场景匹配度指对于系统生成的图像，用户判断该图像与场景要求的匹配程度，该指标为主观性评估

指标。场景匹配度应达到让用户感到比较匹配的程度，场景匹配度主观评分规则见表1。

T/CESA1197—2022

表1场景匹配度主观评分规则

评测维度描述得分54321

目标匹配度生成图像中的物体与场景要十分匹配比较匹配基本匹配不匹配十分不

求中物体的匹配程度匹配

主题匹配度生成图像的主题与场景要求十分匹配比较匹配基本匹配不匹配十分不

中主题的匹配程度匹配

风格匹配度生成图像的风格与场景要求十分匹配比较匹配基本匹配不匹配十分不

中风格的匹配程度匹配

6.1.2.1.2视觉自然度

视觉自然度指系统生成的图像让用户视觉上感到自然和谐的程度，视觉自然度应达到让用户感到比

较自然的程度。该指标为主观性评估指标，评分规则见表2。

表2视觉自然度主观评分规则

评测维度描述得分54321

十分不

整体自然度该图片整体观感是否自然十分自然比较自然基本自然不太自然

自然

完全没有伪纹伪纹理较有一些伪伪纹理较伪纹理

局部自然度该图片局部是否有伪纹理

理少纹理多很多

6.1.2.2图像合成

6.1.2.2.1目标检测性能

mAP为各类别平均精度（AP）的均值，AP是在不同召回率下的最高精确率的均值(一般会对各类别分

别计算各自的AP)。在包含常用类别及特定类别的自定义数据集上目标检测平均精确率均值mAP应大于

0.5。召回率和精确率定义如下：

a)IOU：真实框与预测框之间交集面积与并集面积的比值；

b)真阳性（TP）：正确的检测，即预测的边界框中分类正确且边界框坐标正确的数量，检测的

IOU≥threshold（一般取0.5）；

c)假阳性（FP）：错误的检测，即预测的边界框中分类错误或者边界框坐标不达标的数量，也就

是预测出的所有边界框中除去预测正确的边界框，剩下的边界框的数量，检测的IOU

<threshold（一般取0.5）；

d)假阴性（FN）：没有被检测出来的真实框。所有没有预测到的边界框的数量，即正确的边界框

中除去被预测正确的边界框，剩下的边界框的数量；

e)召回率：TP/(TP+FN)：模型给出的预测结果最多能覆盖多少真实目标；

f)精确率：TP/(TP+FP)：模型给出的所有预测结果中命中真实目标的比例。

6.1.2.2.2实例分割性能

MIoU即预测区域和实际区域交集除以预测区域和实际区域的并集，这样计算得到的是单个类别下的

IoU，然后重复此算法计算其它类别的IoU，再计算它们的平均数即可。计算公式如式1：

T/CESA1197—2022

式中：

i——真实值；

j——预测值；

——将i预测为j。

在包含常用类别及特定类别的自定义数据集上实例分割MIoU应大于0.5。

6.1.2.2.3目标跟踪

EAO是用于衡量目标追踪方法准确性和鲁棒性的指标，表示每个跟踪器在一个短时图像序列上的非

重置重叠的期望值。

考虑一个用于目标追踪的视频，其包含帧，待测试的跟踪器在此序列的开始处初始化，并一直

跟踪至最后一帧。如果跟踪器在某帧预测的矩形框偏离目标，则追踪停止。每一帧的准确率定义为：

式中：

——第t帧的真实框；

——跟踪器对第t帧的预测框。之后进行平均，得到该序列上的准确率，在

长度为的多个序列上求平均值，这样就得到了跟踪器在长度为序列上的EAO值。

在自定义视频数据集上位置跟踪EAO应大于0.4。

6.1.2.2.4和谐化

6.1.2.2.4.1融合视觉合理性

融合视觉合理性指系统融合得到的图像或视频让用户视觉上感到合理的程度，该指标为主观性评估

指标。融合视觉合理性主观评分规则见表3，融合视觉合理性应达到让用户感到比较合理的程度。

表3融合视觉合理性主观评分规则

评测维度描述得分54321

融合合理性该图片内容融合十分合理比较合理基本合理不太合理十分不合

是否合理理

6.1.2.2.4.2融合视觉自然度

融合视觉自然度指系统融合得到的图像或视频让用户视觉上感到自然和谐的程度，该指标为主观性

评估指标。考融合视觉自然度主观评分规则见表4。融合视觉自然度应达到让用户感到比较自然的程度。

T/CESA1197—2022

表4融合视觉自然度主观评分规则

评测维度描述得分54321

视频整体自然度以正常帧率播放融合十分自然比较自然基本自然不太自然十分不自

视频，判断视频自然然

度

图像整体自然度融合图片整体观感是十分自然比较自然基本自然不太自然十分不自

否自然然

图像局部自然度融合图片局部过渡是十分自然比较自然基本自然不太自然十分不自

否自然然

6.1.2.3图像修复

6.1.2.3.1图像缺陷修复

6.1.2.3.1.1量化指标PSNR

给定一张大小为m*n正常无缺陷图像I作为参考图像，与之相对应的有缺陷图像K作为待评测图像，

均方误差(MSE)定义为式3：

PSNR(dB)定义为式4:

式中：——图片可能的最大像素值。

以上为针对灰度图的PNSR计算方式，如果是彩色图像，通常计算RGB三个通道的MSE，然后计算PSNR。

6.1.2.3.1.2量化指标SSIM

给定一张正常无缺陷图像x作为参考图像，与之相对应的有缺陷图像y作为待评测图像，SSIM基于x

和y之间的三个比较衡量：亮度（luminance）、对比度（contrast）和结构（structure）。

，，，

一般取

为x的均值，为y的均值，为x的方差，为y的方差，为x和y的协方差，

，为两个常数，避免除零，为像素值的范围，

，为默认值，则

T/CESA1197—2022

将设为1，则得到式5：

6.1.2.3.1.3视觉缺陷程度

视觉缺陷程度指系统对图像修复前后，用户判断缺陷的程度。修复后应达到让用户感到缺陷比较轻

微甚至感知不到缺陷的程度。该指标为有参考主观性评估指标，评分规则见表5。

表5缺陷修复程度有参考主观评分规则

缺陷维度描述得分54321

划痕对比划痕参考图像评估图像的划痕十分划痕比较划痕程度轻微划痕无划痕

划痕程度严重严重一般

噪声对比噪声参考图像评估图像的噪声十分噪声比较噪声程度轻微噪声无噪声

噪声程度严重严重一般

横纹对比横纹参考图像评估图像的横纹十分横纹比较横纹程度轻微横纹无横纹

横纹程度严重严重一般

模糊对比模糊参考图像评估图像的模糊十分模糊比较模糊程度轻微模糊图像清晰

模糊程度严重严重一般

6.1.2.3.2图像内容缺失补全

6.1.2.3.2.1量化指标PSNR、SSIM

选取一组内容完整无缺失的图像作为原图像；将原图像的部分内容随机按照一定比例（如10%～60%）

置为全黑，作为内容缺失图像；将内容缺失图像送入系统进行图像内容补全，得到补全后图像。

量化指标计算同6.1.2.3.1.1、6.1.2.3.1.2中的量化指标，参考图像选取为内容完整的原图像，

待评测图像选取为经系统修复的补全后图像。

6.1.2.3.2.2视觉自然度

视觉自然度指系统将内容缺失图像补全后让用户视觉上感到自然和谐的程度。该指标为主观性评估

指标，评分规则如6.1.2.1.2表2所示。视觉自然度应达到让用户感到自然、基本无伪纹理的程度。

6.1.2.3.3图像颜色缺失补全及修复

6.1.2.3.3.1量化指标FID

FID距离是一种用于评估生成模型（如生成对抗网络）生成图片的度量。其衡量生成图片的分布和

真实图片分布之间的差异性。

T/CESA1197—2022

FID计算两个多维高斯分布之间的平方Wasserstein距离。给定颜色缺失补全后的图像集合经神经

网络提取出来特征的多维高斯分布和真实彩色图像集合经同一神经网络得到特征的多维高

斯分布，该神经网络一般是在ImageNet数据集上训练的Inceptionv3网络。

FID具体计算方式为式5：

其中表示各自的均值和协方差。

6.1.2.3.3.2量化指标PSRR、SSIM

选取一组有正常颜色的图像作为原图像；将

定制服务

相似标准推荐

更多>

T/CESA 1197-2022 人工智能 深度合成图像系统技术规范

T/CESA 1197-2022 Artificial intelligence Deep Synthesizing Image System Technical Specification

基本信息

发布历史

文前页预览

研制信息

内容描述

定制服务

推荐标准

相似标准推荐

T/CESA 1197-2022 人工智能深度合成图像系统技术规范