T/ZSA 230-2024 虚拟数字人多模态交互信息规范

T/ZSA 230-2024 Virtual multi-modal interaction information specification for digital humanities

团体标准中文(简体) 现行页数：40页 | 格式：PDF

暂不支持下载

基本信息

标准号

T/ZSA 230-2024

标准类型

团体标准

标准状态

现行

中国标准分类号（CCS）

M 通信、广播

国际标准分类号（ICS）

33.160.01 音频、视频和视听系统综合

发布日期

2024-05-11

实施日期

2024-05-12

发布单位/组织

归口单位

中关村标准化协会

适用范围

范围:本文件对虚拟数字人多模态交互输入及输出信息的数据格式及数据类型进行了规定，确定了统一的数据标签。本文件适用于虚拟数字人的设计和开发，以及不同平台之间虚拟数字人数据资源的交换与共享; 主要技术内容:本文件对虚拟数字人多模态交互输入及输出信息的数据格式及数据类型进行了规定，确定了统一的数据标签。本文件适用于虚拟数字人的设计和开发，以及不同平台之间虚拟数字人数据资源的交换与共享

发布历史

2024年05月

T/ZSA 230-2024　虚拟数字人多模态交互信息规范

当前标准现行 2024-05-11

文前页预览

在线预览全文

研制信息

起草单位：: 北京中科汇联科技股份有限公司、清华大学、北京大学、北京理工大学、天津大学、北京交通大学、北京邮电大学、中国传媒大学、中央美术学院、鹏城实验室、北京新脑科技有限公司、数字栩生（北京）科技有限公司

起草人：: 游世学、郭锐、翁冬冬、刘永进、王厚峰、王东、王丙栋、余旻婧、温玉辉、李蓝天、包仪华、余皓天、徐峰、周升明、陈岳强、韩许东、师倩、郭洁、张昌的、何思萱

出版信息：: 页数：40页 | 字数：- | 开本： -

内容描述

ICS33.160

CCSM61

团体标准

T/ZSA230—2024

虚拟数字人多模态交互信息规范

Virtualdigitalhumanmulti-modalinteractioninformationstandard

2024-05-11发布2024-05-12实施

中关村标准化协会发布

T/ZSA230—2024

前言..................................................................................II

引言.................................................................................III

1范围................................................................................1

2规范性引用文件......................................................................1

3术语和定义..........................................................................1

4概述................................................................................1

5输入通道............................................................................2

5.1文本............................................................................2

5.2语音............................................................................3

5.3图像............................................................................6

5.4其它............................................................................6

6输出通道............................................................................9

6.1语音............................................................................9

6.2表情...........................................................................10

6.3肢体动作.......................................................................12

6.4其它...........................................................................13

附录A（资料性）声音事件标签.........................................................17

附录B（规范性）表情曲线名称.........................................................28

附录C（规范性）骨骼名称.............................................................34

图1虚拟数字人的骨骼定义的示意图.....................................................12

表1语种类别列表......................................................................3

表2口音信息列表......................................................................3

表3性别信息列表......................................................................4

表4年龄信息列表......................................................................4

表5情绪类型列表......................................................................4

表6语音数据的编码格式列表............................................................5

表7离散情绪列表......................................................................9

表A.1声音事件标签...................................................................17

表B.1表情曲线名称...................................................................28

表C.1骨骼名称.......................................................................34

T/ZSA230—2024

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定

起草。

本文件由中关村标准化协会虚拟现实与元宇宙分技术委员会提出并归口。

本文件起草单位：北京中科汇联科技股份有限公司、清华大学、北京大学、北京理工大学、天津大

学、北京交通大学、北京邮电大学、中国传媒大学、中央美术学院、鹏城实验室、北京新脑科技有限公

司、数字栩生（北京）科技有限公司。

本文件主要起草人：游世学、郭锐、翁冬冬、刘永进、王厚峰、王东、王丙栋、余旻婧、温玉辉、

李蓝天、包仪华、余皓天、徐峰、周升明、陈岳强、韩许东、师倩、、郭洁、张昌的、何思萱。

T/ZSA230—2024

引言

本文件的发布机构提请注意，声明符合本文件时，可能涉及到与CN115167674A[基于数字人

多模态交互信息标准的智能交互方法]相关的专利的使用。

本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。

该专利持有人已向本文件的发布机构承诺，他愿意同任何申请人在合理且无歧视的条款和条件下，

就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案。相关信息可以通过以下联

系方式获得：

专利持有人姓名：北京中科汇联科技股份有限公司。

地址：100094北京市海淀区东北旺西路8号9号楼二区305。

请注意除上述专利外，本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别专利的责

任。

III

T/ZSA230—2024

虚拟数字人多模态交互信息规范

1范围

本文件对虚拟数字人多模态交互输入及输出信息的数据格式及数据类型进行了规定，确定了统一的

数据标签。

本文件适用于虚拟数字人的设计和开发，以及不同平台之间虚拟数字人数据资源的交换与共享。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，

仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本

文件。

ISO8601数据存储和交换形式信息交换日期和时间的表示方法（Dataelementsand

interchangeformatsInformationinterchangeRepresentationofdatesandtimes）

3术语和定义

YD/T4393.1—2023界定的以及下列术语和定义适用于本文件。

3.1

虚拟数字人digitalhuman

简称数字人或虚拟人，是指基于现实世界设计、通过计算机生成、再借助真人或计算驱动、在多模

态输出设备呈现的虚拟人物。

[来源：YD/T4393.1—2023，3.1.1]

3.2

多模态multi-modal

多种感知信息的协同，包括文本、图像、视频、音频等类型。

4概述

多模态交互是指同时利用多种感官输入输出通道(如视觉、听觉、触觉等)进行人机交互,通过融合

多种模态以提供更自然、直观的交互体验。多模态交互能够让用户在不同的场景下可以选择不同的模态

组合模式进行交互，从而整体提高人机交互的自然度和灵活度，同时多模态交互能够使用户在人机交互

过程中拥有多维感知信息，从而能够从视觉、听觉、触觉等多方面体会机器表达出的语义和情感。

在虚拟数字人领域，多模态交互信息标准是为了确保在不同场景下，虚拟人能够与用户进行高效、

流畅的沟通。本文件的制定旨在虚拟数字人应用中实现无缝的交互体验，提高用户满意度和粘性。同时，

本文件还旨在促进行业内技术和应用的发展，推动虚拟数字人行业的规范化和标准化。

本文件的制订将有助于不同虚拟数字人平台开发者，虚拟数字人产品设计者，虚拟数字人应用开发

者等各方能够从统一的视角去看待多模态人机交互的整体过程，方便各个虚拟数字人平台的开发人员将

精力聚焦于其平台的硬件或软件优化内部流程及性能，减轻与外部设备或系统对接时的压力，提高了应

用程序在不同平台之间的可移植性和兼容性，当新平台可用、旧平台过时的情况下，可快捷地从一个平

台切换到另一个平台。

在本文件中，对于在虚拟数字人应用场景下的多模态人机交互的输入通道和输出通道的格式进行了

明确的定义，采用了JSON格式进行描述，具有很强的编程适应性和可扩展性。目前输入通道包括文本、

语音、图像、触觉、传感器等多种类型,可对应键盘、网络通讯、麦克风、摄像头、触摸屏、可穿戴设

备等输入设备；输出通道是指虚拟数字人在智能设备上的各种展现形态，包括最基本的语音、表情、肢

T/ZSA230—2024

体动作和其他输出渲染效果，如虚拟数字人场景定义、多媒体素材和字幕等等；并且在附录中提供了声

音事件标签、表情曲线名称、骨骼名称等行业公认的数据规范说明。

本文件具有较强的兼容性和开放性，未来可根据技术发展的情况和业务场景进化的需要进行灵活的

修订。

5输入通道

5.1文本

5.1.1概述

文字交互通道用于传输人机交互中的文本信息，主要分成两大类，一类是人机交互输入的文本交流

信息，一类是针对交互对象和交互环境的说明信息。

5.1.2数据元素

文字交互通道的人机交互的文本交流信息，可能是通过语音识别模块处理之后得到的识别文本，也

有可能是直接通过键盘或网络传输协议得到的直接输入文本；针对交互对象和交互环境的说明信息一般

来说是经过其他信息处理模块或外部系统处理获取之后，通过网络传输协议发送到虚拟数字人的文本信

息。

文字交互通道的数据整体应放在“input_text_data”为总节点的JSON格式的数据中，数据格式的

说明如下：

——文字信息的总节点(input_text_data)；

——人机交互的文本交流信息(communication_info)为数组类型，可能包括多个说话人的交互文

本；

——说话人的交流文本内容（text）为字符串类型；

——说话人的标识ID（speaker_id）为字符串类型；

——说话人的信息数组（speakers_info）为数组类型；

——说话人的姓名（speaker_name）为字符串类型,如果保密或未知则内容为空字符串“”；

——说话人的说话状态，是否正在说话（speaking）可能的取值包括“true”和“false”；

——说话人的角色（role）为字符串类型，为自定义的输入文本内容；如果保密或未知则内容为

空字符串“”；

——说话人的年龄（age）为整数类型，如果保密或未知则内容为－1；

——说话人的说明描述（speaker_desc）为字符串类型，为自定义的输入文本内容；如果保密或

未知则内容为空字符串“”。

示例：

{

"input_text_data":{

"communication_info":[

{

"text":"你好！",

"speaker_id":"1"

}

"speakers_info":[

{

"speaker_id":"1",

"speaker_name":"小明",

"speaking":"true",

"role":"游客",

"age":18,

"speaker_desc":"参观的年轻访客"

T/ZSA230—2024

{

"speaker_id":"2",

"speaker_name":"",

"speaking":"false",

"role":"",

"age":-1,

"speaker_desc":""

}

]

}

具体取值定义见5}

5.2语音

5.2.1概述

语音输入是指人机交互过程中由声音采集设备录制后，经过前端语音模块计算处理后得到的各类语

音信息。

5.2.2数据元素

总则

语音交互通道的数据整体应放在“input_speech_data”为总节点的JSON格式的数据中，数据格式

的说明如下：

——语音信息的总节点(input_speech_data)；

——语音识别后的文本内容（content）为带标点符号的字符文本，字符串类型；

——语种类别（language）为字符串类型，具体取值见表1语种类别名称；

——口音信息（accent）为字符串类型，具体取值见表2口音信息名称；

——性别信息（gender）为字符串类型，具体取值见表3性别信息名称；

——年龄信息（age）为字符串类型，具体取值见表4年龄信息名称；

——情绪类型（emotion）为字符串类型，具体取值见表5情绪类别名称；

——声音事件（event）为数组类型，具体取值见声音事件列表；

——数据信息（info），声音文件的格式信息，具体取值见数据信息定义；

——原始数据（raw），即声波采样被量化后所产生的非压缩数据，为数组类型，元素取值为整数

类型。

语种类别列表

语种类别如表1所示，取值范围见表1语种类别。

表1语种类别列表

序号语种类别名称

1CN

2EN

口音信息名称

口音信息如表2所示，取值范围见口音信息名称这一列。

表2口音信息列表

序号口音信息名称

1unknown

2official

T/ZSA230—2024

3beijing

4henan

5sichuan

6guangdong

7dongbei

8shandong

性别信息名称

性别信息如表3所示，取值范围见表3性别信息名称。

表3性别信息列表

序号性别信息名称

1unknown

2female

3male

年龄信息名称

年龄信息如表4所示，取值范围见表3性别信息名称。

表4年龄信息列表

序号年龄信息名称

1unknown

2Child

3Young

4Middle

5Old

情绪类别名称

情绪类型如表4所示，取值范围见表4情绪类别名称。

表5情绪类型列表

序号情绪类别名称

1unknown

2neutral

3angry

4happy

5sad

6surprise

7fear

8disguise

声音事件列表

声音事件为数组类型，数组元素取值为字符串类型，取值定义见本文件附录A表格，代表自然语言

表示的声音事件分类，取值范围见表A.1中“英文对应词”。

T/ZSA230—2024

数据信息定义

声音数据的信息用json格式定义，具体如下：

——语音数据的采样率（sample_rate）为整数类型；

——语音数据的通道数（channels)为整数类型，取值范围为1和2；

——语音数据的采样精度（precision）为字符串类型，取值范围为“8-bit”，“16-bit”，“24-bit”，

“32-bit”；

——语音数据的起始时间（start_time）为字符串类型，应符合ISO8601的要求；

——语音数据的结束时间（end_time）为字符串类型，应符合ISO8601的要求；

——语音数据的时长（duration）为字符串类型，格式为“HH:mm:ss.SSS”，其中各项分别为小

时，分钟，秒和毫秒；

——纯数据长度（data_size）为整数类型；

——语音数据的编码格式（sample_encoding）为字符串类型,具体取值见表5。

表6语音数据的编码格式列表

序号语音数据的编码格式的类别名称

116-bitSignedIntegerPCM

224-bitSignedIntegerPCM

332-bitSignedIntegerPCM

48-bitUnsignedIntegerPCM

532-bitFloatingPointPCM

664-bitFloatingPointPCM

78-bitA-law

88-bitu-law

94-bitIMAADPCM(13-bitprecision)

104-bitMSADPCM(14-bitprecision)

11GSM(16-bitprecision)

示例：

{

"input_speech_data":{

"content":"中国的首都是在哪里？",

"language":"CN",

"accent":"official",

"gender":"female",

"emotion":"neutral",

"event":[

"Speech",

"Music"

"info":{

"sample_rate":16000,

"channels":1,

"precision":"16-bit",

"start_time":"2023-08-20T12:30:00Z",

"end_time":"2023-08-20T12:30:07Z",

"duration":"00:00:07.000",

"data_size":224000,

"sample_encoding":"16-bitSignedIntegerPCM"

"raw":[

22,

T/ZSA230—2024

234,

……

]

}

5.3图像

5.3.1概述

图像交互通道用于传输由用户在虚拟数字人成像屏幕或摄像头前所产生的图像数据信号，本部分对

视频流(或视频文件解码后的每一帧图像数据)进行了定义。

5.3.2数据元素

图像交互通道包括输入数据流，通过采集用户在虚拟数字人成像屏幕或摄像头前的图像数据，将交

互数据添加到“input_image_data”为总节点的JSON格式的数据中，数据格式的说明如下：

——图像数据的总节点input_image_data;

——图像数据的文件路径（image_path）为字符串类型；

——图像数据的大小（image_size）包括width和height两个子元素；

——图像数据的宽度（width)为整数类型；

——图像数据的高度（height)为整数类型；

——图像数据格式（image_format）为字符串类型；

——图像数据的色彩空间（image_color_space）为字符串类型；

——图像数据的分辨率（image_resolution）为字符串类型，单位为dpi；

——采集图像数据的时间戳（CaptureTimeStamp）为字符串类型，应符合ISO8601的要求。

示例：

{

"input_image_data":[

{

"image_path":"/Base64EncodedImageData",

"image_size":{

"width":1920,

"height":1080

"image_format":"jpeg",

"image_color_space":"rgb",

"image_resolution":"300dpi",

"capture_time_stamp":"2022-09-01T12:30:00Z"

}

]

}

5.4其它

5.4.1触觉

概述

触觉交互通道传输由用户点击或拖拽屏幕所产生的数据信号。其中，触控板与虚拟数字人成像屏幕

为同一设备（或成像屏幕具备点触功能）。

数据元素

T/ZSA230—2024

触觉交互通道包括输入数据流。通过监听触摸事件，将交互数据添加到一个名为

"input_touch_events"的JSON数组中。

JSON数组中应包含以下json格式数据：

——触摸事件的类型（event_type），字符串类型，取值范围包括触摸开始"touch_start"，触摸

移动"touch_move"，触摸结束"touch_end"，以及触摸取消"touch_cancel"；

——触摸事件发生的时间（start_time）为字符串类型，应符合ISO8601的要求；

——触摸事件结束的事件（end_time）为字符串类型，应符合ISO8601的要求；

——触摸事件发生的坐标位置（position），包括两个元素x横轴坐标和y纵轴坐标，均为整数

类型。

——如果触摸事件的开始时间和结束时间瞬时发生在同一时刻，那么这两个时间点可以被视为一

个点。

示例：

{

"input_touch_events":[

{

"event_type":"touch_start",

"start_time":"2023-08-19T12:34:56Z",

"end_time":"2023-08-19T12:34:57Z",

"position":{

"x":200,

"y":300

}

{

"event_type":"touch_move",

"start_time":"2023-08-19T12:34:58Z",

"end_time":"2023-08-19T12:34:59Z",

"position":{

"x":210,

"y":310

}

{

"event_type":"touch_end",

"start_time":"2023-08-19T12:35:00Z",

"end_time":"2023-08-19T12:35:01Z",

"position":{

"x":220,

"y":320

}

{

"event_type":"touch_cancel",

"start_time":"2023-08-19T12:35:02Z",

"end_time":"2023-08-19T12:35:03Z",

"position":{

T/ZSA230—2024

"x":205,

"y":305

}

]

}

5.4.2传感器

概述

传感器交互通道传输由用户佩戴具有传感器的手环所产生的数据信号。其中手环能够收集多种类型

的传感器数据，包括：加速度、陀螺仪、磁力计、温度、心率等。

数据元素

传感器交互通道包括输入数据流。通过收集传感器数据，将交互数据添加到一个名为"

input_sensor_data"的总节点的JSON格式的数据中，应包含以下数据：

——温度（temperature）为浮点数类型；

——心率（heart_rate）为浮点数类型；

——加速度计（accelerometer）为json格式，data元素包括x，y，z元素，为浮点数类型，分

别代表三个轴方向的加速度；

——陀螺仪（gyroscope）为json格式，data元素包括x，y，z元素，为浮点数类型，分别代表

三个轴方向的角加速度；

——磁力计（magnetometer）为json格式，data元素包括x，y，z元素，为浮点数类型，分别代

表三个轴方向的环境磁场数据。

示例：

{

"input_sensor_data":{

"temperature":36.5,

"heart_rate":98.2,

"accelerometer":{

"data":{

"x":0.1,

"y":0.5,

"z":9.8

}

"gyroscope":{

"data":{

"x":0.02,

"y":-0.01,

"z":0.03

}

"magnetometer":{

"data":{

"x":-23.6,

"y":45.2,

"z":-17.8

}

T/ZSA230—2024

}

6输出通道

6.1语音

6.1.1概述

语音输出是指由虚拟数字人中控系统向语音合成系统输出的控制信号。

6.1.2数据元素

总则

使用名为"output_speech_data"的JSON格式数据记录语音输出的文本内容、发音速度和发音情绪。

应包含以下数据：

——文本（content）为字符串类型，特殊字符/代词间停顿，＾代表后面字重读；

——情绪（emotion）为json数据，支持离散情绪和连续情绪两种类型；

——语速（speed）为浮点数，代表语速调整因子，1.0为缺省值。

离散情绪

此时emotion节点的type元素值为"category"，value元素为离散情绪信息，其取值范围见表6。

表7离散情绪列表

序号情绪名称

1unknown

2neutral

3angry

4happy

5sad

6surprise

7fear

示例：

{

"output_speech_data":{

"content":"^中国的首都/是北京",

"emotion":{

"type":"category",

"value":"neutral"

"speed":1.0

}

连续情绪

此时emotion节点的type元素值为"real"，value元素为数组类型，其中的元素定义如下：

a)基础格式：(唤醒度，愉悦度)；

b)取值范围：-1.0到1.0的连续值。

示例：

{

T/ZSA230—2024

"output_speech_data":{

"content":"^中国的首都/是北京",

"emotion":{

"type":"real",

"value":[

0.1,

0.3

]

"speed":1.0

}

6.2表情

6.2.1概述

虚拟数字人的表情可采用几种最常见的方法进行生成，包括基于三维表情技术、网格模型技术和参

数化模型技术动态生成表情，以下对几种方法在控制交互中不同的具体数据传输格式进行定义。

6.2.2数据元素

使用名为"output_expression_data"的JSON格式数据记录虚拟数字人表情输出,根据输出类别不

同有不同的格式定义。

输出类别

从总体上来说，虚拟数字人表情输出可分为二维表情和三维表情两类。

控制曲线输出

使用JSON数组“curve_array”记录表情曲线名称及表情曲线强度值。通过Livelink传输表情曲线

数据（见附录B）控制表情变化。

JSON数组中应包含以下json元素：

——表情曲线名称（name），为字符串类型，取值范围见附录B中的表B.1表情曲线名称的表情

曲线名称这一列。

——表情曲线强度（value），为浮点数类型，表情曲线强度应在0.0～1.0范围内。

示例：

{

"output_expression_data":{

"curve_array":[

{

"name":"CTRL_expressions_browDownL",

"value":0.0

}

]

}

顶点位移输出

.1网格模型表情输出

使用JSON数组记录顶点索引及顶点偏移量。使用顶点偏移量控制表情变化，与三维中性人脸模型的

顶点坐标相加，得到带有表情的人脸模型。

JSON数组中应包含以下数据：

——顶点索引（index）为整数类型；

T/ZSA230—2024

——偏移量（shift）为json数据，x，y，z元素代表三个轴上的偏移量，为浮点数类型。

示例：

{

"output_expression_data":{

"shift_array":[

{

"ind

定制服务

相似标准推荐

更多>

T/ZSA 230-2024 虚拟数字人多模态交互信息规范

T/ZSA 230-2024 Virtual multi-modal interaction information specification for digital humanities

基本信息

发布历史

文前页预览

研制信息

内容描述

定制服务

推荐标准

相似标准推荐