GB/T 38667-2020 信息技术 大数据 数据分类指南

GB/T 38667-2020 Information technology—Big data—Guide for data classification

国家标准 中文简体 现行 页数:18页 | 格式:PDF

基本信息

标准号
GB/T 38667-2020
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2020-04-28
实施日期
2020-11-01
发布单位/组织
国家市场监督管理总局、国家标准化管理委员会
归口单位
全国信息技术标准化技术委员会(SAC/TC 28)
适用范围
本标准提供了大数据分类过程及其分类视角、分类维度和分类方法等方面的建议和指导。
本标准适用于指导大数据分类。

发布历史

研制信息

起草单位:
中国科学院信息工程研究所(信息安全国家重点实验室)、国家信息中心、浪潮软件集团有限公司、智慧神州(北京)科技有限公司、方正国际软件(北京)有限公司、国网安徽省电力有限公司(电力科学研究院)、中国铁道科学研究院集团有限公司、中国电子技术标准化研究院、上海三零卫士信息安全有限公司、联通大数据有限公司、中国保险信息技术管理有限责任公司、九次方大数据信息集团有限公司、中电长城网际系统应用有限公司、广东电网有限责任公司信息中心、中电科大数据研究院有限公司、北京大学、山东省计算中心(国家超级计算济南中心)
起草人:
陈驰、马红霞、马书南、田雪、高亚楠、黄先芝、单震、张慧敏、张煜、顾广宇、吴艳华、郑金子、尹卓、叶林、干露、关泰璐、李燕超、郎佩佩、闵京华、魏理豪、禄凯、张吉才、冯念慈、赵俊峰、史丛丛、孙嘉阳
出版信息:
页数:18页 | 字数:34 千字 | 开本: 大16开

内容描述

目次

前言…………………………Ⅰ

1范围………………………1

2规范性引用文件…………………………1

3术语和定义………………1

4缩略语……………………2

5分类过程…………………2

5.1概述…………………2

5.2分类规划……………3

5.3分类准备……………3

5.4分类实施……………4

5.5结果评估……………5

5.6维护改进……………5

6分类视角…………………6

6.1概述…………………6

6.2技术选型视角………………………6

6.3业务应用视角………………………6

6.4安全隐私保护视角…………………6

7分类维度…………………6

7.1概述…………………6

7.2技术选型维度………………………7

7.3业务应用维度………………………9

7.4安全隐私保护维度…………………12

8分类方法…………………12

8.1线分类法……………12

8.2面分类法……………13

8.3混合分类法…………………………13

附录资料性附录大数据分类示例

A()…………………14

前言

本标准按照/—给出的规则起草。

GBT1.12009

。。

请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别这些专利的责任

信息技术大数据数据分类指南

1范围

、。

本标准提供了大数据分类过程及其分类视角分类维度和分类方法等方面的建议和指导

本标准适用于指导大数据分类。

2规范性引用文件

下列文件对于本文件的应用是必不可少的凡是注日期的引用文件仅注日期的版本适用于本文

。,

件凡是不注日期的引用文件其最新版本包括所有的修改单适用于本文件

。,()。

/—国民经济行业分类

GBT47542017

/—信息技术大数据术语

GBT352952017

3术语和定义

界定的以及下列术语和定义适用于本文件为了便于使用以下重复列出了

/—。,

GBT352952017

/—中的某些术语和定义。

GBT352952017

3.1

大数据犫犻犱犪狋犪

、、、,

具有体量巨大来源多样生成极快且多变等特征并且难以用传统数据体系结构有效处理的包含

大量数据集的数据。

注:,、、,

国际上大数据的个特征普遍不加修饰地直接用和予以表述并分别赋予

4volumevarietvelocitvariabilit

yyy

了它们在大数据语境下的定义:

体量构成大数据的数据集的规模

)volume:。

多样性数据可能来自多个数据仓库数据领域或多种数据类型

b)variet:、。

):。

c速度velocit单位时间的数据流量

):,、。

d多变性variabilit大数据其他特征即体量速度和多样性等特征都处于多变状态

[/—,]

GBT352952017定义2.1.1

3.2

数据集犱犪狋犪狊犲狋

数据记录汇聚的数据形式。

注它可以具有大数据的体量速度多样性和易变性特征数据集的特征表征的是数据本身或静态数据而数据

:、、。,

的特征,,。

当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时表征的是动态数据

定义

[/—,]

GBT3529520172.1.46

3.3

大数据分类犫犻犱犪狋犪犮犾犪狊狊犻犳犻犮犪狋犻狅狀

,,

根据大数据的属性或特征将其按一定的原则和方法进行区分和归类并建立起一定的分类体系和

排列顺序的过程。

/—

犌犅犜386672020

3.4

分类主体犮犾犪狊狊犻犳犻犮犪狋犻狅狀狊狌犫犲犮狋

、、、、。

大数据收集存储使用分发删除等过程中对大数据进行梳理归类的组织或个人

3.5

分类视角犮犾犪狊狊犻犳犻犮犪狋犻狅狀犪狀犾犲

分类主体观察和开展大数据分类活动的角度。

3.6

分类维度犮犾犪狊狊犻犳犻犮犪狋犻狅狀犱犻犿犲狀狊犻狅狀

用于实现分类的数据所具有的某个或某些共同特征。

注:、、、。

常见数据分类维度包括产生来源结构化特征业务归属处理时效性要求等

3.7

分类方法犮犾犪狊狊犻犳犻犮犪狋犻狅狀犿犲狋犺狅犱

,。

根据选定的分类维度将数据类别以某种形式进行排列组织的逻辑方法

3.8

数据分发犱犪狋犪犱犻狊狋狉犻犫狌狋犲

、、。

将原始数据处理数据分析结果等形式的数据传递给内部或外部实体的过程

注:,、、、。

数据分发包括线上或线下等多种方式如数据交换数据交易数据共享数据公开等

3.9

类别犮犪狋犲狅狉

犵狔

具有共同属性或特征的数据的集合

()。

4缩略语

下列缩略语适用本文件。

提取转换和加载

:、()

ETLExtractTransformLoad

文件传输协议

:()

FTPFileTransferProtocol

:()

SQL结构化查询语言StructuredQuerLanuae

ygg

5分类过程

5.1概述

、、、、,。

大数据分类过程划分为分类规划分类准备分类实施结果评估维护改进个阶段如图所示

51

/—

犌犅犜386672020

图大数据分类过程

本章规范了大数据的分类过程并根据大数据实际应用场景在第章第章第章分别对分类

,,6、7、8

视角分类维度分类方法个关键步骤进行规范具体分类示例参见附录

、、3,A。

5.2分类规划

5.2.1选择分类视角

选择分类视角过程包括:

a)明确分类业务场景;

b)根据业务场景选取分类视角。

注:分类视角见第章。

5.2.2制定工作计划

制定工作计划过程包括:

a)明确规划拟开展分类的数据范围;

b)明确拟采用的分类维度和方法;

)明确预期分类结果;

d)明确分类工作实施方案及进度安排;

)明确对分类结果的评估方法;

)明确对分类结果体系的维护方案。

5.3分类准备

5.3.1调研数据现状

调研数据现状过程包括:

调研数据产生情况包括但不限于数据产生的场景主体方式频率稀疏稠密合法合规

a),、、、、、

性等;

),、、、;

b调研数据存储现状包括但不限于数据内容的格式存储方式存储位置存储量等

调研数据质量情况包括但不限于数据的规范性完整性准确性一致性时效性可访问

),、、、、、

性等;

),、、;

d调研数据业务类型如组织人事管理数据经营数据财务数据等

/—

犌犅犜386672020

),、、;

e调研数据敏感程度包括但不限于数据的涉密程度安全性保护需求等

调研数据应用情况包括但不限于数据的使用目的应用领域使用方式等

),、、;

调研数据时效性情况包括但不限于数据处理的时效性要求数据价值时效性等

),、;

调研数据权属情况包括但不限于数据的所有权管理权使用权等

h),、、。

5.3.2确定分类对象

确定分类对象过程包括:

a)确定数据分类的业务场景;

b)确定数据产生的起止时间;

)确定数据量大小;

d)确定数据产生频率;

)确定数据结构化特征;

)确定数据存储方式;

)确定数据处理时效性;

h)确定数据交换方式;

)确定数据产生来源;

)确定数据流通类型;

k)确定数据质量;

)确定数据敏感程度。

5.3.3选择分类维度

选择分类维度过程包括:

a)梳理分类视角的数据特征;

b)根据数据特征选取分类维度。

注:分类维度见第章。

5.3.4选择分类方法

选择分类方法过程宜明确分类维度的排列顺序和组合方式。

注:分类方法见第章。

18

注若选择混合分类法还需考虑以哪种分类维度为主哪种分类维度作为补充

2:,,。

5.4分类实施

5.4.1拟定实施流程

拟定实施流程宜结合大数据的生命周期拟定具体的分类实施流程包括但不限于明确实施步骤

,,、

启动实施工作开展实施工作总结实施过程等

、、。

5.4.2开发工具脚本

开发工具脚本宜根据实施流程分类维度和分类方法编写分类算法遵循软件开发或者脚本编制

定制服务