DB52/T 1540.3-2020 政务数据 第3部分:数据清洗加工规范
DB52/T 1540.3-2020 DB52/T 1540.3-2020 Government Affairs Data Part 3: Specification for Data Cleaning and Processing
基本信息
发布历史
-
2020年11月
研制信息
- 起草单位:
- 起草人:
- 出版信息:
- 页数:18页 | 字数:- | 开本: -
内容描述
ICS35.020
CCSL70
DB52
贵州省地方标准
DB52/T1540.3—2020
政务数据第3部分:数据清洗加工规范
Governmentdata——Part3:Datacleaningandprocessingspecification
2020-11-20发布2020-12-20实施
贵州省市场监督管理局发布
DB52/T1540.3—2020
目次
前言................................................................................II
1范围..............................................................................1
2规范性引用文件....................................................................1
3术语和定义........................................................................1
4缩略语............................................................................2
5环境要求..........................................................................2
6过程要求..........................................................................3
附录A(资料性)典型业务数据转换规则表.............................................10
I
DB52/T1540.3—2020
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起
草。
本文件是DB52/T1540的第3部分。DB52/T1540已经发布了以下部分:
——第3部分:数据清洗加工规范。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本文件由贵州省大数据发展管理局提出。
本文件由贵州省大数据标准化技术委员会归口。
本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云
上贵州大数据产业发展有限公司、信通达智能科技有限公司。
本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、
秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。
II
DB52/T1540.3—2020
政务数据第3部分:数据清洗加工规范
1范围
本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。
本文件适用于政务数据的清洗加工。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
DB52/T1126—2016政府数据数据脱敏工作指南
3术语和定义
下列术语和定义适用于本文件。
3.1
数据清洗加工datacleaningandprocessing
运用一定方法修正识别到的数据问题,提高数据质量的过程。
3.2
政务数据governmentdata
各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。
注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。
[来源:GB/T38664.1—2020,3.1]
3.3
噪声数据noisydata
无意义数据,或所有难以被机器正确理解和翻译的数据。
3.4
结构化数据structureddata
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用
关系模型予以有效描述。
[来源:GB/T35295—2017,2.2.13]
1
DB52/T1540.3—2020
3.5
非结构化数据unstructureddata
不具有预定义模型或未以预定义方式组织的数据。
[来源:GB/T35295—2017,2.1.25]
3.6
半结构化数据semi-structureddata
具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。
示例:XML文档内容,每项都被一对标记封起来,如<title></title>,表面上看是结构化数据,但<title></title>
之间的数据却是千变万化,这是典型的半结构化数据。
[来源:DA/T82—2019,2.8]
3.7
表结构tablestructure
为主体层内容提供表示语义的一种存储范例。
定制服务
推荐标准
- HG/T 4889-2016 工业邻苯二甲酸二(2-丙基庚)酯(DPHP) 2016-01-15
- HG/T 4900-2016 带式输送机用聚氨酯防尘带 2016-01-15
- HG/T 4946-2016 甲霜·锰锌可湿性粉剂 2016-01-15
- HG/T 2848-2016 二氯喹啉酸原药 2016-01-15
- HG/T 4914-2016 上光膜压敏胶粘带 2016-01-15
- HG/T 4902-2016 橡胶植草砖 2016-01-15
- HG/T 4852-2016 农业用硝酸铵钾 2016-01-15
- HG/T 2849-2016 二氯喹啉酸可湿性粉剂 2016-01-15
- HG/T 2866-2016 橡胶护舷 2016-01-15
- HG/T 4036-2016 反应艳黄M-4G(C.I.反应黄186) 2016-01-15