DB52/T 1540.3-2020 政务数据 第3部分:数据清洗加工规范

DB52/T 1540.3-2020 DB52/T 1540.3-2020 Government Affairs Data Part 3: Specification for Data Cleaning and Processing

贵州省地方标准 简体中文 现行 页数:18页 | 格式:PDF

基本信息

标准号
DB52/T 1540.3-2020
标准类型
贵州省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2020-11-20
实施日期
2020-12-20
发布单位/组织
贵州省市场监督管理局
归口单位
-
适用范围
-

发布历史

研制信息

起草单位:
起草人:
出版信息:
页数:18页 | 字数:- | 开本: -

内容描述

ICS35.020

CCSL70

DB52

贵州省地方标准

DB52/T1540.3—2020

政务数据第3部分:数据清洗加工规范

Governmentdata——Part3:Datacleaningandprocessingspecification

2020-11-20发布2020-12-20实施

贵州省市场监督管理局发布

DB52/T1540.3—2020

目次

前言................................................................................II

1范围..............................................................................1

2规范性引用文件....................................................................1

3术语和定义........................................................................1

4缩略语............................................................................2

5环境要求..........................................................................2

6过程要求..........................................................................3

附录A(资料性)典型业务数据转换规则表.............................................10

I

DB52/T1540.3—2020

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

本文件是DB52/T1540的第3部分。DB52/T1540已经发布了以下部分:

——第3部分:数据清洗加工规范。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本文件由贵州省大数据发展管理局提出。

本文件由贵州省大数据标准化技术委员会归口。

本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云

上贵州大数据产业发展有限公司、信通达智能科技有限公司。

本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、

秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。

II

DB52/T1540.3—2020

政务数据第3部分:数据清洗加工规范

1范围

本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。

本文件适用于政务数据的清洗加工。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

DB52/T1126—2016政府数据数据脱敏工作指南

3术语和定义

下列术语和定义适用于本文件。

3.1

数据清洗加工datacleaningandprocessing

运用一定方法修正识别到的数据问题,提高数据质量的过程。

3.2

政务数据governmentdata

各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。

注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。

[来源:GB/T38664.1—2020,3.1]

3.3

噪声数据noisydata

无意义数据,或所有难以被机器正确理解和翻译的数据。

3.4

结构化数据structureddata

一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用

关系模型予以有效描述。

[来源:GB/T35295—2017,2.2.13]

1

DB52/T1540.3—2020

3.5

非结构化数据unstructureddata

不具有预定义模型或未以预定义方式组织的数据。

[来源:GB/T35295—2017,2.1.25]

3.6

半结构化数据semi-structureddata

具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。

示例:XML文档内容,每项都被一对标记封起来,如<title></title>,表面上看是结构化数据,但<title></title>

之间的数据却是千变万化,这是典型的半结构化数据。

[来源:DA/T82—2019,2.8]

3.7

表结构tablestructure

为主体层内容提供表示语义的一种存储范例。

定制服务

    推荐标准