DB37/T 4646.2-2023 公共数据 数据治理规范 第2部分:数据清洗比对
DB37/T 4646.2-2023 Public Data Data Governance Standards Part 2: Data Cleaning and Matching
基本信息
发布历史
-
2023年12月
研制信息
- 起草单位:
- 山东省大数据局、山东省大数据中心、山东新一代标准化研究院有限公司、山东省计算中心(国家超级计算济南中心)、江苏数兑科技有限公司、山东省新型智慧城市大数据工程技术研究院、中国标准化研究院、山东省标准化研究院
- 起草人:
- 杨峰、张昭、李晓彤、郭雨晴、史丛丛、毛杰、马传玺、谷蕾、于璐、关新雨、石俊龙、王伟、石伟、曾振、钱恒、刘佳佳、李杨、林锋、王溪、张媛、邹丰义、郑祎、许潇文、相吉利、王亚楠.
- 出版信息:
- 页数:16页 | 字数:- | 开本: -
内容描述
ICS35.240
CCSL67
37
山东省地方标准
DB37/T4646.2—2023
公共数据数据治理规范
第2部分:数据清洗比对
Publicdata—Datagovernancespecification—
Part2:Datacleaningandcomparison
2023-12-28发布2024-01-28实施
山东省市场监督管理局发布
DB37/T4646.2—2023
目次
前言.................................................................................II
引言................................................................................III
1范围...............................................................................1
2规范性引用文件.....................................................................1
3术语和定义.........................................................................1
4概述...............................................................................1
5数据探查...........................................................................1
6数据质量检查.......................................................................1
6.1检查规则制定...................................................................1
6.2质量检查实施...................................................................2
7问题数据修正.......................................................................2
7.1数据修正要求...................................................................2
7.2数据修正方法...................................................................2
8数据转换...........................................................................6
9数据安全...........................................................................6
附录A(规范性)数据清洗比对流程.....................................................7
附录B(资料性)数据探查清单示例.....................................................8
附录C(资料性)数据质量检查规则示例.................................................9
附录D(资料性)数据质量检查报告示例................................................10
附录E(资料性)数据转换规则示例....................................................11
参考文献.............................................................................12
I
DB37/T4646.2—2023
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件是DB37/T4646《公共数据数据治理规范》的第2部分。DB37/T4646已经发布了以下部分:
——第1部分:数据归集;
——第2部分:数据清洗比对;
——第3部分:数据返还;
——第4部分:资源服务目录。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由山东省大数据局提出、归口并组织实施。
II
DB37/T4646.2—2023
引言
为构建完善全省一体化数据资源体系,强化数据供给,提升数据治理能力,深化数据创新应用,山
东省先后印发《山东省“十四五”数字强省建设规划》(鲁政字〔2021〕128号)等一系列政策文件,
对全省一体化数据资源体系建设和管理提出要求。
为进一步发挥标准化在全省数据治理工作规范化开展中的保障作用,针对当前数据治理中数据归集、
数据清洗比对、数据返还、资源服务目录等工作存在的普遍问题,制定DB37/T4646《公共数据数据
治理规范》系列标准。DB37/T4646拟由以下四个部分构成。
——第1部分:数据归集。目的在于规范各级公共管理和服务机构归集数据至省一体化大数据平
台的流程和要求。
——第2部分:数据清洗比对。目的在于规范对归集至省一体化大数据平台的数据开展数据清洗
比对工作的流程、方法和要求。
——第3部分:数据返还。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展
数据返还工作的流程和要求。
——第4部分:资源服务目录。目的在于规范各级公共管理和服务机构依托省一体化大数据平台
开展资源服务目录管理和应用的工作要求。
III
DB37/T4646.2—2023
公共数据数据治理规范第2部分:数据清洗比对
1范围
本文件规定了公共数据清洗比对的数据探查、数据质量检查、问题数据修正、数据转换和数据安全
等要求。
本文件适用于对归集至省一体化大数据平台的数据开展数据清洗比对工作,各级公共管理和服务机
构数据清洗比对工作参照执行。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T2261.1—2003个人基本信息分类与代码第1部分:个人性别代码
GB/T22239—2019信息安全技术网络安全等级保护基本要求
GB/T35273—2020信息安全技术个人信息安全规范
GB/T36344—2018信息技术数据质量评价指标
DB37/T4646.1—2023公共数据数据治理规范第1部分:数据归集
3术语和定义
DB37/T4646.1—2023界定的以及下列术语和定义适用于本文件。
3.1
数据标准datastandard
数据的命名、定义、结构和取值范围方面的规则和基准。
[来源:GB/T36344—2018,2.8]
4概述
对归集至省一体化大数据平台的数据进行清洗比对,通过数据探查、数据质量检查、问题数据修正
和数据转换,提升数据质量。数据清洗比对流程应符合附录A。
5数据探查
5.1应根据数据库表结构、数据字典等,对归集数据进行数据探查,形成数据探查清单,示例见附录
B。
5.2如存在数据探查清单与数据库表结构不一致、数据字典缺失等情况,应进行补充修改。
6数据质量检查
6.1检查规则制定
1
DB37/T4646.2—2023
6.1.1数据质量检查规则应基于GB/T36344中的数据质量评价指标制定,数据质量检查规则应符合国
家标准、行业标准和地方标准。
6.1.2数据质量检查规则应基于业务特征和数据特点制定,并同步至数据质量检查规则库,数据质量
检查规则示例见附录C。
6.1.3数据质量检查规则应通过数据质量检查规则库统筹管理并进行动态更新维护。
6.2质量检查实施
应基于数据探查清单为归集数据配置数据质量检查规则,进行数据质量检查,生成数据质量检查报
告。数据质量检查报告包括但不限于数据质量总体情况、表数据质量情况、问题数据情况等,数据质量
检查报告示例见附录D。
7问题数据修正
7.1数据修正要求
7.1.1对于存在数据质量问题的归集数据,应根据数据质量检查报告选择合适的数据修正方法,其中:
a)对于存在字段缺失、记录缺失和数值缺失的数据应选择合适的缺失值修正方法,主要包括删
除处理和填充处理;
b)对于存在逻辑、格式、值域等问题的数据应选择合适的违规值修正方法,主要包括删除处理
和修改处理;
c)对于存在字段重复和记录重复的数据应选择合适的重复值修正方法,主要包括字段排重、依
关键字段的记录排重和依重复度的记录排重;
d)对于存在冲突的数据应选择合适的冲突值修正方法,主要包括字段冲突处理和记录冲突处理;
定制服务
推荐标准
- SN/T 0192-2017 出口水果中溴螨酯残留量的检测方法 2017-05-12
- SN/T 3147-2017 出口食品中邻苯二甲酸酯的测定方法 2017-05-12
- SN/T 0868-2017 出口甜叶菊中总糖甙含量的测定 2017-05-12
- SN/T 0869-2017 出口饮料中抗坏血酸的测定 2017-05-12
- SN/T 1651-2017 进出口液化石油气采样方法 手工法 2017-05-12
- SN/T 2206.14-2017 化妆品微生物检验方法 第14部分:腐生葡萄球菌 2017-05-12
- SN/T 1828.1-2017 进出口危险货物分类试验方法 第1部分:通则 2017-05-12
- SN/T 2024-2017 出入境动物检疫实验室生物安全分级技术要求 2017-05-12
- SN/T 1306-2017 出入境人员预防接种或预防措施国际证书签发规程 2017-05-12
- SN/T 1652-2017 进出口燃气轮机和柴油发动机燃料油污染物检测方法 旋转盘电极原子发射光谱法 2017-05-12