DB5227/T 112-2022 智慧黔南 数据质量评价规范
DB5227/T 112-2022 Smart Qiannan Data Quality Evaluation Specification
基本信息
发布历史
-
2022年12月
研制信息
- 起草单位:
- 黔南州大数据发展管理局、黔南州市场监督管理局、都匀市大数据发展服务中心等
- 起草人:
- 潘志刊、杨宗俊、颜家远、刘超等
- 出版信息:
- 页数:21页 | 字数:- | 开本: -
内容描述
ICS35.240.01
CCSL70
5227
黔南州地方标准
DB5227/T112—2022
智慧黔南数据质量评价规范
Smartqiannan-Dataqualityevaluationstandard
2022-12-16发布2023-04-01实施
黔南布依族苗族自治州市场监督管理局 发布
DB5227/T112—2022
目次
前言..................................................................................II
1范围................................................................................1
2规范性引用文件......................................................................1
3术语和定义..........................................................................1
4数据质量评价总体流程................................................................2
5数据质量评价要求....................................................................3
5.1确定业务目标和要求..............................................................3
5.2剖析待评价数据..................................................................4
5.3明确数据质量评价指标............................................................5
5.4设计质量校验规则................................................................5
5.5配置质量校验规则................................................................9
5.6评估数据质量并输出报告..........................................................9
6整改问题数据.......................................................................11
7数据共享开放工作流程...............................................................11
附录A(资料性)表级计算得分示例.....................................................12
附录B(资料性)部门级计算得分示例...................................................13
附录C(资料性)数据质量报告样例.....................................................14
C.1数据质量情况分析...............................................................14
C.2数据质量得分及排名对比.........................................................14
C.3数据异常响应问题变化趋势.......................................................15
C.4问题数据整改建议...............................................................15
附录D(规范性)黔南州数据共享开放工作流程...........................................17
参考文献..............................................................................18
I
DB5227/T112—2022
前言
本文件按照GB/T1.12020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任
本文件由黔南州大数据发展管理局提出。
本文件由黔南州大数据发展管理局归口。
本文件起草单位:黔南州大数据发展管理局、黔南州市场监督管理局、都匀市大数据发展服务中心、
广西大学计算机与电子信息学院、黔南民族师范学院、北京东方国信科技股份有限公司、中国电信股份
有限公司黔南分公司。
本文件主要起草人:潘志刊、杨宗俊、颜家远、刘超、黄子吉、何晓慧、陈文涛、宋俊、李怡青、
董婧、殷文辉、左为、韦广柱、刘峻、李明江、周锦程、张永丽、胡嘉斌、宋佳南、杨森、传洪波。
II
DB5227/T112—2022
智慧黔南数据质量评价规范
1范围
本文件规定了智慧黔南数据质量评价规范的全流程,包括数据质量评价总体流程、数据质量评价要
求、整改问题数据、数据共享开放工作流程。
本文件适用于智慧黔南数据质量评价规范的具体实施工作,为各行业各部门评价数据质量提供参考。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T5271.1信息技术词汇第1部分:基本术语
GB/T5271.17信息技术词汇第17部分:数据库
GB/T36344信息技术数据质量评价指标
3术语和定义
GB/T5271、GB/T36344界定的以及下列术语和定义适用于本文件。
3.1
数据
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[来源:GB/T5271.17—2010,17.06.05]
3.2
元数据
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[来源:GB/T5271.17—2010,17.06.05]
3.3
数据质量
在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。
[来源:GB/T36344—2018,2.3]
3.4
原始数据
终端用户所存储使用的各种未经过处理或简化的数据。
[来源:GB/T36344—2018,2.4]
1
DB5227/T112—2022
3.5
数据集
具有一定主题,可以标识并可以被计算机化处理的数据集合。
[来源:GB/T36344—2018,2.6]
3.6
数据质量校验
对数据质量进行校对、核查的过程。
3.7
数据质量评价
指以原始数据为基础,充分考虑数据之间的相关性、匹配性、逻辑性,采用科学方法对数据的规范
性、完整性、准确性、一致性、时效性、可访问性进行判断和分析,对可能存在的数据质量问题进行追
溯和核实,对数据进行确认的过程。
3.8
数据标准
数据的命名、定义、结构和取值范围方面的规则和基准。
[来源:GB/T36344—2018,2.8]
3.9
数据剖析
用适当的统计、分析等方法对原始数据进行分析,对其特征加以汇总和理解,以求最大化地开发数
据的功能,发挥数据的作用。
4数据质量评价总体流程
数据质量评价流程可保证数据质量评价整个过程的有序及有效进行,具体流程如图1所示:
2
DB5227/T112—2022
图1数据质量评价流程
5数据质量评价要求
5.1确定业务目标和要求
内容包括但不限于:
——项目的背景、计划和目标;
——数据存在的具体问题;
——问题数据的产生,例如流程、组织、技术等;
3
DB5227/T112—2022
——问题数据解决的优先次序。
5.2剖析待评价数据
内容包括但不限于:
——数据的元数据信息,例如数据名称、数据格式、数据类型、数据精度等。
——数据值的分布信息,例如主键唯一性、缺失值、取值范围、异常符号等。
——设定字段的级别,按业务重要性程度和数据问题的严重性程度对原始数据进行业务影响分级,
分为一级、二级、三级。三级级别最高,重要程度分类方式如下:
三级:业务主键;
二级:数值型、日期型、文本类表示的日期字段,短文本类字段(如名称、地址、代码、
类型等特征字段),权威数据来源字段;
4
DB5227/T112—2022
一级:空值率大于80%、其他类型字段,如:源业务系统字段、长文本描述类型字段。
5.3明确数据质量评价指标
数据质量评价指标划分为:完整性、一致性、准确性、合理性、唯一性与及时性六个维度。其中,
完整性、一致性、准确性应符合GB/T36344的规定。
5.4设计质量校验规则
5.4.1制定校验规则
概述
根据质量评价指标制定12项质量校验规则,对数据质量进行计算、评分,质量评价指标和校验规则
的对应关系见表1。
表1质量评价指标对应的质量校验规则表
序号质量评价指标质量校验规则
字段完整性校验
1
空值校验
完整性
2记录数校验
3参照校验-双向校验
4一致性一致性校验
5值域校验
6准确性格式校验
7参照校验-单向校验
8逻辑校验
9合理性波动性校验
10关系校验
11唯一性重复校验
12及时性记录数校验
完整性
5
DB5227/T112—2022
按照数据规则要求,数据元素被赋予数值的程度,包括数据元素的完整性和数据记录的完整性。对
应的规则为:字段完整性校验、空值校验、记录数校验、参照校验-双向校验,完整性评价指标见表2。
表2完整性校验规则
序号一级指标二级指标指标描述计算公式
字段完整性对业务表的字段完整性校验,检查A
1A=数据内容不符合字段完整性的数据记录条数
校验字段个数和字段名称是否完整。X=(1−B)×100%
B=数据记录总数
对非空字段检查填充率是否为A
2
定制服务
推荐标准
- DB5117/T 47-2022 银杏果加工技术规程 2022-01-13
- DB5117/T 46-2022 花脸香蘑栽培技术规程 2022-01-13
- DB5111/T 18-2021 乐山佛手生产技术规程 2021-12-30
- DB5111/T 19-2021 地理标志产品 峨眉山矿泉水加工技术规范 2021-12-30
- DB5111/T 15-2021 乐山市循环经济园区建设指南 2021-12-01
- DB5111/T 17-2021 乐山市出口绿茶 眉茶生产加工技术规程 2021-12-30
- DB5111/T 21-2021 地理标志产品 峨眉山雪魔芋生产加工技术规范 2021-12-30
- DB5117/T 45-2022 宣汉糯红高粱生产技术规程 2022-01-13
- DB5111/T 14-2021 硅材料工业企业能源管理规范 2021-12-01
- DB5111/T 20-2021 地理标志产品 峨眉糕加工技术规范 2021-12-30