DB35/T 1952-2020 公共信息资源开放 数据质量评价规范

DB35/T 1952-2020 Opening Public Information Resources: Data Quality Evaluation Specification

福建省地方标准 简体中文 现行 页数:17页 | 格式:PDF

基本信息

标准号
DB35/T 1952-2020
标准类型
福建省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2020-12-30
实施日期
2021-03-30
发布单位/组织
福建省市场监督管理局
归口单位
福建省信息化标准化技术委员会
适用范围
本文件给出了公共信息资源开放数据集元数据描述,确立了数据质量评价的原则、方法、指标和步骤。 本文件适用于公共信息资源管理、开放、开发和质量评价等活动中的数据质量评价。

发布历史

研制信息

起草单位:
福建省经济信息中心、浪潮软件股份有限公司。
起草人:
阙天豪、何坤山、郑清溪、吴阳、戴起飞、张兆勇、鲍庆峰、许剑雄。
出版信息:
页数:17页 | 字数:- | 开本: -

内容描述

ICS35.020

CCSL70

35

福建省地方标准

DB35/T1952—2020

公共信息资源开放数据质量评价规范

Opendata—Specificationforqualityevaluation

2020-12-30发布

2021-03-30实施

福建省市场监督管理局发布

I

DB35/T1952—2020

目次

前言..............................................................................II

1范围.................................................................................1

2规范性引用文件.......................................................................1

3术语和定义...........................................................................1

4数据集元数据描述.....................................................................2

5数据质量评价原则.....................................................................3

6数据质量评价方法.....................................................................3

6.1重复值分析法.....................................................................3

6.2缺失值分析法.....................................................................4

6.3值域分析法.......................................................................4

6.4逻辑关系分析法...................................................................4

6.5词组比对分析法...................................................................4

6.6实验观察法.......................................................................4

6.7经验分析法.......................................................................4

7数据质量评价指标.....................................................................4

7.1完整性...........................................................................4

7.2一致性...........................................................................5

7.3唯一性...........................................................................6

7.4可机读性.........................................................................7

7.5规范性...........................................................................8

7.6及时性...........................................................................9

7.7原始性...........................................................................9

7.8非歧视性.........................................................................9

7.9安全性..........................................................................10

8数据质量评价步骤....................................................................10

8.1步骤............................................................................10

8.2选择评价指标....................................................................11

8.3初步评价........................................................................11

8.4数据集元数据评价................................................................11

8.5标识数据记录评价................................................................11

8.6内容数据记录评价................................................................11

8.7形成评价结果....................................................................12

附录A(资料性)评价结果应用示例.................................................13

I

DB35/T1952—2020

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由福建省经济信息中心提出。

本文件由福建省信息化标准化技术委员会归口。

本文件起草单位:福建省经济信息中心、浪潮软件股份有限公司。

本文件主要起草人:阙天豪、何坤山、郑清溪、吴阳、戴起飞、张兆勇、鲍庆峰、许剑雄。

II

DB35/T1952—2020

公共信息资源开放数据质量评价规范

1范围

本文件给出了公共信息资源开放数据集元数据描述,确立了数据质量评价的原则、方法、指标和步

骤。

本文件适用于公共信息资源管理、开放、开发和质量评价等活动中的数据质量评价。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T7408—2005数据元和交换格式信息交换日期和时间表示法

GB/T19710—2005地理信息元数据

GB/T36344—2018信息技术数据质量评价指标

3术语和定义

GB/T19710—2005、GB/T36344—2018界定的以及下列术语和定义适用于本文件。

3.1

政务部门governmentdepartment

国家机关、经法律法规授权或者受委托管理公共事务的事业单位和团体组织。

3.2

公共信息资源publicinformationresources

政务部门、公共服务企业在履行职责或经营过程中制作或获取的,以一定形式记录、保存的,与企

业和公众息息相关的文件、资料、图表和数据等各类信息资源。

3.3

公共信息资源开放openingofpublicinformationresources

经过数据加工处理后,将不涉及国家秘密、商业秘密和个人隐私的公共信息资源,通过公共信息资

源开放平台,提供给社会使用的过程。

3.4

数据质量dataquality

在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。

1

DB35/T1952—2020

[来源:GB/T36344—2018,2.3]

3.5

数据质量评价dataqualityevaluation

按照数据质量评价指标体系,采用适当的方法对数据质量进行评估,并形成数据质量评价结果的过

程。

3.6

数据集dataset

具有一定主题,可以标识并可以被计算机化处理的数据集合。

[来源:GB/T36344—2018,2.6]

3.7

元数据子集metadatasection

元数据的子集合,由相关的元数据实体和元素组成。

[来源:GB/T19710—2005,4.8]

3.8

数据项dataitem

数据的不可分割的最小单位。

4数据集元数据描述

数据集元数据包括标识子集和内容子集,描述见表1。

表1数据集元数据

序号子集元素填写说明填写建议

缩略描述公共信息资源内由概括公共信息资源内容的标题和“信息”字

1名称

容的标题样组成

对公共信息资源内容进行

2摘要与公共信息资源名称相对应

概要说明的文字

公共信息资源面向社会开根据公共信息资源开放的实际情况,选择“授

3开放类型

放的类型权开放、普遍开放”之一

公共信息资源提供单位的

4标识子集提供单位名称以公共信息资源提供单位的全称表示

名称

提供单位统一社会公共信息资源提供单位的

518位统一社会信用代码

信用代码统一社会信用代码

公共信息资源提供单位的

6提供单位地址××省××市××区××街××号

物理地址

公共信息资源提供单位的

7提供单位联系方式电子邮箱或办公电话号码

联系方式

2

DB35/T1952—2020

表1数据集元数据(续)

序号子集元素填写说明填写建议

根据公共信息资源更新实际情况,选择“每

年、每半年、每季度、每月、每周、每日、

提供单位更新公共信息实时、其他”等周期之一;

8更新周期

资源的周期属于结构化数据资源的,按更新频率较快的

数据项进行描述;属于非结构化数据资源的,

标识子集

则对公共信息资源整体进行描述

提供单位发布公共信息按照GB/T7408-2005执行,格式为

9发布日期

资源的日期YYYY-MM-DD

提供单位更新公共信息按照GB/T7408-2005执行,格式为

10更新日期

资源的日期YYYY-MM-DD

数据表名称;一个数据

11数据集摘要名称清晰、无歧义

集下可以有多个数据表

数据集特征数据元填写建议如下:

a)数据项名称:描述结构化信息资源中具体

数据项的标题,适用于格式为数据库、电子

内容子集表格类等的信息资源

数据项名称、数据项格

12数据集特征数据元b)数据项格式:应依据数据类型,选择“字

式、数据项是否脱敏

符串型、数值型、货币型、日期型、日期时

间型、逻辑型、通用型、整型、双精度型、

浮点型、长文本、二进制”之一

c)数据项是否脱敏:选择“是、否”之一

5数据质量评价原则

5.1系统性

综合考虑各要素对数据质量的影响,全面评价公共信息资源开放应具备的条件、要求和优化提高数

据质量的要素。

5.2通用性

根据不同参与主体、应用场景合理选择评价指标,并设置分值和权重。

5.3可操作性

评价内容和指标可量化,评价步骤和方法可操作,评价结果可使用。

6数据质量评价方法

6.1重复值分析法

3

DB35/T1952—2020

在非冗余的情况下,将每条数据记录中的部分数据项或者所有数据项的取值,与所有的数据记录进

行逐一比对,识别重复记录。

6.2缺失值分析法

对每条数据记录的所有数据项进行逐一检查,识别数据记录的数据项是否为空。

6.3值域分析法

将数据项的取值与字段的取值区间进行比对,识别是否超出取值区间。

6.4逻辑关系分析法

通过对数据记录中相关数据项取值的内在逻辑关系进行分析,识别违背逻辑关系的数据记录。

6.5词组比对分析法

将数据记录目标数据项的取值与目标敏感词、常见错词等词库内容进行比对,识别与词库相同的数

据记录。

6.6实验观察法

设置某些条件,通过控制行为过程,观察符合条件的结果是否出现。

6.7经验分析法

对比验证数据取值与日常生产生活中产生的经验取值,证实或证伪数据内容。

经验分析法常与逻辑关系分析法、词组比对分析法联合使用。

7数据质量评价指标

7.1完整性

完整性评价指标见表2。

表2完整性评价指标

一级二级评价

序号指标描述计算方法示例/说明

指标指标方法

同一数据集按时间、地域、

数据集一个数据集是否碎片化,是经验数据集不完整得0

1产品类型等属性,拆分成多

完整性否人为拆分成多个数据集分析数据集完整得1

完个数据集

整标识子标识子集元数据填标识子集元数据完整性示例

定制服务

    相似标准推荐

    更多>