DB3302/T 1126-2021 公共数据管理 数据共享规范

DB3302/T 1126-2021 Public Data Management and Data Sharing Standards

浙江省地方标准 简体中文 现行 页数:30页 | 格式:PDF

基本信息

标准号
DB3302/T 1126-2021
标准类型
浙江省地方标准
标准状态
现行
中国标准分类号(CCS)
-
国际标准分类号(ICS)
发布日期
2021-12-10
实施日期
2022-01-10
发布单位/组织
宁波市市场监督管理局
归口单位
宁波市大数据发展管理局
适用范围
-

发布历史

研制信息

起草单位:
宁波市大数据发展管理局、宁波市标准化研究院、杭州数政科技有限公司
起草人:
杜永华、俞文群、谢先龙、朱宝剑、邓德苏、吴建港、王霄翔、许司琪、闫连玉、彭卫华、王冲
出版信息:
页数:30页 | 字数:- | 开本: -

内容描述

ICS03.080.99

CCSA16

3302

浙江省宁波市地方标准

DB3302/T1126—2021

公共数据管理数据共享规范

Publicdatamanagement—specificationfordatasharing

2021-12-10发布2022-01-10实施

宁波市市场监督管理局发布

DB3302/T1126—2021

目次

前言.................................................................................II

1范围................................................................................3

2规范性引用文件......................................................................3

3术语和定义..........................................................................3

4缩略语..............................................................................4

5数据归集............................................................................4

5.1数据资源体系架构................................................................4

5.2归集要求........................................................................5

6数据共享............................................................................5

6.1共享方式........................................................................5

6.2数据共享体系....................................................................6

6.3共享要求........................................................................6

7共享专题库/数据表建设...............................................................7

7.1共享专题库的构成................................................................7

7.2共享专题库/数据表表名命名规则...................................................7

7.3业务表数据元组成规则............................................................8

8质量评估............................................................................8

8.1评估维度........................................................................8

8.2评估方法........................................................................9

8.3计算方法........................................................................9

附录A(规范性)公共数据信息类别及关键索引数据元....................................10

附录B(资料性)核心业务数据元......................................................12

参考文献.............................................................................29

图1数据资源体系架构..................................................................5

图2数据使用示意图....................................................................7

表1数据质量评估规则及编码............................................................9

表A.1关键索引数据元.................................................................10

表B.1核心业务数据元.................................................................12

I

DB3302/T1126—2021

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由宁波市大数据发展管理局提出并归口。

本文件起草单位:宁波市大数据发展管理局、宁波市标准化研究院、杭州数政科技有限公司。

本文件主要起草人:杜永华、俞文群、谢先龙、朱宝剑、邓德苏、吴建港、王霄翔、许司琪、闫连

玉、彭卫华、王冲。

II

DB3302/T1126—2021

公共数据管理数据共享规范

1范围

本文件规定了公共数据共享相关术语和定义、缩略语以及数据归集、数据共享、共享专题库/数据

表和质量评估的要求。

本文件适用于公共数据在归集、共享、质量评估等环节的管理。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T7408数据元和交换格式信息交换日期和时间表示法

GB11643公民身份号码

GB32100法人和其他组织统一社会信用代码编码规则

DB33/T2350-2021数字化改革术语定义

DB33/T2351数字化改革公共数据分类分级指南

3术语和定义

DB33/T2350-2021界定的以及下列术语和定义适用于本文件。

3.1

公共数据publicdata

国家机关、法律法规规章授权的具有管理公共事务职能的组织,在依法履行职责和提供公共服务过

程中,所获取和产生的数据资源以及法律、法规规定纳入公共数据管理范围的其他数据资源。

[来源:DB33/T2350-2021,定义,有修改]

3.2

数据高铁high-speeddata

通过数据库的日志采集、解析、入库等手段,提高公共数据传输速度、准确度、完整度的数据归集

方式。

[来源:DB33/T2350-2021,定义]

3.3

实时归集real-timecollection

通过数据高铁模式由日志同步实现数据实时归集的方式。

3.4

数据仓datawarehouse

国家机关以及具有公共事务管理职能的组织采集和获取的,随时间动态更新,信息类型、格式等相

对稳定的各类公共数据资源集合。

[来源:DB33/T2350-2021,定义]

3.5

接口共享interfaceSharing

3

DB3302/T1126—2021

通过接口进行数据共享的方式。

3.6

大数据处理分析系统maxcompute

一种快速、完全托管的GB/TB/PB级数据仓库解决方案。提供了完善的数据导入方案以及多种经典的

分布式计算模型,能够更快速的解决海量数据计算问题,有效降低成本,并保障数据安全。

3.7

数源部门data-sourcedepartment

共享数据提供部门。

3.8

数据使用部门datausedepartment

申请使用共享数据的部门。

3.9

专题库/数据表thematicdatabase/table

对治理后的数据进行专项分类形成可应用的库/表。

3.10

数据元dataelement;DE

用一组属性规定其定义、标识、表示和允许值的数据单元。

[来源:GB/T18391.1-2009,定义3.3.8]

4缩略语

下列缩略语适用于本文件。

HTTPS:以安全为目标的HTTP通道,在HTTP的基础上通过传输加密和身份认证保证了传输过程安全

性(HyperTextTransferProtocoloverSecureSocketLayer)

SSL:安全套接字协议(SecureSocketsLayer)

IRS:一体化资源系统(IntegratedResourcesSystem)

RDS:云数据库(RelationalDatabaseService)

5数据归集

5.1数据资源体系架构

数据资源体系架构见图1。

4

DB3302/T1126—2021

一体化资源系统(IRS)

市公共数据平台省公共数据平台

县级平台市级数据仓

省数据中心

接口

镇街数据仓区县数据仓省

封装地

感知数据感知数据基础库门

数据回流数

特色数据特色数据专题库数

市下发数据省下发数据据

数据仓

回流

专题库专题库

省平台大数据处理分析系统

市平台大数据处理分析系统

市政务云

区县归集数据市归集数据

图1数据资源体系架构

5.2归集要求

5.2.1市级平台按照省市平台建设责任分工,建立完善的数据归集系统。

5.2.2县级平台按需建设数据归集系统,建立本地数据归集能力,实现县域数据归集。

5.2.3市县平台数据归集系统采用以下两种技术模式:

——数据交换模式:通过库表桥接方式实现数据归集,

——数据高铁模式:通过数据库的日志采集、解析、入库等手段,提高公共数据传输速度、准确

度、完整度的数据归集模式。

5.2.4数据交换模式的交换体系应包含数据交换系统、交换前置节点、交换中心、桥接、数据传输、

交换监控等模块,应支持数据库、文件的归集方式。

5.2.5市级平台的数据高铁系统应具有县级数据高铁专属通道和管理模块,以满足县级平台本地数据

实时归集需求。

5.2.6数据高铁模式的实时归集系统应包含数据采集系统工具部署、数据实时仓管理、运维管理系统。

实时归集的实施包含对各业务系统的数据采集技术支持和系统对接联调。实时归集运维服务包含运维流

程规范制定、监控搭建、技术整改、文档收集、运维评估等。

6数据共享

6.1共享方式

6.1.1接口共享

接口共享系统实现市县两级复用,市接口共享系统与省接口共享系统实现对接和封装。市级

平台应通过身份认证、权限管理、密钥认证、数据加密、白名单机制、HTTPS协议、SSL证书等技术措

施,保障数据接口共享系统在数据使用与传输过程中的网络安全与数据安全。

5

DB3302/T1126—2021

共享接口系统调用响应时间应低于1500ms。高频调用接口可支撑每秒500次并发量;低频调

用接口可支撑每秒100次并发量。

6.1.2批量共享

库表授权

市级公共数据平台提供统一的大数据分析处理系统环境,各应用部门通过库表授权方式,实现批量

数据共享使用。处理后的结果数据根据数据内容的分类分级标准,经过对应审批后,通过生成接口或批

量导出方式使用。

数据回流

省、市、县级平台之间的批量数据回流:

a)省通过库表授权的方式,将省里涉及地市的数据授权给市级数据仓;

b)市通过库表授权的方式,将市里涉及县级的数据授权给县级数据仓。

6.2数据共享体系

6.2.1数据共享体系由数源部门、公共数据主管部门、数据使用部门组成。

6.2.2公共数据主管部门负责平台建设、管理,数据编目、分类分级、归集、共享以及特色数据仓建

设实施,负责本级数据使用部门共享数据申请的审批管理工作。

6.3共享要求

6.3.1共享申请

数据使用部门通过省IRS系统在线提出数据共享需求,要素应包括但不限于:

——数据需求部门,

——联系人,

——联系方式,

——应用场景,

——申请理由,

——需求数据项,

——数源单位。

6.3.2数据使用

市公共数据平台内的数据使用(见图2)可通过批量数据导出或接口服务方式将大数据分析处理系

统内处理分析后的结果数据透出至云服务器或数据库:

——批量导出:应提交数据导出申请至数据主管部门,数据主管部门审批通过后,由实施人员进

行数据导出授权,实施完成后方可导出数据。导出后的数据不能用于申请范围以外的使用途

径;

——接口导出:应提交接口申请至数据主管部门,数据主管部门审批通过后,由实施人员生成发

布接口,生成接口过程中涉及的数据导出至RDS流程无需审批,实施完成后提供接口调用信

息。

6

DB3302/T1126—2021

一体化智能化公共数据平台业务应用

ODPS

(大数据处理分析系统)

③批量导出申请/审批

RDS(云数据

市级数据仓库)

④使用dataworks(数据开发平台)数据集

成工具导出数据

③使用dataworks(数据开

发平台)数据集成工具同步

数据至RDS(无需审批)

①②

申库

请表RDS(云数据库)

审申

批请

④使用dataworks(数据开发平

台)数据服务功能生成API接口

⑥接口服务申请

⑤接口注册/审批

ECS(云服务

API接口平台

区县数据仓器)

⑦接口调用

图2数据使用示意图

7共享专题库/数据表建设

7.1共享专题库的构成

7.1.1字典表

字典表是对各数据表字段要素信息的总体描述,应包括但不限于:

——要素名称,

——代码,

——关联关系,

——属性内容,

——表示方法。

7.1.2代码表

字典类指标的输入值有特定的数据集合,即值域字典,一般包含由代码和含义组成的键值对,键值

对的代码可定长也可不定长;代码由相关业务部门制定编码规则;字典类指标包含行政区划、性别、行

业代码等。字典类指标应符合:

——字典类字段应提供对应字典表,

——字段存储值不应超出字典范围,

——字段类型:VARCHAR。

7.1.3业务数据表

应由核心业务数据元和扩展业务数据元组成,且能反映核心业务指标。

7.2共享专题库/数据表表名命名规则

7.2.1业务数据表表名命名规则:区域简称+部门简称+业务系统名+核心业务+表_扩展。具体要求如下:

7

DB3302/T1126—2021

a)区域简称:规范化简称,

b)部门简称:规范化简称,

c)业务系统名:业务系统登记名,

d)核心业务:一般4~6个中文字,且能反映业务核心内容,

e)表_扩展:表类型的说明,如字典表、代码表。

示例:宁波市交通局公交运营平台司机登记表、宁波市交通局公交运营平台司机登记表_字典。

7.2.2共享专题库名命名规则:区域简称+核心业务+专题库_扩展。具体要求如下:

a)区域简称:规范化简称,

b)核心业务:能反映一类相关核心业务的名称,

c)其他:英文的共享专题库/数据表表名在中文名称的基础上,采用首位拼音字母组合而成,如

出现重名情况时,将核心业务部分采用中文名的全部拼音字母代替,如仍有重名,则通过增

加扩展部分进行区分。

示例:宁波市司机专题库、宁波市营运车辆专题库。

7.3业务表数据元组成规则

7.3.1组成规则

业务表内的数据元由关键索引数据元、核心业务数据元、扩展业务数据元三部分组成。

关键索引数据元应符合附录A的要求;核心业务数据元应符合附录B的要求。

7.3.2关键索引数据元

关键索引数据元的数据内容一般采用编码形式:

——身份证件号码应符合GB11643的要求,

——统一社会信用代码应符合GB32100的要求,

——其他关键索引数据元编码应符合数源部门的编码规则。

7.3.3核心业务数据元

核心业务数据元应描述业务的关键和基本属性。

7.3.4扩展业务数据元

在核心业务数据元基础上,随着业务数据表的共享使用,所产生的扩展业务属性或关联业务索引数

据元。

8质量评估

8.1评估维度

数据质量评估维度可从7个维度来评估数据是否达到预期设定的质量要求,主要内容如下:

——完整性:用于度量数据丢失率或数据不可用率,

——准确性:用于度量数据和信息的正确率,

——及时性:用于度量数据更新的及时率

——规范性:用于度量数据按统一格式、规范存储的比例,

——唯一性:用于度量数据的重复率,

——一致性:用于度量数据的值在信息含义上的不一致率,

8

DB3302/T1126—2021

——关联性:用于度量关联数据的缺失率。

8.2评估方法

采用计算机方式进行评估,按照一定的编码规则对评估规则进行编码,评估规则编码定长4位,分

为两段,第一段占1码位,为第1位,用大写字母A~F表示,第二段占3码位,为第2~4位,从001开始顺

序编码,具体评估规则及编码见表1:

表1数据质量评估规则及编码

维度编码评估规则

A完整性A001校验主要字段是否为空

B001检验数值是否异常

B002校验数据含有TAB/ENTER键

B准确性

B003检验字段首部是否含有空格

B004检验字段尾部是否含有空格

C及时性C001检验字段数据更新的及时性

D001校验字段长度

D002检验字段是否超出字典范围

D003检验字段是否含有特殊字符

D004检验字段是否含有给定字符以外的特殊字符

D规范性

D005检验字段是否含有特定字符

D006检验字段是否含有除特定字符外的字符

D007检验字段格式是否规范

D008检验字段是否符合编码规则

E001校验主键是否重复

E唯一性

E002校验记录是否重复

F001检验字段A与字段B是否一致

F一致性

F002检验字段记录的统一性

G关联性G001检验字段A与字段B逻辑关系

8.3计算方法

通过公式1计算得到每条规则的分值,利用评估模型得到数据集的数据质量分:

𝑛

∑𝑖=1𝑤𝐼∗𝑆𝑖

𝐹𝑗=𝑛··········································································(1)

∑𝑖=1𝑊𝑖

式中:

Fj——数据Dj的质量分;

Wj——规则Ri的权重;

Si——规则Ri的分值。

9

DB3302/T1126—2021

A

A

附录A

(规范性)

公共数据信息类别及关键索引数据元

公共数据元经按业务内容分类,由两段3位编码进行标识。第一段三位数字为一级分类,第二段三

位数字为二级分类。各类别信息的关键索引数据元见表A.1。

示例:“自然人职业信息”的类别标识符为“001002”,其中前三位为“001”为所属一级分类,即“自然人基本

信息类”,后三位“002”为在二级分类中的顺序号。

表A.1信息类别及关键索引数据元表

标识符信息类别关键索引数据元

001001自然人基本信息身份证件号码

自然人基本信息类

001002自然人职业信息工作单位统一社会信用代码、身份证件号码

002001机构团体类机构基本信息机构统一社会信用代码

003001自然人证照信息身份证件号码

证照信息类

003002机构证照信息机构统一社会信用代码

004001交通工具类信息身份证件号码、发动机编号

004002交通运输类交通事件类信息主体身份证件号码

004003交通设备类信息设备编号

005001患者信息身份证件号码

医疗卫生类

005002医疗卫生类事件信息事件编号

006001安全生产人员类信息身份证件号码

安全生产类

006002安全生产事件类信息事件编号

007001行政处罚类信息统一社会信用代码

信用服务类

007002信用评价类信息统一社会信用代码

008001社保就业人员类信息身份证件号码

008002社保就业类参保机构类信息统一社会信用代码

008003社保就业类案件信息对象统一社会信用代码

009001建筑信息身份证件号码、建筑物名称

009002证件信息身份证件号码

城建住房类

009003公积金信息身份证件号码

009004城建住房类项目信息项目编号

010001教职工人员信息身份证件号码

教育文化类

010002学生类人员信息身份证件号码

011001生态区域类信息区域名称

011002生态环境类生态环境类事件信息违法单位

011003监测指标类信息指标名称

012001科技创新类成果信息成果名称、成果完成人

013001纳税人信息统一社会信用代码

财税金融类

013002经济指标信息指标名称、税务机关名称

014001工业制造类项目类信息项目代码

10

DB3302/T1126—2021

表A.1信息类别及关键索引数据元表(续)

标识符信息类别关键索引数据元

014002工业制造类经济主体信息统一社会信用代码

014003工程类信息工程类型

工业制造类

014004工业制造产品类信息批准文号

014005工业制造类指标信息指标类型

015001农业类项目信息项目代码

015002农业类经济主体信息统一社会信用代码

农业农村类

015003农村类信息乡村名称

015004农业产品类信息统一社会信用代码

016001商贸服务类信息统一社会信用代码

商贸服务类

016002公共服务类信息

定制服务

    推荐标准

    相似标准推荐

    更多>