DB3209/T 1258-2023 公共数据平台 数据归集规范
DB3209/T 1258-2023 Public data platform data collection specification
基本信息
发布历史
-
2023年12月
研制信息
- 起草单位:
- 盐城市工业和信息化局、盐城市大数据管理中心
- 起草人:
- 朱照伟、袁爱娣、戴祥、施晓波、李德志、齐文辉、张亮亮、薛步高、韦应虎、田永艳、董玉伟、李兴儒
- 出版信息:
- 页数:14页 | 字数:- | 开本: -
内容描述
ICS35.020
CCSL70
DB3209
盐城市地方标准
DB3209/T1258—2023
公共数据平台数据归集规范
2023-12-15发布2024-03-15实施
盐城市市场监督管理局发布
DB3209/T1258-2023
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起
草。
本文件由盐城市工业和信息化局提出并归口。
本文件起草单位:盐城市工业和信息化局、盐城市大数据管理中心。
本文件主要起草人:朱照伟、袁爱娣、戴祥、施晓波、李德志、齐文辉、张亮亮、薛步高、韦应虎、
田永艳、董玉伟、李兴儒。
I
DB3209/T1258-2023
公共数据平台数据归集规范
1范围
本文件界定了公共数据平台数据归集的术语和定义,规定了归集流程、数据归集要求、数据更新要
求及数据归集安全。
本文件适用于指导盐城市各级公共管理和服务机构归集数据至盐城市公共数据平台。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T22239信息安全技术网络安全等级保护基本要求
GB/T35273信息安全技术个人信息安全规范
GB/T35295信息技术大数据术语
GB/T37973信息安全技术大数据安全管理指南
3术语和定义
GB/T35295-2017界定的以及下列术语和定义适用于本文件。
3.1
数据归集dataingestion
指将来源于不同数据源的数据按照一定的规则进行采集、清洗加工、整合和更新,以支持公共数据
平台的数据分析和应用。
3.2
公共数据commondata
指各级行政机关、法律法规授权的具有管理公共事务职能的组织、公共企事业单位为履行法定职责,
提供公共服务收集、产生的各类数据资源,包括文件、资料、图表、图像、音频、视频、电子证照、电
子档案等。
3.3
结构化数据structureddata
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用
关系模型予以有效描述。
[来源:GB/T35295-2017,2.2.13]
3.4
结构化文件structuredfile
按照特定结构或格式组织的文件,并便于机器解析和读取。结构化文件通常用于存储和组织大量的
数据,如数据库文件、CSV文件、JSON文件等。
-1-
DB3209/T1258-2023
3.5
非结构化文件unstructuredfile
不具有预定义模型或未以预定义方式组织的文件,通常以二进制格式或自由文本形式存储,没有固
定的结构和格式,如办公文档、图片、HTML、各类报表、图像和音频/视频等。
4归集流程
4.1明确归集范围
按照“按需归集、应归尽归”的原则,将相关部门及机构所有可归集的公共数据持续归集至公共数
据平台。
4.2明确归集方式
结合归集数据的范围、数据传输要求等,确定数据的归集方式。归集方式主要包括库表、文件、服
务接口三种,其中库表、文件方式适用于对数据传输速度和实时性无特殊要求的情况,服务接口方式适
用于对数据传输速度和实时性有较高要求的情况。
4.3开展数据归集
应将数据库表结构发送至公共数据主管部门,并根据数据归集方式和数据实际情况,做好数据归集
前准备工作并开展数据归集:
a)将原始数据不进行处理地采集存放在公共数据平台的贴源层中;
b)对贴源层中的数据进行清洗加工使其满足公共数据平台使用的质量要求,清洗加
工后的数据存放在公共数据平台的公共层中;
c)对公共层中的数据进行个性化面向应用、业务的整合,最终数据存放在公共数据
平台的主题层。
4.4归集结果确认
数据归集结果确认应包含:
a)数据清洗加工:对采集到的数据进行清洗加工,去除无效和冗余数据,对缺失数据进行填补,
确保数据的准确性和完整性;
b)数据整合:将清洗加工后的数据进行整合,将不同来源的数据进行融合和映射,形成统一的数
据格式和标准;
c)数据更新:定期对数据进行更新,通过数据采集、清洗加工、整合等环节,保障数据的实时性
和准确性。
5数据归集要求
5.1总体要求
在数据归集过程中,明确数据的归集要求,从数据完整性、及时性、安全性等方面确保数据归集的
质量和高效。
a)数据完整性:确保所归集的数据准确、完整且没有重复。在数据归集过程中,需要对数据源进
行充分的调研和验证,确保数据被完整地收集并没有遗漏,同时,需要进行数据清洗和数据校
验,排除无效数据和错误数据,保持数据的准确性和一致性;
-2-
DB3209/T1258-2023
b)数据安全性:采取相关安全防护措施,确保归集的数据不会受到未经授权的访问、篡改或泄露
的风险。采用严格的身份认证、权限控制和脱敏加密技术,保障数据的安全;
c)数据及时性:建立高效的数据归集机制,需定期检查数据源的更新频率,设置合理的数据归集
周期,确保数据能够及时归集和更新,确保归集的数据始终具备实时性和可信度,满足各级部
门和公众对数据的需求。
5.2库表归集
5.2.1前置库
在前置机中建设前置库,用于临时存储业务数据表、对账数据表等,可根据业务需要创建多个前置
库。前置库应支持国产数据库,字符编码应支持包括但不限于:UTF-8、GB2312、UTF-16。
5.2.2业务数据表
业务数据表存储待归集的业务数据,包含记录ID、批次号、业务操作标识、更新时间及业务
字段,字段说明如下:
a)记录ID:业务数据的唯一记录标识,使用UUID主键策略;
b)批次号:业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数
据日期指数据更新的日期,格式为YYYYMMDD:数据序号为8位数字,每日从00000001顺
序递增;
c)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删
除为“D”;
d)更新时间:业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:mm:ss。
示例:2023-10-0108:10:56。
业务数据表字段名称和数据格式见表A.1。
5.2.3对账数据表
对账数据表存储数据的对账情况,包含对账记录唯一标识、表名、批次号、批次条数、批次
时间、批次状态字段,字段说明如下:
a)对账记录唯一标识:对账表主键,使用UUID主键策略;
b)表名:该批次更新数据所在业务数据表的名称;
c)批次号:与业务数据表中批次号一致;
d)批次条数:该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致;
e)批次时间:对账数据写入对账表的时间,采用数据库时间函数的值,格式为YYYY-MM-DD
hh:mm:ss;
示例:2023-10-0108:10:56。
f)批次状态:本批次数据归集状态,0为初始默认值,1为完成归集,-1为对账数据表批次数量
与业务数据表实际数量不一致。
对账数据表字段名称和数据格式见表C.1。
5.3文件归集
-3-
DB3209/T1258-2023
5.3.1文件系统
在前置机中建设文件系统,用于临时存储待归集的文件。文件系统可采用FTP、SFTP等。
5.3.2文件要求
命名约束
文件夹的命名格式为:/目录名称/业务名称/年/月/日/。文件夹、文件的命名应由阿拉伯数字(0~9)、
英文字符(a~z、A~Z)、下划线“_”组成。
示例:文件夹命名:/公司资料/销售数据/2023/12/05/,文件命名:daily_sales_report_20231205.xlsx。
文件大小
需设置文件大小阈值,文件超出阈值应拆分成多个小文件。
文件类型
文件类型包括结构化文件和非结构化文件,结构化文件格式包括CSV、TXT、XLS、XLSX等,非结构
化文件格式包括PDF、DOC、DOCX、WPS、ZIP以及图片、音频、视频等资源的常用格式。CSV、XLS、XLSX
的首行数据应为列名,字符编码应支持包括但不限于:UTF-8、UTF-16、GBK,且不应存在特殊字符,不
应存在行或列的合并,不应存在相同列名,不应有空白行等。
5.3.3文件信息表
文件信息表用来存储待归集的文件信息,包含记录ID、批次号、文件名、文件路径、文件大
小、文件格式、业务操作标识、文件完整性校验、文件拆分标志、拆分数量、更新时间,字段说明如下:
a)记录ID:业务数据主键,是业务数据的唯一记录标识,使用UUID主键策略;
b)批次号:业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数
据日期指数据更新的日期,格式为YYYYMMDD,数据序号为8位数字,每日从00000001顺
序递增;
示例:2023100100000001,表示2023年10月1日第1批次数据。
c)文件名:该文件的存储名称;
d)文件路径:该文件的存储路径;
e)文件大小:该文件占用的存储空间,单位为KB;
f)文件格式:文件的格式;
g)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删
除为“D”;
h)文件完整性校验:该文件对账使用的完整性校验码;
i)文件拆分标识:用于标识该文件是否进行了拆分,1为已拆分,0为未拆分;
j)拆分数量:该文件被拆分的数量;
k)更新时间:业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:mm:ss。
示例:2023-10-0108:10:56。
文件信息表字段名称和数据格式见表B.1。
5.3.4文件拆分信息表
-4-
DB3209/T1258-2023
文件拆分信息表用来存储文件拆分信息,包含记录ID、文件信息表记录ID、文件名、文件路
径、文件大小、文件完整性校验、更新时间,字段描述如下:
a)记录ID:业务数据的唯一记录标识,使用UUID主键策略;
b)文件信息表记录ID:拆分文件对应文件信息表的记录ID;
c)文件名:拆分文件的存储名称;
d)文件路径:拆分文件的存储路径;
e)文件大小:拆分文件占用的存储空间,单位为KB;
f)文件完整性校验:该文件对账使用的完整性校验码;
g)更新时间:业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:mm:ss。
示例
定制服务
推荐标准
- T/GDFCA 023-2019 农产品种类智能识别管理系统技术规范 蔬菜 2019-12-11
- T/HZBX 046-2021 粤菜 东江客家菜 东江鱼露鸭 2021-12-27
- T/GZBZ 31-2022 广式肠粉 2022-10-25
- T/CEDA 003-2016 森林食品认证技术规范:生产 2016-01-20
- T/GDFCA 041-2022 基于区块链技术食品追溯系统的可靠性测试标准 2022-12-19
- T/CZSPTXH 116-2020 潮州菜 玻璃芋蓉烹饪工艺规范 2020-08-18
- T/CZSPTXH 094-2019 潮州菜 银鱼芋丝烙烹饪工艺规范 2019-06-14
- T/CZSPTXH 157-2021 潮州菜 四喜拼盘烹饪工艺规范 2021-04-30
- T/FSAS 28-2018 食品安全“两图两档两公开”管理规范 2018-09-10
- T/SFSF 000002-2019 守信超市管理规范 2019-01-28