DB23/T 3304-2022 大数据平台数据接入规范

DB23/T 3304-2022 Data Access Specification for Big Data Platform

黑龙江省地方标准 简体中文 现行 页数:37页 | 格式:PDF

基本信息

标准号
DB23/T 3304-2022
标准类型
黑龙江省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2022-07-07
实施日期
2022-08-06
发布单位/组织
黑龙江省市场监督管理局
归口单位
-
适用范围
-

发布历史

研制信息

起草单位:
起草人:
出版信息:
页数:37页 | 字数:- | 开本: -

内容描述

ICS35.020

CCSL70

DB23

黑龙江省地方标准

DB23/T3304—2022

大数据平台数据接入规范

2022-07-07发布2022-08-06实施

黑龙江省市场监督管理局发布

1

目次

前言................................................................................II

1范围..............................................................................1

2规范性引用文件....................................................................1

3术语和定义........................................................................1

3.1数据接入......................................................................1

3.2数据采集......................................................................1

3.3全量采集模式..................................................................1

3.4增量采集模式..................................................................1

3.5轮询采集模式..................................................................1

4缩略语............................................................................1

5总体框架..........................................................................2

5.1总体框架描述..................................................................2

5.2数据源的接入和采集方式........................................................3

6接入要求..........................................................................3

6.1关系数据库抽取................................................................3

6.2数据库实时复制................................................................4

6.3网关服务......................................................................5

6.4消息队列......................................................................6

6.5文件接收FTP服务..............................................................8

6.6文件拉取FTP服务..............................................................9

6.7文件HTTP服务................................................................11

6.8文件NFS服务.................................................................13

附录A(资料性)关系数据库抽取接入说明.............................................16

附录B(资料性)网关服务接入说明...................................................17

附录C(资料性)消息队列接入说明...................................................18

附录D(资料性)文件接收FTP服务接入说明...........................................20

附录E(资料性)文件拉取FTP服务接入说明...........................................24

附录F(资料性)文件HTTP服务接入说明..............................................27

附录G(资料性)文件NFS服务接入说明...............................................31

I

前言

本文件依据GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。

本文件由黑龙江省大数据产业协会提出。

本文件由黑龙江省工业和信息化厅归口。

本文件起草单位:黑龙江省大数据产业协会、哈尔滨财富通科技发展有限公司、黑龙江亿林网络股

份有限公司、黑龙江省网络空间研究中心、黑龙江省标准化研究院、黑河市特种设备检验研究所、黑龙

江大数据产业发展有限公司、黑龙江省信创科技有限公司、黑龙江交投信科科技有限责任公司、黑龙江

交投千方科技有限公司、哈尔滨智路开发有限公司、黑龙江农投大数据公司、黑龙江省农投云产业有限

公司。

本文件主要起草人:李璐昆、孙传友、杜飞、孙甲子、张驰、王阳、陈要武、杨大志、吕猛、王磊、

唐丽、赵海洋、李冰冷、叶爽、王克云、李森、周全、何晨龙、叶爽、张新、关哲刚、杨旭、王晶。

II

DB23/T3304-2022

大数据平台数据接入规范

1范围

本文件规定了大数据平台数据接入规范的术语和定义,缩略语、总体框架和接入要求。

本文件适用于黑龙江省内大数据平台进行数据采集功能研发、数据采集工具选型及其数据接入场景

提供规范要求。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T29262信息技术面向服务的体系结构(SOA)术语

GB/T35274信息安全技术大数据服务安全能力要求

GB/T35295信息技术大数据术语

GB/T37973信息安全技术大数据安全管理指南

3术语和定义

GB/T29262、GB/T35295和GB/T35274界定的以及下列术语和定义适用于本文件。

3.1

数据接入

将数据传输进入数据平台所采用的形式。

3.2

数据采集

将数据收集进入数据平台所采用的形式。

3.3

全量采集模式

是指一次性将关系数据库中物理表的数据抽取到大数据平台。

3.4

增量采集模式

是指根据设置的抽取条件筛选符合条件的数据抽取到大数据平台。

3.5

1

DB23/T3304-2022

轮询采集模式

轮询采集模式是增量采集模式的一种。

4缩略语

下列缩略语适用于本文件。

DTS:数据传输服务(DataTransferService)。

ETL:将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load)。

FTP:文件传输协议(FileTransferProtocol)。

HTTP:标准的超文件传输协议(HyperTextTransferProtocol)。

JDBC:java数据库连接(JavaDataBaseConnectivity)。

NFS:网络文件系统(NetworkFileSystem)。

KQS:消息集群数据接入(KafkaQueueStream)。

SHA:安全哈希算法(SecureHashAlgorithm)。

5总体框架

5.1总体框架描述

大数据平台支持从关系型数据库、文件、数据流等来源获取数据,实现各类离线数据及实时数据的

采集与接入,包括设备采集数据、企业管理业务数据、外部数据等。其中离线数据主要分为关系型数据

库所存储的结构化数据及文件系统所存储的非结构化文件数据,实时数据主要是设备采集监控及业务系

统产生的实时流数据。总体框架示意图见图1。

2

DB23/T3304-2022

大数据平台

数据接入服务数据仓库

数据源

关系数据库抽取

关系数据库

网关服务

文件接收FTP服务

接口数据

结构化数据存储

文件拉取FTP服务

管理信息系统

FTP服务

消息队列

文件

Web接口服务

文件HTTP服务

HTTP服务

非结构化数据存储

NFS服务文件NFS服务

流数据管理信息系统

数据库实时复制

数据库

图1总体框架示意图

5.2数据源的接入和采集方式

大数据平台作为多维数据的处理平台,应支持各类数据源的接入和采集。常用数据源的接入和采集

包含但不限于以下方式:

a)关系数据库抽取;

b)数据库实时复制;

c)网关服务;

d)消息队列服务;

e)文件接收FTP服务;

f)文件拉取FTP服务;

g)文件HTTP服务;

h)文件NFS服务。

6接入要求

6.1关系数据库抽取

3

DB23/T3304-2022

6.1.1功能要求

关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定期批

量抽取功能。关系数据库数据抽取应具备以下主要功能:

a)支持对主流的关系数据库进行数据抽取;支持对数据库中常用的数据类型进行数据抽取,至少

包括数值型、字符型、日期/时间型等数据类型;

b)支持“全量”和“增量”两种数据抽取模式;

c)支持关系数据库中结构化数据抽取到大数据平台,包含结构化数据、半结构数据存储的数据仓

库中;

d)支持对关系数据库数据的采集内容和类型转换操作,至少包括选择具体的数据表、选择表中具

体的字段、字段类型格式转换等操作;

e)支持数据抽取操作的立即执行、定期调度运行。定期调度运行应提供多种调度策略,至少包括

固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;

f)应提供图形化管理界面,应提供数据抽取模式设置、抽取源关系数据库配置、指定数据表配置、

表字段选择配置、字段类型转换配置、大数据平台目标存储位置配置、运行策略配置等操作界

面;

g)应提供完善的日志和审计能力,可以记录数据抽取操作配置、运行时发生的各种事件;

h)应提供完善的监控机制,运行过程中出现异常可快速的定位及解决。

6.1.2应用场景描述

应用场景描述如下:

a)关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信

息;

b)关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标

表;

c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;

d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。

6.1.3应用场景图

关系数据库抽取应用场景见图2。

4

DB23/T3304-2022

数据源大数据平台数据抽取服务大数据平台数据仓库

a)抽取元数据信息

b)配置数据传输任务

c)配置数据传输任务运行策略

d)平台运行数据传输任务,抽取数据

信息流

数据流

图2关系数据库抽取应用场景

6.1.4应用要求

应用要求如下:

a)关系数据库抽取服务适用于关系数据库定期批量抽取场景,详细说明见附录A;

b)数据源须提供关系数据库的访问链接,包括IP、端口、数据库实例名、用户名、密码;

c)数据源提供的数据库访问用户应具备数据库的元数据信息定义表的读取权限。

6.2数据库实时复制

6.2.1功能要求

数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延

复制功能,数据实时复制应具备以下主要功能:

a)支持对主流的关系型数据库进行低时延增量复制,至少包括Oracle、MySQL、PostgreSQL等关

系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期

/时间型等数据类型;

b)支持秒级时延的关系型数据库增量复制能力;同时支持在全量复制的基础上,无缝自动切换到

增量复制模式;

c)支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布

式文件存储、实时数据存储及消息队列;

d)支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格

式转换、时区转换等操作;

e)支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤;

5

DB23/T3304-2022

f)支持数据复制操作的手动触发、定期调度及外部触发运行。定期调度运行应提供多种调度策略,

至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策

略;外部触发支持标准webservice接口;

g)应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段;

h)选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等

操作界面。

6.2.2应用场景

应用过程如下:

a)业务系统关系型数据库服务器上部署增量捕获程序;

b)增量捕获程序捕获到增量数据通过TCP或消息队列发送到大数据平台增量接收服务;

c)大数据平台解析增量数据,并将增量数据存储到大数据平台中;

d)大数据平台分发增量数据到目标数据仓库中。

6.2.3应用场景图

数据库实时复制应用场景见图3。

b

c

a

TCP/消息队列

d

增量捕

获程序大数据平台接收、

关系数据库解析服务

大数据平台数据仓库

图3数据库实时复制应用场景

6.2.4应用要求

应用要求包括:

a)源数据库应是关系型数据库;

b)源数据库表应包含主键或唯一索引;

c)源端数据库应开启附加日志和强制归档模式;

d)源端数据库的在线日志文件、归档日志文件应存放在文件系统上。

6.3网关服务

6.3.1功能要求

网关服务为数据源提供大数据平台中结构化数据或非结构化数据的接口数据接入。网关服务应具备

以下主要功能:

a)支持接入webservice、RESTful方式的接口;

b)支持包括结构化数据、非结构化数据的接口;

c)支持接口编排,轻松实现多个接口的功能集成;

d)提供图形化管理界面,用于接口数据存储位置、操作用户、目标存储位置的配置;

e)提供完善的日志和审计能力,应记录接口数据配置及数据抽取操作配置、运行时发生的各种事

件;

6

DB23/T3304-2022

f)具备熔断管理机制,接口访问异常情况下的处理策略,保证服务整体可用。

6.3.2应用场景

网关服务应用场景描述如下:

a)数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等

接口信息;

b)大数据平台根据数据源提供的数据接口进行定义及编排;

c)网关服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;

d)网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中。

6.3.3应用场景图

网关服务应用场景见图4。

数据源大数据平台数据网关服务大数据平台数据仓库

a)资源申请

b)创建数据库、用户,分配权限

返回数据访问链接、用户名、密码

c)应用程序开发

d)配置访问链接参数,建立链接

身份认证通过,连接成功

e)进行权限范围内数据操作

图4网关服务应用场景

6.3.4应用要求

网关服务应用要求包括:

a)网关服务适用于提供接口类数据的数据源,详细说明见附录B;

b)提供数据接口的数据源需做好自身数据操作接口程序的开发。

6.4消息队列

6.4.1功能要求

消息队列采集为管理信息系统提供消息推送和缓存功能。消息队列应具备以下主要功能:

a)应提供分布式消息队列的管理功能,支持消息主题的创建、删除、修改;

b)应提供支持“点对点”和“发布-订阅”两个消息模式;

7

DB23/T3304-2022

c)应支持消息的持久化存储操作并且支持持久化周期设置;

d)应提供消息分布式高可用的发送和消费接口,包括链接建立、消息发送、消息消费、链接关闭,

支持消息分区和备份操作;

e)具有风格统一的图形化管理界面,支持消息队列主题的创建、删除、测试、授权访问的操作;

f)具备完善的日志审计能力,应记录消息发送和消费时发生的各种事件。

6.4.2应用场景

应用场景描述如下:

a)管理信息系统应向大数据平台申请消息队列接入服务;

b)大数据平台根据申请创建消息队列主题,返回消息队列名称;

c)管理信息系统开发业务处理程序,调用平台消息队列接口,发送数据或接收数据。

6.4.3应用场景图

消息队列应用场景见图5。

数据源大数据平台实时消息队列服务大数据平台数据仓库

a)申请实时消息队列接入服务

b)创建消息队列主题

c)业务系统开发业务处理程序,发送或接入消息

信息流

数据流

图5消息队列应用场景

6.4.4应用要求

应用要求如下:

a)消息队列采集适用于管理信息系统主动将数据封装为消息,发送到大数据平台的消息队列中。

基于消息队列的消息缓存进行数据分析,详细说明见附录C;

b)发送的消息内容格式支持字符串,发送的数据对象可通过对象序列化机制转换为字符串格式的

消息内容;

8

DB23/T3304-2022

c)管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开

发。

6.5文件接收FTP服务

6.5.1功能要求

文件接收FTP服务应提供外部系统文件数据的接收并存入到大数据平台数据仓库的功能。文件采集

应具备以下主要功能:

a)支持标准FTP协议接收数据;

b)支持顺序型断点续传功能;

c)支持接收的文件的重命名及指定存储目录;

d)应支持对接收文件的完整性校验;

e)应支持对客户端进行认证;

f)支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。

6.5.2应用场景

应用场景描述如下:

a)大数据平台配置应用账号、接收参数及存储位置;

b)管理信息系统通过标准FTP协议连接大数据平台服务;

c)管理信息系统检查目标临时文件是否存在;

d)管理信息系统发起全量或续传指令;

e)管理信息系统发送数据到大数据平台;

f)大数据平台接收文件数据;

g)管理信息系统发送数据校验文件;

h)大数据平台根据校验文件校验数据文件内容;

i)大数据平台按配置的规则存储接收到的数据文件;

j)大数据平台回写数据存储状态;

k)管理信息系统获取数据存储状态。

6.5.3应用场景图

文件FTP服务应用场景见图6。

9

DB23/T3304-2022

数据源大数据平台文件接收FTP服务大数据平台数据仓库

b)业务系统通过标准FTP协议a)大数据平台配置应用账号

连接大数据平台服务

c)业务系统检查目标临时文件是否存在

d)业务系统发起全量或续传命令

e)业务系统发送数据到大数据平台

f)大数据平台接收文件数据

g)业务系统发送改命令修改文件为带校验

的文件名

h)大数据平台校验文件内容

i)大数据平台按配置的规则存储

接收到的文件

j)大数据平台通知后续业务继续处理

信息流数据流

图6文件FTP服务应用场景

6.5.4应用要求

应用要求如下:

a)管理信息系统应在大数据平台注册并申请账号;

b)管理信息系统应按平台协议规范开发上传功能;

c)管理信息系统生成文件数据时应同时生成对应的完整性校验码;

d)具体文件接收FTP服务API接口详细说明见附录D。

6.6文件拉取FTP服务

6.6.1功能要求

文件拉取FTP服务,应提供通过访问FTP协议实现将文件数据抽取到大数据平台数据仓库的功能。文

件拉取FTP服务应具备以下主要功能:

a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配;

b)支持FTP服务登录用户名和密码设置;

定制服务

    推荐标准

    相似标准推荐

    更多>