DB15/T 1872-2020 大数据平台 接入技术要求
DB15/T 1872-2020 Big data platform access technology requirements
基本信息
发布历史
-
2020年04月
研制信息
- 起草单位:
- 起草人:
- 出版信息:
- 页数:26页 | 字数:- | 开本: -
内容描述
ICS35.020
L70
DB15
内蒙古自治区地方标准
DB15/T1872—2020
大数据平台接入技术要求
Technicalspecificationofbigdataplatformforaccess
2020-04-03发布2020-05-03实施
内蒙古自治区市场监督管理局发布
DB15/T1872—2020
目次
前言................................................................................II
1范围...............................................................................1
2规范性引用文件.....................................................................1
3术语和定义.........................................................................1
4缩略语.............................................................................2
5概述...............................................................................2
6接入要求...........................................................................3
6.1关系数据库抽取.................................................................3
6.2服务网关服务...................................................................5
6.3实时消息队列...................................................................6
6.4文件接收FTP服务...............................................................7
6.5文件拉取FTP服务...............................................................9
6.6直报系统......................................................................10
7安全要求..........................................................................12
附录A(资料性附录)关系数据库抽取接入说明...........................................13
附录B(资料性附录)服务网关服务接入说明.............................................14
附录C(资料性附录)实时消息队列接入说明.............................................15
附录D(资料性附录)文件接收FTP服务接入说明.........................................16
附录E(资料性附录)文件拉取FTP服务接入说明.........................................19
I
DB15/T1872—2020
前言
本标准按照GB/T1.1—2009给出的规则起草。
本标准由内蒙古自治区大数据发展管理局提出并归口。
本标准起草单位:内蒙古自治区大数据发展管理局、新华三技术有限公司、中国电子技术标准化研
究院、内蒙古大学、内蒙古电子信息职业技术学院、内蒙古自治区大数据与云计算标准化委员会、中国
人民银行呼和浩特市中心支行、内蒙古自治区国土资源信息院、中信银行股份有限公司呼和浩特市分行、
内蒙古自治区标准化院、浪潮软件集团有限公司、北京东方国信科技股份有限公司、中通服咨询设计研
究院有限公司、天帆创新(北京)科技发展有限公司、同方知网(北京)技术有限公司、北京东方棱镜
科技有限公司、内蒙古跃晨科技有限公司、内蒙古纵横云技术有限公司。
本标准主要起草人:周佳琪、崔连伟、张建军、崔娜、赵逢波、卫凤林、屈强、崔波、胡大伟、汪
昆鹏、马逸群、王立权、王一丁、王海珠、徐小强、王楠、李敏、李建文、刘玉坤、胡南磊、付先路、
王伟哲、冯国忠。
II
DB15/T1872—2020
大数据平台接入技术要求
1范围
本标准规定了大数据平台与各数据提供单位管理支撑系统进行数据接入的技术要求及数据采集接
口、方式。
本标准适用于内蒙古自治区大数据平台进行数据采集功能研发、数据采集工具选型及其数据接入场
景提供规范要求。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T29262信息技术面向服务的体系结构(SOA)术语
GB/T35274信息安全技术大数据服务安全能力要求
GB/T35295-2017信息技术大数据术语
GB/T37973信息安全技术大数据安全管理指南
3术语和定义
GB/T35295和GB/T29262界定的术语和定义适用于本文件。为了便于使用,以下重复列出GB/T35295
中的一些术语和定义。
3.1
大数据bigdata
具有体量巨大、来源多样、生成极快、且多变等特征并难以用传统数据体系结构有效处理的包含大
量数据集的数据。
注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variablility予以表述,并分
别赋予了它们在大数据语境下的定义:
a)体量volume:构成大数据的数据集的规模;
b)多样性variety:数据可能来自多个数据仓库、数据领域或多种数据类型;
c)速度velocity:单位时间的数据流量;
d)多变性variability:大数据其他特征,即体量、速度和多样性等特征都处于多变状态。
[GB/T35295-2017,定义2.1.1]
1
DB15/T1872—2020
3.2
非结构化数据unstructureddata
不具有预定义模型或未以预定义方式组织的数据。
[GB/T35295-2017,定义2.1.25]
3.3
静态数据dataatrest
处于静止状态,有典型特征表现为大数据的体量和多样性特征的数据。
[GB/T35295-2017,定义2.1.37]
3.4
关系数据库relationaldatabase
数据按关系模型来组织的数据库。
[GB/T35295-2017,定义2.2.5]
3.5
管理信息系统managementinformationsystem
是一个以人为主导,利用计算机硬件、软件、网络通信设备以及其他办公设备,进行信息的收集、
传输、加工、储存、更新、拓展和维护的系统。
3.6
元数据metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[GB/T35295-2017,定义2.2.7]
4缩略语
下列缩略语适用于本文件。
FTP:标准的文件传输协议(FileTransferProtocol)
JDBC:java数据库连接(JavaDataBaseConnectivity)
HTTPS:超文本传输安全协议(HyperTextTransferProtocoloverSecureSocketLayer或
HypertextTransferProtocolSecure)
Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作
流数据。
5概述
大数据平台作为多维数据的处理平台,支持各类数据源的采集与接入。以下是大数据平台六种常用
数据源的接入方式:
2
DB15/T1872—2020
a)关系数据库抽取;
b)服务网关服务;
c)实时消息队列;
d)文件接收FTP服务;
e)文件拉取FTP服务;
f)直报系统。
具体数据接入总体框架见图1:
大数据平台
数据接入服务数据仓库
数据源
关系数据库抽取
关系数据库
结构化
数据存储
服务网关服务
接口数据
文件接收FTP服务
半结构化
管理信息数据存储
文件系统文件拉取FTP服务
FTP服务
实时消息队列
管理信息非结构化
流数据
系统数据存储
直报系统
图1数据接入总体框架
6接入要求
6.1关系数据库抽取
6.1.1功能要求
关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定时批
量抽取功能。关系数据库数据抽取应具备以下主要功能:
a)支持对主流的关系数据库进行数据抽取;支持对数据库中常用的数据类型进行数据抽取,至少
包括数值型、字符型、日期/时间型等数据类型;
b)支持“全量”和“增量”两种数据抽取模式;“全量”模式是指一次性将关系数据库中物理
表的数据抽取到大数据平台。“增量”模式是指根据设置的抽取条件筛选符合条件的数据抽取
到大数据平台;
c)支持关系数据库中结构化数据抽取到大数据平台,包含结构化数据存储、半结构数据存储、非
结构数据存储的数据仓库中;
3
DB15/T1872—2020
d)支持对关系数据库数据的采集内容和类型转换操作,至少包括选择具体的数据表、选择表中具
体的字段、字段类型格式转换等操作;
e)支持数据抽取操作的立即执行、定时调度运行。定时调度运行应提供多种调度策略,至少包括
固定时间间隔运行、指定时间点运行、指定时间范围运行、一次或指定次数运行等策略;
f)应提供图形化管理界面,应提供数据抽取模式设置、抽取源关系数据库配置、指定数据表配置、
表字段选择配置、字段类型转换配置、大数据平台目标存储位置配置、运行策略配置等操作界
面;
g)应提供完善的日志和审计能力,可以记录数据抽取操作配置、运行时发生的各种事件;
h)应提供完善的监控机制,运行过程中出现异常可快速的定位及解决。
6.1.2非功能要求
关系数据库数据抽取服务应满足以下非功能性要求:
a)数据抽取速度:不少于1万条/秒;
b)数据抽取吞吐量:在千兆带宽的网络条件下,数据抽取吞吐量不少于50MB/秒。
6.1.3应用场景
关系数据库抽取应用场景见图2:
大数据平台大数据平台
关系数据库
关系数据库抽取数据仓库
a)抽取元数据信息
b)配置数据传输任务
c)配置数据传输任务运行策略
d)平台运行数据传输任务,数据抽取
图2关系数据库抽取应用场景
应用场景描述如下:
a)关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信
息;
b)关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标
表;
c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;
d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。
4
DB15/T1872—2020
6.1.4应用要求
应用要求如下:
a)关系数据库抽取服务适用于关系数据库定时批量抽取场景,详细说明参见附录A;
b)数据源须提供关系数据库的访问链接,包括IP、端口、数据库实例名、用户名、密码;
c)数据源提供的数据库访问用户应具备数据库的元数据信息定义表的读取权限。
6.2服务网关服务
6.2.1功能要求
服务网关服务为数据源提供大数据平台中结构化数据或非结构化数据的接口数据接入。服务网关服
务应具备以下主要功能:
a)支持接入Webservice、RESTful方式的接口;
b)支持包括结构化数据、非结构化数据的接口;
c)支持接口编排,轻松实现多个接口的功能集成;
d)提供图形化管理界面,用于接口数据存储位置、操作用户、目标存储位置的配置;
e)应提供完善的日志和审计能力,可以记录接口数据配置及数据抽取操作配置、运行时发生的各
种事件;
f)应具备熔断管理机制,保证服务整体可用,是接口访问异常情况下的处理策略。
6.2.2非功能要求
服务网关服务应满足以下非功能要求:
a)数据写入速率:在千兆带宽的网络条件下,数据抽取吞吐量不少于30MB/秒;
b)操作并发数:并发数大于200个/秒。
6.2.3应用场景
服务网关服务应用场景见图3:
大数据平台大数据平台
管理信息系统
服务网关服务数据仓库
a)提供接口信息
b)接口编排
c)配置数据传输任务运行策略
d)平台运行数据传输任务,数据抽取
定制服务
推荐标准
- HG/T 4520-2023 工业碳酸钴 2023-07-28
- HG/T 3585-2023 工业硼氢化钠 2023-07-28
- HG/T 6184-2023 C.I.分散红277(分散荧光红G) 2023-07-28
- HG/T 3591-2023 工业焦磷酸钾 2023-07-28
- HG/T 3584-2023 工业硼氢化钾 2023-07-28
- HG/T 2841-2023 水处理剂 氨基三亚甲基膦酸 2023-07-28
- HG/T 4315-2023 工业速溶粉状硅酸钠 2023-07-28
- HG/T 3519-2023 工业循环冷却水中苯并三氮唑的测定 2023-07-28
- HG/T 3777-2023 水处理剂 二亚乙基三胺五亚甲基膦酸 2023-07-28
- HG/T 4501-2023 工业氯化锶 2023-07-28