DB5305/T 19.27-2019 保山市信息惠民工程综合标准 第27部分:信息惠民大数据平台技术标准

DB5305/T 19.27-2019 Part 27: Technology Standards for Information Benefiting the People Big Data Platform in Baoshan City Integration Standards

云南省地方标准 简体中文 现行 页数:9页 | 格式:PDF

基本信息

标准号
DB5305/T 19.27-2019
标准类型
云南省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2019-10-30
实施日期
2019-11-01
发布单位/组织
保山市市场监督管理局
归口单位
保山市工业和信息化委员会
适用范围
本标准适用于保山市信息惠民工程

研制信息

起草单位:
保山市大数据管理局
起草人:
刘志胡、王明超、李祖燕、丁威、邹瑜、朱超群
出版信息:
页数:9页 | 字数:- | 开本: -

内容描述

ICS35.240

L67

DB5305

保山市地方标准

DB5305/T19.27—2019

替代DG5305/T19.27—2017

保山市信息惠民工程综合标准

第27部分:信息惠民大数据平台技术标准

2019-10-30发布2019-11-01实施

保山市市场监督管理局发布

DB5305/T19.27—2019

前    言

本标准按照GB/T1.1—2009《标准化工作导则第1部分:标准的结构和编写》给出的规则起草。

本标准由保山市大数据管理局提出。

本标准由保山市工业和信息化委员会归口。

本标准起草单位:保山市大数据管理局。

本标准主要起草人:刘志胡、王明超、李祖燕、丁威、邹瑜、朱超群。

本标准替代DG5305/T19.27—2017。

DB5305/T19.27—2019

保山市信息惠民工程综合标准

第27部分信息惠民大数据平台技术标准

1范围

本标准规定了保山市信息惠民工程大数据平台的术语、定义和缩略语、总体框架、技术要求和功能

规范,本标准适用于保山市信息惠民工程大数据平台建设。

2规范性引用文件

下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的

修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究

是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。

保山市信息惠民国家试点城市创建顶层设计方案

DB5305/T19.2-2019保山市信息惠民工程综合标准总体框架和技术要求

DB5305/T19.3-2019保山市信息惠民工程综合标准术语

DB5305/T19.25-2019保山市信息惠民工程综合标准数据交换与共享平台技术标准

3术语、定义

DB5305/T19.3-2019确立的以及下列术语和定义适用于本标准。

3.1Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节

的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文

件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署

在低廉的(low-cost)硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集

(largedataset)的应用程序。HDFS可以以流的形式访问文件系统中的数据。Hadoop的框架最核心

的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了

计算。Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可

伸缩的方式进行数据处理;是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在

Hadoop上开发和运行处理海量数据的应用程序。

3.2Hbase

HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于

非结构化数据存储的数据库。另一个不同的是HBase基于列的而非基于行的模式。

3.3MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce

(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。

它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前

的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce

(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

1

DB5305/T19.27—2019

3.4Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供

简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以

通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库

的统计分析。

3.5Pig

Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫PigLatin,该语言的

编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数

据并行计算提供了一个简单的操作和编程接口。

3.6Storm

Storm是一个分布式的、容错的实时计算系统,为分布式实时计算提供了一组通用原语,可被用于

“流处理”之中,实时处理消息并更新数据库,降低了进行实时处理的复杂性。Storm可以方便地在一

个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比Hadoop用于批处理。Storm

保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。

3.7Sqoop

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一

个关系型数据库(例如:MySQL,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的

数据导进到关系型数据库中。

3.8YARN

YetAnotherResourceNegotiator,另一种资源协调者,是一种新的Hadoop资源管理器,它是

一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为

定制服务

    推荐标准

    关联标准

    相似标准推荐

    更多>