DB5305/T 19.27-2019 保山市信息惠民工程综合标准 第27部分:信息惠民大数据平台技术标准
DB5305/T 19.27-2019 Part 27: Technology Standards for Information Benefiting the People Big Data Platform in Baoshan City Integration Standards
基本信息
发布历史
-
2019年10月
研制信息
- 起草单位:
- 保山市大数据管理局
- 起草人:
- 刘志胡、王明超、李祖燕、丁威、邹瑜、朱超群
- 出版信息:
- 页数:9页 | 字数:- | 开本: -
内容描述
ICS35.240
L67
DB5305
保山市地方标准
DB5305/T19.27—2019
替代DG5305/T19.27—2017
保山市信息惠民工程综合标准
第27部分:信息惠民大数据平台技术标准
2019-10-30发布2019-11-01实施
保山市市场监督管理局发布
DB5305/T19.27—2019
前 言
本标准按照GB/T1.1—2009《标准化工作导则第1部分:标准的结构和编写》给出的规则起草。
本标准由保山市大数据管理局提出。
本标准由保山市工业和信息化委员会归口。
本标准起草单位:保山市大数据管理局。
本标准主要起草人:刘志胡、王明超、李祖燕、丁威、邹瑜、朱超群。
本标准替代DG5305/T19.27—2017。
DB5305/T19.27—2019
保山市信息惠民工程综合标准
第27部分信息惠民大数据平台技术标准
1范围
本标准规定了保山市信息惠民工程大数据平台的术语、定义和缩略语、总体框架、技术要求和功能
规范,本标准适用于保山市信息惠民工程大数据平台建设。
2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的
修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究
是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
保山市信息惠民国家试点城市创建顶层设计方案
DB5305/T19.2-2019保山市信息惠民工程综合标准总体框架和技术要求
DB5305/T19.3-2019保山市信息惠民工程综合标准术语
DB5305/T19.25-2019保山市信息惠民工程综合标准数据交换与共享平台技术标准
3术语、定义
DB5305/T19.3-2019确立的以及下列术语和定义适用于本标准。
3.1Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节
的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文
件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署
在低廉的(low-cost)硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集
(largedataset)的应用程序。HDFS可以以流的形式访问文件系统中的数据。Hadoop的框架最核心
的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了
计算。Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可
伸缩的方式进行数据处理;是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在
Hadoop上开发和运行处理海量数据的应用程序。
3.2Hbase
HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于
非结构化数据存储的数据库。另一个不同的是HBase基于列的而非基于行的模式。
3.3MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce
(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。
它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前
的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce
(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
1
DB5305/T19.27—2019
3.4Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供
简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以
通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库
的统计分析。
3.5Pig
Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫PigLatin,该语言的
编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数
据并行计算提供了一个简单的操作和编程接口。
3.6Storm
Storm是一个分布式的、容错的实时计算系统,为分布式实时计算提供了一组通用原语,可被用于
“流处理”之中,实时处理消息并更新数据库,降低了进行实时处理的复杂性。Storm可以方便地在一
个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比Hadoop用于批处理。Storm
保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。
3.7Sqoop
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一
个关系型数据库(例如:MySQL,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的
数据导进到关系型数据库中。
3.8YARN
YetAnotherResourceNegotiator,另一种资源协调者,是一种新的Hadoop资源管理器,它是
一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为
定制服务
推荐标准
- T/TJWL 003-2018 食品冷链用塑料软包材 2018-12-24
- T/JSREA 30-2023 虚拟电厂分体空调系统可调节负荷监控与接口规范 2023-11-24
- T/GDES 34-2019 绿色设计产品评价规范 陶瓷砖磨边倒角机 2019-10-31
- T/GMZX 002-2023 制造企业标准体系表 指南 2023-03-13
- T/BEPIA 00001-2022 高压电力用户配电室智能化运维规范 2022-10-17
- T/GDWCA 0059-2020 企业综合实力评价管理办法 2020-03-15
- T/ADBM 009-2019 汽车美容、装潢、养护服务企业服务规范及评价 2019-03-28
- T/SDXG 01-2022 乡村治理体系建设指南 2022-08-22
- T/GZBD 1-2020 大数据标准化工作指南 2020-08-01
- T/DGWCA 0001-2021 线缆行业企业信用评价 2021-01-12