大数据基础平台架构和其价值，你知道多少？-控件新闻-慧都网

大数据基础平台架构和其价值，你知道多少？

原创|大数据新闻|编辑：郑恭琳|2020-06-23 14:47:00.167|阅读 700 次

概述：大数据基础平台是大数据的根基所在，大数据的上层应用都需要大数据基础平台提供数据存储和运算能力，本文中的三家工业客户都部署实施了该基础平台。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

慧都工业大数据系统数据架构

从整体架构可以看出，“大数据基础平台部分”采取的策略准则是尽量减少对原有系统的修改，通过基于模块化的交付方式提供基于大数据的分布式存储能力、分布式计算能力和智能建模能力。

大数据基础平台：提供前端工业数据的批量及实时处理能力，分布式存储及计算能力，大数据基础平台数据管理能力。数据对象模型、工业对象模型的定义及实例的存储。

大数据基础平台

大数据基础平台是大数据的根基所在，大数据的上层应用都需要大数据基础平台提供数据存储和运算能力，本文中的三家工业客户都部署实施了该基础平台。

1. 大数据基础平台的主要组件和架构如下图所示：

Flume

1) Flume支持多种接入资源数据的类型以及接出数据类型，可以高效率的将多个数据源的数据发送至下游系统。

2) 当收集数据的速度超过将写入数据的时候，Flume会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据。.

3) Flume的管道是基于事务，保证了数据在传送和接收时的一致性。

4) 支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等。

Kafka

1) 分布式，可划分，可靠性强的日志服务。

2) 以时间复杂度为O(1)的方式提供消息持久化能力。

3) 高吞吐率，即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。

4) 支持Kafka Server间的消息分区及分布式消费，同时保证每个Partition内的消息顺序传输。

5) 同时支持离线数据处理和实时数据处理。

6) 支持在线水平扩展。

Oozie

1) Oozie是管理Hadoop作业的工作流调度系统

2) Oozie的工作流是一系列的操作图

3) Oozie协调作业是通过时间（频率）以及有效数据触发当前的Oozie工作流程

4) Oozie是针对Hadoop开发的开源工作流引擎，专门针对大规模复杂工作流程和数据管道设计

5) Oozie围绕两个核心：工作流和协调器，前者定义任务的拓扑和执行逻辑，后者负责工作流的依赖和触发。

Zookeeper

1) 为了允许在分布式系统中对共享资源进行有序的访问，提供分布式互斥功能。

2) 与互斥同时出现的是同步访问共享资源的需求。无论是实现一个生产者-消费者队列，还是实现一个障碍，Zookeeper 都提供一个简单的接口来实现该操作。

3) Zookeeper可用于处理分布式应用中经常遇到的一些数据管理问题，如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

4) 分布式系统可能必须处理节点停机的问题，Zookeeper 通过领导者选举对此提供现成的支持。

Hive

1) Hive本身不支持数据存储和运算，完全依赖HDFS和MapReduce、Spark、Tez中的一种。

2) 数据模型和关系数据库类似，为结构化的表；列的数量有限。

3) 同时支持行存储与列存储，但数据处理逻辑是基于行的模式。

4) 有限支持Update以及Delete操作（部分表类型支持，但计算时延高开销大）。

5) 不能保证处理的低迟延问题，适用于离线的批量数据计算。

6) 与Spark、Hbase和Impala等组件有良好的交互。

7) Hive的版本更新或更改计算引擎不会影响到当前的语法，只会添加语句，语法以及API接口，或者优化内部算法。

Spark

1) RDD，弹性分布式数据集，是一种编程抽象，代表可以跨机器进行分割的只读对象集合。RDD可以从一个继承结构（lineage）重建，提供了完善容错机制。同时，RDD支持并行操作，可以效率的读写HDFS或S3等分布式存储。

2) 由于RDD可以被缓存，因而避免了复杂运算中多次与HDFS交换数据流，同时避免在HDFS存储读取临时数据，简化了数据流。因此，Spark对迭代应用特别有效。大多数机器学习和最优化算法都是迭代的，使得Spark对数据科学来说是个非常有效的工具。

3) Spark支持多种语言，目前版本（2.2.0）可以在Shell中使用Python，Java以及Scala语言交互。

2. 平台的价值

慧都大数据基础平台实现了一个分布式文件系统，该文件系统有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合有超大数据集的应用程序。平台支持以流的形式访问文件系统中的数据。

慧都大数据基础平台在数据准备(Data Preparation)方面上具备天然的优势。平台的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像数据准备这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。平台实现了将单个任务打碎，并将碎片任务发送到多个节点上，之后再以单个数据集的形式加载到数据仓库里。

关于慧都大数据分析平台

慧都大数据分析平台「GetInsight®」升级发布，将基于企业管理驾驶舱、产品质量分析及预测、设备分析及预测等大数据模型的构建，助力企业由传统运营模式向数字化、智能化的新模式转型升级，抓住数据经济的发展势头，提供管理效能，精准布局未来。了解更多，请联系。

慧都大数据专业团队为企业提供商业智能大数据平台搭建，免费业务咨询，定制开发等完整服务，快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服，我们有专业的大数据团队，为您提供免费大数据相关业务咨询！

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn

上一篇：Cloudera支持的企业数据云实现从Edge到AI的智能零售下一篇：质量控制的目的和实现方法