Cloudera操作数据库（OpDB）的NoSQL和相关功能-控件新闻-慧都网

Cloudera操作数据库（OpDB）的NoSQL和相关功能

原创|使用教程|编辑：郑恭琳|2020-05-26 15:01:48.773|阅读 139 次

概述：这篇文章概述了OpDB的NoSQL，组件集成和对象存储支持功能。这些细节将帮助应用程序架构师了解Cloudera的操作数据库的灵活NoSQL（无模式）功能，以及它们是否满足正在构建的应用程序的要求。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

文件存储

Cloudera的Operational Database（OpDB）是一个多模型，因为它在系统内部支持许多不同类型的对象模型。

用户可以选择键值、宽列和关系，或提供自己的对象模型。

JSON，XML和其他模型也可以通过例如Nifi，Hive进行转换和存储，或者以键-值对形式原生存储，并使用例如Hive进行查询。还可以通过JSONRest使用自定义实现来支持JSON和XML。

对象库

Cloudera的OpDB为一致的对象存储提供直接支持，例如Azure Data Lake Store和S3（AWS本机和Ceph等实现）。

对象存储可用于存储大量数据驻留的HBase存储文件或作为备份目标。

支持的功能

核心价值

Cloudera的OpDB默认情况下会存储未类型化的数据，这意味着任何对象都可以原生存储在键值中，而对存储值的数量和类型几乎没有限制。对象的最大大小是服务器的内存大小。

Table样式

Cloudera的OpDB是一个宽列的数据存储，并且本机提供表样式的功能，例如行查找以及将数百万列分组为列族。

列族必须在创建表时定义。不必在创建表时定义列，而是根据需要创建列，从而可以进行灵活的模式演变。

列中的数据类型是灵活的并且是用户定义的。用户可以决定是要利用这种灵活性还是要利用关系DBMS功能来换取降低数据类型的灵活性。

	Column Family		Column Family
	Column	Column	Column	Column
RowKey	Cell	Cell	Cell	Cell
RowKey	Cell	Cell	Cell	Cell

无冲突的复制数据类型

Cloudera的OpDB支持无冲突的复制数据类型（CRDT）。默认情况下提供它，并且复制子系统提供强大的最终一致性或强大的时间轴一致性。

组件整合

HDFS整合

由于Cloudera在该领域的强大实力，它提供了包括HDFS在内的整个Hadoop生态系统的紧密集成。

可以使用快照导出数据，也可以从正在运行的系统导出数据，也可以通过离线直接复制基础文件（HDFS上的HFiles）来导出数据。

Spark整合

Cloudera的OpDB支持Spark。存在与Spark的多种集成，使Spark可以将表作为外部数据源或接收器进行访问。用户可以在DataFrame或DataSet上使用Spark-SQL进行操作。

有了DataFrame和DataSet支持，就可以使用催化剂中的所有优化技术。通过这种方式，可以实现数据局部性、分区修剪、谓词下推、扫描和BulkGate。可以将Spark Worker节点共置于群集中，以实现数据局部性。还支持对OpDB的读写。

对于每个表，必须提供目录。该目录包括行键，具有数据类型和预定义列系列的列，并且它定义了列与表模式之间的映射。目录是用户定义的json格式。

HBase数据帧是标准的Spark数据帧，并且能够与任何其他数据源（例如Hive，ORC，Parquet，JSON等）进行交互。Java基本类型被支持为三个内部Serdes：Avro，Phoenix和PrimitiveType。

流媒体

Cloudera提供了几种流数据处理框架和工具，这些框架和工具与其OpDB产品集成在一起。

Cloudera DataFlow（CDF）

Cloudera DataFlow是一个可扩展的实时流数据平台，可收集、整理和分析数据，从而使客户获得关键见识，以立即采取行动。

流管理

Cloudera Flow Management（CFM）是由Apache NiFi支持的无代码数据提取和管理解决方案。它为企业提供了高度可扩展的数据移动、转换和管理功能。简而言之，Nifi旨在自动执行系统之间的数据流。有关更多信息，请参阅Cloudera Flow Management。

流分析

由Apache Flink支持的Cloudera Streaming Analytics提供了用于实时流处理和流分析的框架。CSA提供了低延迟的灵活流解决方案，可以扩展到大吞吐量和状态。它根据所选的源和接收器提供所需的连接器，例如HBase Streaming连接器。有关更多信息，请参阅Cloudera流分析

流处理

Cloudera流处理（CSP）提供了高级消息传递，流处理和分析功能，这些功能由Apache Kafka作为核心流处理引擎提供支持。它还提供了流管理功能。有关更多信息，请参阅Cloudera流处理。

Spark Streaming

Spark Streaming是在Spark之上构建的微批处理流处理框架。HBase和Spark Streaming成为了很好的伴侣，因为HBase可以与Spark Streaming一起提供以下好处：

即时获取参考数据或配置文件数据的地方
一个存储计数或聚合的地方，以支持Spark Streaming仅处理一次的承诺。

结论

在此博客文章中，我们介绍了OpDB的NoSQL功能。我们还看到了OpDB如何与CDP中的其他组件集成。

这是有关CDP中Cloudera的操作数据库（OpDB）系列文章中的最后一篇文章。您可以从CDP中的Operational Database从该系列的开头开始。

关于Cloudera

在 Cloudera，我们相信数据可以使今天的不可能，在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下， Cloudera推动了全球最大型企业的数字化转型历程。了解更多，请联系。

慧都大数据专业团队为企业提供Cloudera大数据平台搭建，免费业务咨询，定制开发等完整服务，快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。