提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|使用教程|编辑:郑恭琳|2020-05-26 15:01:48.773|阅读 139 次
概述:这篇文章概述了OpDB的NoSQL,组件集成和对象存储支持功能。这些细节将帮助应用程序架构师了解Cloudera的操作数据库的灵活NoSQL(无模式)功能,以及它们是否满足正在构建的应用程序的要求。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
这篇文章是CDP中Cloudera的操作数据库(OpDB)系列文章的一部分。每篇文章都会详细介绍新功能。从本系列的开头以CDP中的Operational Database开始。
这篇博客文章概述了OpDB的NoSQL,组件集成和对象存储支持功能。这些细节将帮助应用程序架构师了解Cloudera的操作数据库的灵活NoSQL(无模式)功能,以及它们是否满足正在构建的应用程序的要求。
Cloudera的Operational Database(OpDB)是一个多模型,因为它在系统内部支持许多不同类型的对象模型。
用户可以选择键值、宽列和关系,或提供自己的对象模型。
JSON,XML和其他模型也可以通过例如Nifi,Hive进行转换和存储,或者以键-值对形式原生存储,并使用例如Hive进行查询。还可以通过JSONRest使用自定义实现来支持JSON和XML。
Cloudera的OpDB为一致的对象存储提供直接支持,例如Azure Data Lake Store和S3(AWS本机和Ceph等实现)。
对象存储可用于存储大量数据驻留的HBase存储文件或作为备份目标。
核心价值
Cloudera的OpDB默认情况下会存储未类型化的数据,这意味着任何对象都可以原生存储在键值中,而对存储值的数量和类型几乎没有限制。对象的最大大小是服务器的内存大小。
Table样式
Cloudera的OpDB是一个宽列的数据存储,并且本机提供表样式的功能,例如行查找以及将数百万列分组为列族。
列族必须在创建表时定义。不必在创建表时定义列,而是根据需要创建列,从而可以进行灵活的模式演变。
列中的数据类型是灵活的并且是用户定义的。用户可以决定是要利用这种灵活性还是要利用关系DBMS功能来换取降低数据类型的灵活性。
|
Column Family |
|
Column Family |
|
|
Column |
Column |
Column |
Column |
RowKey |
Cell |
Cell |
Cell |
Cell |
RowKey |
Cell |
Cell |
Cell |
Cell |
无冲突的复制数据类型
Cloudera的OpDB支持无冲突的复制数据类型(CRDT)。默认情况下提供它,并且复制子系统提供强大的最终一致性或强大的时间轴一致性。
HDFS整合
由于Cloudera在该领域的强大实力,它提供了包括HDFS在内的整个Hadoop生态系统的紧密集成。
可以使用快照导出数据,也可以从正在运行的系统导出数据,也可以通过离线直接复制基础文件(HDFS上的HFiles)来导出数据。
Spark整合
Cloudera的OpDB支持Spark。存在与Spark的多种集成,使Spark可以将表作为外部数据源或接收器进行访问。用户可以在DataFrame或DataSet上使用Spark-SQL进行操作。
有了DataFrame和DataSet支持,就可以使用催化剂中的所有优化技术。通过这种方式,可以实现数据局部性、分区修剪、谓词下推、扫描和BulkGate。可以将Spark Worker节点共置于群集中,以实现数据局部性。还支持对OpDB的读写。
对于每个表,必须提供目录。该目录包括行键,具有数据类型和预定义列系列的列,并且它定义了列与表模式之间的映射。目录是用户定义的json格式。
HBase数据帧是标准的Spark数据帧,并且能够与任何其他数据源(例如Hive,ORC,Parquet,JSON等)进行交互。Java基本类型被支持为三个内部Serdes:Avro,Phoenix和PrimitiveType。
流媒体
Cloudera提供了几种流数据处理框架和工具,这些框架和工具与其OpDB产品集成在一起。
Cloudera DataFlow是一个可扩展的实时流数据平台,可收集、整理和分析数据,从而使客户获得关键见识,以立即采取行动。
流管理
Cloudera Flow Management(CFM)是由Apache NiFi支持的无代码数据提取和管理解决方案。它为企业提供了高度可扩展的数据移动、转换和管理功能。简而言之,Nifi旨在自动执行系统之间的数据流。有关更多信息,请参阅Cloudera Flow Management。
流分析
由Apache Flink支持的Cloudera Streaming Analytics提供了用于实时流处理和流分析的框架。CSA提供了低延迟的灵活流解决方案,可以扩展到大吞吐量和状态。它根据所选的源和接收器提供所需的连接器,例如HBase Streaming连接器。有关更多信息,请参阅Cloudera流分析
流处理
Cloudera流处理(CSP)提供了高级消息传递,流处理和分析功能,这些功能由Apache Kafka作为核心流处理引擎提供支持。它还提供了流管理功能。有关更多信息,请参阅Cloudera流处理。
Spark Streaming是在Spark之上构建的微批处理流处理框架。HBase和Spark Streaming成为了很好的伴侣,因为HBase可以与Spark Streaming一起提供以下好处:
在此博客文章中,我们介绍了OpDB的NoSQL功能。我们还看到了OpDB如何与CDP中的其他组件集成。
这是有关CDP中Cloudera的操作数据库(OpDB)系列文章中的最后一篇文章。您可以从CDP中的Operational Database从该系列的开头开始。
关于Cloudera
在 Cloudera,我们相信数据可以使今天的不可能,在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下, Cloudera推动了全球最大型企业的数字化转型历程。了解更多,请联系。
慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。
欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn
在处理电子表格时,尤其是在专业和数据导向型环境中,正确设置 Excel 单元格内的数字格式至关重要。本文将介绍如何使用 Spire.XLS for Java 设置 Excel 单元格的数字格式,帮助轻松创建精美且结构清晰的电子表格。
从 Visual Paradigm 17.2 版开始,您可以创建自己的项目模板并与团队共享。这样团队成员就可以轻松创建符合团队标准的新项目。本文将指导您完成为团队创建项目模板的过程。
本文主要介绍如何使用DevExpress WinForms Data Grid组件实现固定列,欢迎下载最新版组件体验!
长期以来,Navicat 的数据库管理和开发工具一直都有将协同合作融合到设计理念中。本文将重点介绍如何使用 Navicat Premium 17 共享数据库对象。
Cloudera DataFlow是一个可扩展的实时流分析平台。
Cloudera Data Warehouse今天,明天及未来的现代分析数据库。
Cloudera Enterprise Data Hub一款用于数据驱动的云优先型企业的平台。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@capbkgr.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢