彩票走势图

Cloudera资讯|介绍Apache Hadoop Ozone

翻译|行业资讯|编辑:况鱼杰|2020-06-05 13:59:09.990|阅读 344 次

概述:Apache Hadoop分布式文件系统(HDFS)已经成为大数据的事实上的文件系统。很容易忘记现实世界中HDFS的可伸缩性和健壮性。Cloudera的客户运行具有数千个节点的集群; 这些集群存储了100 PB的数据,为数千个并发客户端提供服务。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

相关链接:


与CLOUDERA合并之前,此文章已在HORTONWORKS.COM上发布。某些链接,资源或参考文献可能不再准确。

简介

Apache Hadoop分布式文件系统(HDFS)已经成为大数据的事实上的文件系统。很容易忘记现实世界中HDFS的可伸缩性和健壮性。Cloudera 的客户运行具有数千个节点的集群; 这些集群存储了100 PB的数据,为数千个并发客户端提供服务。

忠实于其大数据根源,当大多数文件很大(数十到数百MB)时,HDFS效果最佳。HDFS受著名的小文件限制的困扰,并且要处理超过4亿个文件。对于可扩展至数十亿个小文件的类HDFS存储系统的需求日益增长。

Ozone是一个分布式键值存储,可以同时管理大小文件。 虽然HDFS提供类似POSIX的语义,但是Ozone的外观和行为类似于对象存储。

Ozone由具有丰富的大型Apache Hadoop集群管理经验的工程师和架构师团队设计和实施。 他们对HDFS的优势以及可以做的一些事情有所了解,这些教训影响了Ozone的设计和演变

设计原则

臭氧的设计遵循以下原则。

  • 高度一致。强大的一致性简化了应用程序设计。臭氧旨在提供严格的可序列化性。
  • 结构简单。当出现问题时,简单的体系结构更易于推理和调试。Cloudera 试图使Ozone体系结构保持简单,甚至以潜在的可伸缩性为代价。但是,就规模而言,Ozone是无懈可击的。因为其设计为在单个群集中存储超过1000亿个对象。
  • 分层架构。为了达到现代存储系统的规模,Ozone是一个分层文件系统。它将名称空间管理与块和节点管理层分开,这使用户可以在两个轴上独立扩展。
  • 恢复成本低。HDFS的主要优势在于,它可以从灾难性事件(如群集范围内的断电)中有效恢复,而不会丢失数据,也无需进行昂贵的恢复步骤。机架和节点损失相对较小。面对故障,Ozone同样具有强大的作用。

Apache中的开源。Apache开源社区对于Ozone的成功至关重要,所有的Ozone设计和开发都在Apache Hadoop社区中完成。

  • 与Hadoop生态系统的互操作性。现有的Apache Hadoop生态系统和相关应用程序(例如Apache Hive,Apache Spark和传统的MapReduce作业)应该可以使用Ozone。 因此,臭氧支持:Hadoop兼容文件系统API(又名OzoneFS)。 这允许Hive,Spark等将臭氧用作零修改的存储层。
  • 数据局部性。通过允许将计算任务安排在与数据相同的节点上,数据局部性是原始HDFS / MapReduce体系结构的关键。Ozone还将支持选择使用它的应用程序的数据局部性。
  • 与HDFS并排部署。Ozone可以安装在现有的Hadoop群集中,并且可以与HDFS共享存储磁盘。

当前状态

可从Apache Ozone网站//hadoop.apache.org/ozone/上获得Alpha发行版的Ozone进行评估。社区正在努力开发许多功能,这些功能将在将来的Beta版本中提供,即:

  • 安全性:Kerberos和委派令牌
  • 高可用性
  • 与Amazon S3兼容的REST API
  • 机架感知数据放置
Credits
Apache Hadoop社区过去曾提出过多种扩展HDFS的方法,例如
  • HDFS-5477 –块管理器即服务。
  • HDFS-8286 –使用KV存储扩展名称空间
  • HDFS-5389 –一个名称节点,仅在内存中保留一部分名称空间
  • 区块集合/巨型区块抽象
Ozone设计借鉴了所有这些建议。许多活跃的和过去的开发人员都为Ozone项目贡献了想法和代码。


关于Cloudera

Cloudera,我们相信数据可以使今天的不可能,在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下, Cloudera推动了全球最大型企业的数字化转型历程。了解更多,请联系。

慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!


标签:

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn


为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP