提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
翻译|大数据新闻|编辑:蒋永|2019-03-19 10:17:37.000|阅读 195 次
概述:本篇博文对Apache Hadoop生态系统中可用的几种流行数据格式和存储引擎进行了性能比较。这些内容将有助于用户理解如何(以及何时)可以改善大数据工作负载的处理。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
本篇博文对Apache Hadoop生态系统中可用的几种流行数据格式和存储引擎(包括Apache Avro、Apache Parquet、Apache HBase和Apache Kudu)进行了性能比较,涉及空间效率、数据撷取性能、分析扫描和随机数据查询等。这些内容将有助于用户理解如何(以及何时)可以改善大数据工作负载的处理。
本文作者ZBigniew Baranowski是一位数据库系统专家,并且是提供和支持中央数据库和基于Hadoop服务的CERN(欧洲核子研究组织)的成员。
比较Hadoop文件格式和存储引擎的最初想法是受第一个在CERN(ATNAS EventIndex)上大规模采用Hadoop系统版本启发的。
该项目于2012年开始启动,当时利用MapReduce处理CSV是处理大数据的常见方式。同时,Apache Spark、Apache Impala(正在孵化中)之类的平台或Avro、Parquet等文件格式不像现在这么成熟和流行,甚至都尚未启动。因此回顾过去,基于使用HDFS MapFiles选择的设计是一种“过时的”且较不受欢迎的概念。
使用ATLAS EventIndex数据进行测试的最终目标是了解可以最优的使用哪种存储数据方法;以及相对于系统的主要用例,此类应用程序的预期收益是什么。我们想要进行比较的主要方面是数据量和以下性能。
ATLAS是针对大型强子对撞机(CERN的粒子加速器)建造的七大粒子检测器实验之一。
ATLAS EventIndex是所有碰撞(称为“事件”)的元数据目录,这些碰撞在ATLAS实验中发生,后被永久存储在CERN存储基础设施中(通常每秒有几百个事件)。物理学家使用该系统来识别和定位感兴趣的事件,通过共性把事件群体进行分组,以及检查产生周期的一致性。
每个编入索引的碰撞均作为单独的记录存储在ATLAS EventIndex中,其平均长度为1.5KB,具有56个属性,其中6个属性唯一地标识了一个碰撞。大多数属性是文本类型,只有少数属性是数字类型。在某一给定时刻,包含占用几十T字节(不包括数据复制)的6e10个记录存储在HDFS中。
已使用不同的存储技术和压缩算法(包括Snappy、GZip或BZip2)将相同的数据集存储在同一Hadoop集群中:
在测试中,主键前3列的元组被用作分区键,允许在分区数(几千个)和平均分区大小(数百兆字节)之间获得良好的平衡
当将ATLAS EventIndex数据存储到HBase中时,每个事件属性存储在单独的单元格中,并且行键由事件标识属性列的级联组成。另外,为减小HBase块的大小(否则每行长度会有8KB)启用了行键(DATA_BLOCK_ENCODING)的差分(FAST_DIFF)编码。
在评估中,所有文字类型都以字典编码存储,数字类型则以位随机编码存储。此外,通过使用主键的第一列(由与HBase案例中相同的列组成)作为分区键,引入了范围和散列分区的组合。
数据访问和撷取测试在由14台实体机器组成的集群上进行,每台机器配备有:
从Cloudera Data Hub(CDH)发行版本5.7.0安装的Hadoop集群包括以下几个方面:
在本报告后面提到的所有测试中,使用Apache Impala(正在孵化中)作为数据撷取和数据访问框架。
重要提示:尽管本次测试为获得尽可能精确的结果付出了一些努力,但这不应被视为测试技术的通用和基本基准。因为存在太多可能影响测试的变量,所以具体情况应该具体分析,例如:
图表翻译:
ROW LENGTH INBYTES 行长度字节
No compression 无压缩
Snappy
GZip/BZip2
The figure reports on the average row length in bytes for each tested format and compression type
该图显示了各种测试格式和压缩类型的平均行长度(以字节为单位)
测试描述:在使用不同技术和压缩方法存储相同的数据集(百万条记录)后,测量记录的平均大小。
注释:
图表翻译:
AVERGE INSERTION RATE(KHZ) 平均插入速率(KHZ)
Figure reports on the average ingestion speed (103 record/s) per data partition for each tested format and compression type
该图显示了各种测试格式和压缩类型的每个数据分区的平均撷取速度(103个记录/秒)
测试描述:测量单个数据分区中的记录撷取速度。
注释:
图表翻译:
AVERGE RANDOM LOOKUP LATENCY[S] 平均随机查找延迟 [单位:S]
Figure reports on the average random record lookup latency [in seconds] for each tested format and compression type
该图显示了每种测试格式和压缩类型的平均随机记录查找延迟 [以秒为单位]
测试描述:通过提供记录标识符(复合键)从记录中检索非键属性。
注释:
图表翻译:
AVERGE SCAN RATE(KHZ) 平均扫描速率(KHZ)
Figure reports on the average scans speed with the same predicate per core [in k records/s] for each tested format and compression type
该图显示了各种测试格式和压缩类型对每个核心具有相同的谓词[单位:k 条记录/秒]的平均扫描速度
测试描述:计算在整个记录集合中的非键列之一中具有某个子串的记录数。
注释:
在本节中,我们想分享关于数据格式使用的其它注意事项及其优点和缺点,因为这些是从我们的参考工作负载测试中得出的:
值得注意的是,压缩算法不仅在减少数据量方面发挥了重要作用,在增强数据撷取和数据访问的性能方面也扮演着重要角色。在所有这些领域中,Snappy编解码器为所有测试技术提供了最佳的结果,比没有压缩的纯编码(Avro除外)更好。
对Hadoop生态系统上流行存储技术的评估已经在许多方面展示了每种技术的利弊,这些方面例如减少总体数据量、简化数据撷取及提高数据访问的性能。
Apache Avro已被证明是一种用于结构化数据的快速通用编码器。由于具备非常高效的序列化和反序列化性能,当需要同时访问记录的所有属性时,此格式可以保证非常好的性能 - 数据传输、分段区域等。
另一方面,Apache HBase提供了非常优异的随机数据访问性能,以及如何存储数据(无模式表)的最大灵活性。HBase数据的批处理性能在很大程度上取决于所选择的数据模型,并且通常不能在该领域与其他测试技术竞争。因此,任何使用HBase数据的分析都应该很少执行。
同时列存储方式,例如Apache Parquet和Apache Kudu,在快速数据采集、快速随机数据查找和可扩展数据分析之间提供了非常好的灵活性,同时确保了系统简单性 - 只需要利用一种存储数据的技术。
Parquet在更快的数据扫描和撷取方面具有优势,而Kudu擅长于更快的随机查找。
替代单一存储技术实现可以考虑由用于批处理(如Parquet)的原始存储和用于随机存取的索引层(例如HBase)组成的混合系统。这允许在某些访问路径上充分利用技术专业化/优化,并提供最佳性能。值得注意的是,这种方法存在数据重复和系统架构总体复杂性的问题,并且需要以更高的维护成本为代价。因此,如果系统的简单性是重要因素之一,Apache Kudu似乎是一个很好的折衷方式。
图表翻译:
Throughput for Analytics 分析吞吐量
Map Files地图文件
Fast random access (goodness for online transactions) 快速随机访问(在线交易的优点)
欢迎拨打慧都热线023-68661681或咨询,我们将帮您转接大数据专业团队,并发送相关资料给您!
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn
文章转载自:大数据分析的一些发展趋势将为企业的未来发展做好准备。大数据分析如今成为政府部门和私营企业以及医疗机构抗击新冠疫情的重要资源。这在很大程度上要归功于云计算软件的发展,很多企业现在可以实时跟踪和分析大量业务数据,并相应地对其业务流程进行必要的调整。
生产质量分析是从工厂订单下单-订单生产-流入市场, 针对整个生产链进行全面的质量分析。其中最重要的一环就是对于质量控制。
生产质量分析主要是为了帮助企业更快更准确的发现产品的质量问题,找到影响质量的根本原因,改善原因,提高企业产品良率。下面我们看看慧都科技的质量分析到底能帮助企业解决哪些问题?
在工业制造界,企业极不希望发生停机事故。因为,一小时的停机时间会使企业损失上百万人民币甚至更多。除了资金方面的损失之外,停机还意味着,当持续发生设备故障时,对员工的激励难度则会变大。因此,在企业的日常业务运营中,预测性维护就显得十分重要。
Hadoop是一个允许跨集群的分布式处理大型数据集的开源软件
Cloudera Enterprise Data Hub一款用于数据驱动的云优先型企业的平台。
Cloudera 企业版基于hadoop的大数据分析和管理软件
Cloudera Essentials管理和支持Cloudera的Hadoop发行版。
Cloudera Data Warehouse今天,明天及未来的现代分析数据库。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@capbkgr.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢