彩票走势图

产品

产品
资讯
资源
视频
学院
示例

产品中心
解决方案
行业方案
视频课程
关于慧都

热门产品

UI界面: DevExpress telerik BCGSoft Developer Machines

文档管理: Aspose E-iceblue GrapeCity PDFlib

图表控件: LightningChart Steema Iocomp

数据采集: TAKEBISHI Matrikon

思维导图: TheBrain XMind

开发工具: IntelliJ IDEA MyEclipse Zend PyCharm WebStorm CLion

报表控件: Fast Report Stimulsoft GrapeCity

加密解密: VMPsoft Eziriz Oreans

项目管理: DHTMLX NETRONIC

数据库管理: Devart PremiumSoft

条码工具: Bartender Softek Dynamsoft TEC-IT Byte Aspose.BarCode

解决方案

软件定制解决方案: 软件系统定制高端UI定制业务系统定制

智能制造解决方案: OMES制造执行系统 APS生产排程系统 OQMS质检管理系统 OPTS生产溯源系统 OTPM设备管理系统 OKanban看板管理 DA工业数据采集系统 SRM供应商管理 PDM产品数据管理 WMS仓储管理 OMES ProLine产线MES系统

行业方案

制造行业: 磁性材料行业hot 汽车零配件行业电子行业精密装配行业钣金行业机械加工行业汽车改装行业金属薄膜材料行业灯具照明行业电线电缆行业钢结构行业

其他行业: 石油行业hot 医疗行业金融行业建筑行业

视频课程

产品视频: UI界面类图标报表网络通讯文档管理矢量图像处理位图图像处理音频视频文件格式转码条形码加密解密测试分析地图/CAD/GIS BI/大数据算法工作流 UML 数据库/服务器 IDE 项目管理思维导图其他移动开发扫描识别条形码

学院课程: VIP视频免费视频用户界面图表报表文档管理大数据工作流项目管理测试分析往期公开课项目管理其他

企业培训: 定制培训班

关于慧都

慧都简介慧都文化联系我们合作伙伴典型客户

彩票走势图 > 资讯 > 解析IBM SQL-on-Hadoop的优化思路

解析IBM SQL-on-Hadoop的优化思路

原创|行业资讯|编辑：陈俊吉|2016-05-30 10:32:17.000|阅读 196 次

概述：IBM Big SQL 是SQL on Hadoop 的方案，它的核心引擎沿用了DB2的技术，因此，Big SQL的优化与DB2类似。由于Big SQL本身不拥有数据（数据在HDFS），所以它自身的优化选项要比DB2少，但同时要注意优化Hadoop/HDFS。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

对于Big SQL的优化，您需要注意以下六个方面：

1．平衡的物理设计

在进行集群的物理设计需要考虑数据节点的配置要一致，避免某个数据节点性能短板而影响整体性能。而对于管理节点，它虽然不保存业务数据，但作为管理服务和BigSQL系统包空间的存储，也需要配置一定数量的磁盘。另外，CPU／内存／磁盘的配比要合理，用户可以参考以下配置作为物理设计的基础：

CPU：16核

内存：128GB

硬盘：600GB * 2块（系统使用），数据节点3TB * 12块/管理节点3TB* 12块

2. 并行的I/O

为了达到更高的I/O吞吐量，您需要尽量将数据分到多块磁盘上。具体来说，您需要这样的设置：

dfs.data.dir=/data1/hdfs,/data2/hdfs,/data3/hdfs,/data4/hdfs
bigsql_db_dir=/data1/bigsql,/data2/bigsql,/data3/bigsql,/data4/bigsql

注意bigsql_db_dir 目录在Big SQL的Head Node和Worker Node都需要具体同样的路径。

3. 合适的存储格式

Big SQL支持多种格式，包括TEXT、SEQUENCE、RC、PARQUET、Avro、ORC等存储格式。BigSQL会自动根据文件格式选择相应的Reader以求最佳性能。选择存储格式需要在加载速度／压缩比／查询性能／收集统计信息速度之间折中。不同的存储格式之间对比请参考《BigSQL支持的存储格式和对应的建表语句》。

对于Big SQL，Parquet通常是最优的存储格式。

4. 合理的内存分配

每个节点上Big SQL所需内存等同于DB2的INSTANCE_MEMORY，推荐的取值范围是系统可用内存的25%～75%。需要注意的是Big SQL和MapReduce之间是共用系统内存的，如果Big SQL分配内存较多，那么MapReduce可用内存就少了，就有可能影响MR作业的性能。

Big SQL的Buffer pool只用于缓存临时数据而不缓存用户数据，这点与DB2有很大差异，对于排序堆相关的管理则与DB2一致。建议开启STMM（自调优内存管理器）运行一段时间，然后在工作负载和STMM调优的参数稳定之后再关闭。

5. 高效的执行计划

Big SQL沿用了DB2的SQL重写和基于成本的优化等功能。对于优化器选择成本最低的执行计划，统计信息起到关键作用。因此，每次数据发生较大变化时需要及时收集对应表的统计信息。

另外，Big SQL自身不管理用户数据，因此也不支持创建和维护索引。但是，Big SQL支持创建Primary Key，Foreign Key等约束。在不用考虑Index的时候，尽可能为数据表指定PK，FK等，这些约束有助于优化器对SQL的优化。

6. 其它建议

考虑对数据量大，具有合适的分区键（如查询条件中需要使用“日期”字段）的表使用Range Partition。

选择合适的数据类型，特别注意需要将Hive的string类型默认映射到Big SQL是VARCHAR(32,672)，加上其它字段绝大多数情况都会超过32K的PageSize，从而导致性能下降。建议将Hive的string显式地转成较小的VARCHAR (n)。

如果并发查询很多导致了CPU和内存过分竞争和系统性能下降，则要考虑使用WLM（Workload Management）对并发的查询数据进行限制。

详情请咨询“”！

客服热线：023-66090381

标签：大数据数据库 Hadoop

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn

上一篇：慧都控件与企业移动化专家Kaonsoft达成正式合作关系下一篇：OLAP系统设计要点总结

相关产品

Cognos Analytics

工业4.0优选产品 | 商业智能和绩效管理软件领导者，帮助企业成为业绩最佳的分析驱动型企业

工业4.0优选产品 | 在历史数据中发现规律以预测未来事件，做出更好的决策，实现更好的成效

DB2 with BLU Acceleration

使用动态内存中列式技术加速分析数据

最新文章 MORE

彩票走势图相关的文章 MORE

title

title

业务系统定制

智能制造解决方案: 工业设计运营管理生产管理

石油工程解决方案: 油气勘探数字化钻井工程数字化数据管理与分析

关于我们: 慧都简介公司动态业务区域典型案例

区域服务电话: 重庆 / 023-68661681 华东 / 13452821722 华南 / 18166486035 华北 / 17347785263

客户支持: 技术培训/ 咨询服务服务热线：400-700-1020 邮箱：sales@capbkgr.cn 微信在线咨询

官方微信

官方微博

服务电话

重庆/ 023-68661681

华东/ 13452821722

华南/ 18100878085

华北/ 17347785263

客户支持

技术支持咨询服务

服务热线：400-700-1020

邮箱：sales@capbkgr.cn

关注我们

地址 : 重庆市九龙坡区火炬大道69号6幢

慧都科技版权所有 Copyright 2003- 2024 渝公网安备 50010702500608号

扫码咨询

添加微信立即咨询

电话咨询

客服热线
023-68661681

TOP