Big SQL 与 Spark SQL功能协作简介-控件新闻-慧都网

Big SQL 与 Spark SQL功能协作简介

原创|行业资讯|编辑：陈俊吉|2016-08-16 09:26:24.000|阅读 775 次

概述：在打开本文章前，或许您已经产生疑问：BigInsights里包含了Big SQL 和Spark SQL，它们有何区别，而作为用户又该如何选择？

相关链接：

由于前期的文件已经多次介绍了Big SQL的特点和工作机制，如《》，《BigSQL发动机的结构和工作原理》和《BigSQL让HBase更易用》等，而Spark SQL在网上也有很多彩票走势图相关的文章，所以，这两个SQL on Hadoop引擎的功能特点在此不在细述。

两种SQL引擎在一些数据处理的场景都是可以胜任和互换的。然而，Spark SQL目前还很不成熟，包括对SQL标准的支持、对数据访问的安全性控制（行级和列级的访问控制）和并发有待改进，而且它在处理数据时受内存容量的限制。所以，在更多的场景中，Big SQL无论在功能上还是性能上才是最佳选择。

鉴于Big SQL和Spark的流行性，企业想要部署和使用这两种技术的期望是合理的。幸运的是，Spark的应用程序不难与Big SQL共享Big SQL表中的数据。这种可能得益于Big SQL的设计，特别是它重用了Hive的HCatalog元数据管理并支持不同的Hadoop文件格式的存储数据(而不是专有的格式)。这种方法使得Spark SQL非常容易地获取Big SQL表的数据。

下面，我们看一个简单的例子，以说明Spark SQL如何访问Big SQL的数据。

在BigInsights中，假设您已经在Hive仓库或在DFS目录中已经创建了一个Big SQL表，现在您只需调用标准Spark SQL语句和表达式，以创建一个HiveContext并使用HiveQL语法查询Big SQL表。一旦您把数据读入到Spark，您就可以使用适当的Transformation和Action进行数据处理。