提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|行业资讯|编辑:陈俊吉|2016-07-15 09:57:03.000|阅读 418 次
概述:一款功能丰富、使用简单的数据处理工具无疑可以带来极大的帮助,可以为业务人员、数据分析师和数据科学家节省大量的时间和精力。BigSheets就是这样一款设计用来处理海量数据的图形化工具。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
的魅力在于提供了廉价的分布式数据存储和数据处理框架,让我们以极低的成本保存和处理海量数据。然而纯开源的Hadoop对使用者的技能仍然有较高要求:熟悉Java、Mapreduce接口才能编写数据处理程序;熟悉Hive sql或者Pig等才能使用各种工具语言编写数据处理逻辑。
对于大部分数据分析师和数据科学家来说,学习这些技能并不难,然而学习、使用这些底层的技能会消耗大量宝贵的时间,因此一款功能丰富、使用简单的数据处理工具无疑可以带来极大的帮助,可以为业务人员、数据分析师和数据科学家节省大量的时间和精力。BigSheets就是这样一款设计用来处理海量数据的图形化工具。
是对大数据进行数据处理、数据分析的电子表格工具,内置支持多种数据源,提供数据过滤、内容补全等多种实用的数据处理功能,可以合并和处理不同表格中的数据,也可以通过图表的形式对数据进行可视化展现,并提供了丰富的数据导入导出接口。
在用户和之间建立了一整套数据处理框架:用户在浏览器界面创建工作簿, 根据需要定义数据过滤、数据转换的处理流程;BigSheets引擎将前端输入的处理流程转换为可执行的作业(Pig);BigSheets在样本数据上运行数据处理流程,将结果展现给用户进行预览,等待确认;用户确认后,BigSheets将运算逻辑运行在全量数据上,并得到最终的处理结果。BigSheets的架构如下图所示:
本示例中展示了如何使用BigSheets对海量订单数据进行处理,演示了基本的数据处理,包括:数据解析、过滤、排序、合并和结果处理。需要处理的订单数据已提前上传至HDFS目录中。
步骤1, 登录BigSheets界面:
提供基于浏览器的管理界面和用户交互界面,除了最基本的Hadoop组件HDFS/Yarn/Mapreduce外,BigSheets还依赖BigInsightsHome和Knox服务:BigInsightsHome服务提供了IBM增值组件(BigSheets/BigSQL/TextAnalytics)的统一访问界面;Knox为外部访问者提供了安全、统一的访问入口。
在浏览器地址栏输入地址: //<管理节点
IP>:8443/gateway/default/BigInsightsWeb/index.html 访问,可使用默认用户guest/guest-password登陆:
步骤2, 将数据导入HDFS,并新建工作簿(Workbook):
可以从本地文件/目录或者HDFS文件/目录创建BigSheets工作簿。BigSheets内置了多种数据解析器,包括:基本的网络爬虫数据,字符分割数据,CSV格式文本数据,Hive数据解析器,JSON数据解析器 和TSV数据等。下图展现了从HDFS中的CSV文件中创建Workbook数据源:
步骤3, 在生成的工作簿副本中定义数据处理逻辑:
从HDFS文件创建的初始工作簿是只读的,需要复制为新的工作簿后再增加数据处理逻辑。下图展示了对订单数据按照时间条件进行过滤,提取出需要处理的数据子集后,再根据时间条件进行排序。
通常进行数据分析的数据源可能来自于多个数据源,需要根据实际情况对数据进行处理然后合并,下图中展示了将不同数据源的多余数据列删除,再通过Union操作将多个数据源的订单数据进行合并。
提供了大量现成的处理工具,包括:
Filter:过滤不满足条件的数据,如用户名为空等;
Function: 添加数据处理函数(内置96种函数),如对输入值进行求和;
Load: 从其他工作簿中导入数据,如合并不同表格中的数据;
Jion: 关联多个表格中的数据,类似于SQL语句中的Join;
Group: 数据分组:对数据进行分组并对每组数据进行相应的运算;
Union: 数据合并,将多个表格中的数据合并为一个;
Intersection: 数据交集,按指定列获取两个或多个表格中的重合数据,要求数据模式相同;
Complement: 数据取余,按指定列对数据进行取余,要求数据模式相同;
Limit: 限制数据中处理行数,按照Top(N)等顺序对处理的数据量进行处理;
Distinct: 除去表格中的重复值,每组重复的至只保留一个;
Copy: 从其他电子表中复制数据;
Formula: 添加数据处理公式。
定义好数据处理流程之后,可以从管理界面通过数据流图的方式,查看数据处理过程,如下图所示:
步骤4, 对全量数据进行数据处理,并保存结果:
在编辑数据处理过程中,在中看到的显示结果,都是对数据集里的前2000行数据进行模拟处理后,显示最前面的50行数据。确认数据处理逻辑正确之后,点击“Run”按钮运行全量数据的处理。
BigSheets会在后台通过Pig启动MapReduce作业,并在前台通过进度条显示进度。待任务完成之后,便可以使用数据处理结果了。
常见的三种使用场景如下:在BigSheets中使用数据,包括通过电子表格查看和画图等;为数据集创建BigSQL/HIVE数据表,再通过SQL/HIVE SQL访问数据;将电子表格的数据导出到HDFS,供外部使用。下图展现了如何在BigSheets中导出文件和创建数据表:
还可以根据需要直接画图,通过可视化图表的方式来展现数据。BigSheets支持各种常见的图表,包括饼图、柱状图、折线图、地理图等,下图展现了按照区域显示销售额的饼图:
大数据分析中处理的数据量少则TB大到PB,数据处理是花费数据分析团队最多时间和精力的工作。BigSheets的数据处理能力,可以有效减少数据处理过程的开发和维护时间,是大数据分析团队不可多得的数据处理工具之一。
详情请咨询!
客服热线:023-66090381
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn
通过提供强大的3D CAD数据访问工具并适用于桌面、移动和Web的高级环境3D可视化发动机,HOOPS在提升造船设计和制造流程的效率方面发挥了重要作用。
HOOPS Luminate在汽车行业中的应用具有广泛的潜力和深远的影响。它通过提供高效的3D可视化、虚拟装配与拆解、性能分析、客户定制等功能,帮助汽车制造商在设计、生产和销售过程中提升效率、降低成本并提高产品质量。
在不断发展的软件开发世界中,使工具和框架与最新的平台版本保持同步至关重要,欢迎查阅~
全球航运业对国际贸易至关重要,全球 90% 以上的商品通过海运运输。准确监控和控制这些集装箱的移动对于维持高效的供应链至关重要。手动输入集装箱号码是这一程序的关键部分,它带来了相当大的挑战,例如人为错误和效率低下。
工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业
SPSS Modeler工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效
IBM BigInsights for Apache Hadoop经济高效地存储、管理和分析大数据
IBM InfoSphere Streams高效捕获和分析动态数据的软件平台
Watson Analytics具备理解,学习和推理能力,实现更智能的人机互动,帮助人们做出更好的决策
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@capbkgr.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢