提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|行业资讯|编辑:郝浩|2016-08-09 10:59:25.000|阅读 136 次
概述:面对每一种酷毙的新技术,人们很容易过于迷恋其中,开始把它用在不当的地方。比如说:从头到尾浏览数百亿条记录,从中找出几百万条标以一组标准的记录,这是MapReduce或你最喜欢实施的有向无环图(DAG,想一想Spark)相当愚蠢的一种用法。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
对于诸如此类的任务,别忘了那项最初的大数据技术:搜索。借助像Solr、Lucidworks和Elasticsearch这些出色的开源工具,你就有了一种有效的方法来优化输入/输出,并实现用户体验个性化。这么做的效果比使用花哨的新工具不当好得多。
不久前,有个客户问我如何使用Spark对他们流式传输到NoSQL数据库的数据进行搜索。问题在于,该客户的使用模式是简单的字符串搜索和向下钻取(drill-down)。这超出了数据库高效处理的能力:他们将不得不从存储系统获取所有数据,然后在内存中加以分析。就算拥有DAG,在AWS上也有点慢(更不用说成本高昂了)。
如果你可以把一个定义的数据集放入内存,Spark是很出色。Spark并不擅长获取全世界的数据,一方面在于在内存中,数据分析的效果完全取决于你将所有数据传输到内存以及购买这种内存的能力。我们仍需要考虑存储,考虑如何组织管理存储,以便能够迅速、利落地获得我们所需的数据。
对于这个特定的客户而言,答案就是为进入的数据编制索引,然后拉回数据子集,用于更高级的机器学习,但是将搜索任务交给搜索索引。
搜索、机器学习和某些相关技术之间并不存在清晰的界线。很显然,文本或语言信息往往强烈地表明这是搜索问题。数字、二进制或其性质根本不是文本或语言的信息表明这是机器学习(或其他)问题。是存在重叠。甚至在一些情况下,任何一种方法都可以使用,比如异常检测。
一个关键问题是,你从存储系统检索数据时能不能选择合适的数据,以此作为你的一个标准,而不是非得处理大量数据。对于文本或定义的数字数据而言,这可能很简单。同样,人们用于异常检测的那种类型的规则可能同样很适合搜索。
当然,这种方法有其局限性。如果你不知道自己在找什么数据,又无法轻而易举地定义规则,那么很显然搜索并不是合适的工具。
在许多情况下,结合使用搜索和Spark或你最喜欢的机器库可能是秘诀。我之前谈论过将搜索添加到Hadoop的方法,不过也有将Spark、Hadoop或机器学习添加到搜索的方法。
Spark方面明朗化之后,使用它的人认识到,它并不是什么灵丹妙药,内存中处理起来确实存在大问题。至于你可以索引的数据,能够迅速拉回工作集来分析,远比使用又大又粗的输入/输出、拉入到内存中找到你要找的数据好得多。
但是,搜索不仅仅是你如何解决“找到我的工作集”、内存或输入/输出问题。大多数大数据项目的软肋之一在于缺乏上下文。我之前从安全方面谈论过这个话题,但是用户体验方面又如何?虽然你流式传输你能找到的关于用户的每一个数据,但是如何处理这些数据,以便实现用户体验个性化?
使用你对用户了解的信息(即信号),就能改善放到用户面前的信息。这可能意味着,你在向用户展示结果或个性化网页时,在用户交互的前端使用流式分析,而在后端使用分面搜索(faceted search)。
作为一名数据架构师、工程师、开发者或科学家,你需要的不仅仅是工具库中的一两种工具。我对于这种方法很恼火:“让我们存储一个很大的blog,希望得到最好的结果,同时每当我们使用它,就要花钱搜寻。”一些厂商实际上似乎支持这种方法。
使用索引和搜索技术,你就能构成一个更好的工作集。你还可以避免实施基于你的数据流,为提供给用户的数据实现个性化。搜索很好,请使用它。
本文转载自
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn
通过提供强大的3D CAD数据访问工具并适用于桌面、移动和Web的高级环境3D可视化发动机,HOOPS在提升造船设计和制造流程的效率方面发挥了重要作用。
HOOPS Luminate在汽车行业中的应用具有广泛的潜力和深远的影响。它通过提供高效的3D可视化、虚拟装配与拆解、性能分析、客户定制等功能,帮助汽车制造商在设计、生产和销售过程中提升效率、降低成本并提高产品质量。
在不断发展的软件开发世界中,使工具和框架与最新的平台版本保持同步至关重要,欢迎查阅~
全球航运业对国际贸易至关重要,全球 90% 以上的商品通过海运运输。准确监控和控制这些集装箱的移动对于维持高效的供应链至关重要。手动输入集装箱号码是这一程序的关键部分,它带来了相当大的挑战,例如人为错误和效率低下。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@capbkgr.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢