提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
原创|大数据新闻|编辑:蒋永|2019-03-05 15:18:28.000|阅读 221 次
概述:在本文中,第一部分将首先将介绍深度学习及其基础,作为我们学习的第一部分。第二部分,我们将介绍 Cloudera 数据和机器学习的统一平台,并提供六个实用技巧,帮助您的组织开始进行深度学习。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
如今大家都在说深度学习。
人们往往为技术而兴奋。但深度学习是企业用来解决实际问题的工具。仅此而已, 毋庸夸大,也无需贬低。
在本文中,第一部分将首先将介绍深度学习及其基础,作为我们学习的第一部分。第二部分,我们将介绍 Cloudera 数据和机器学习的统一平台,并展示实施深度学习的四种方法。
最后,我们提供六个实用技巧,帮助您的组织开始进行深度学习。
机器学习是一组算法和方法用以发现数据中有用的模式。数据科学家有数百种不同的算法可用,包括:
神经网络是一类机器学习技术。 20 世纪 40 年代由神经科学家开发,以模拟人类和动物大脑的行为,数据科学家在许多不同的业务应用中使用它们。它们包含在一些开源软件库和商业软件包中。
如果具有特定的属性,神经网络是有“深度”的,我们将在下文深度学习 101 中进 行讨论。“深度学习”是指数据科学家用来训练和部署深层神经网络的工具和方法。 这些技术可追溯到20世纪80年代;然而,其应用由于计算复杂性和所需资源而滞后。 降低的计算成本,数字化数据的大量涌现和改进的算法使深度学习在当今变得可行。
深度学习成为一个有用的工具是当实践者成功地使用它在诸如文件分析和识别、 交通标志识别、医学成像和生物信息学等领域赢得竞争。当今,数据科学家们将 深度学习应用于各种实际问题:
深度学习是一种成熟的技术,是数字转型的关键驱动力。随着管理人员更多地了 解其成功的应用,对工具和基础架构的需求将会全面激增。
在本节中,我们将简要介绍神经网络和深度学习。有关更详细的处理,请参阅本 文末尾附加阅读部分中链接内容。
数据科学家使用神经网络指定一个问题作为节点网络,或神经元,以分层布置。 定向图将节点彼此连接。数据科学家使用一个优化算法来找到模型的最优参数集, 例如连接节点的边缘的权重。
人造神经网络中的神经元接受来自其他神经元的数据作为输入。他们用数学函数 处理数据以产生计算结果。数据科学家指定神经元应用于输入数据的功能类型。
在人工神经网络中,数据科学家将神经元分层布置。人工神经网络中有三种类型 的层。输入层中的神经元接受数据,而输出层中的神经元呈现模型计算的结果。 神经网络的输入和输出层代表真实世界的事实:输入层表示数据向量,输出层表 示我们想要预测、分类或推断的对象。例如,在图像分类问题中,输入是位映射 图像数据的向量,输出是指示图像表示什么的标签 -- 例如“猫”。
隐藏层中的神经元执行中间计算。隐藏层是不可直接解释的抽象;它们仅仅用于 提高模型的质量。隐藏层可以使神经网络学习任意复杂的功能。
如果人工神经网络具有两个或更多隐藏层,则它是一个深度神经网络。
数据科学家使用术语“架构”来描述指定神经网络的不同方法。有许多不同的神 经网络架构,其特征在于拓扑结构、信息流动、数学功能和训练方法。一些广泛 使用的设计包括:
例如,在图像识别中,一个神经元表示图像中的一个像素。在卷积网络中,该神经元可以连接到代表周围像素的神经元,而不是连接到代表图像的远角中的像素的神经元。
还有许多其他类型的神经网络,包括径向基函数网络、限制波尔兹曼机器、深度 信念网络、深度自动编码器、递归神经网络和堆叠去噪自动编码器。
神经网络中的每个数学函数具有一个或多个参数或权重。参数的数量随模型的大 小和复杂程度而增加;在一个极端的例子中,Cloudera 合作伙伴 Digital Reasoning报告了用 1600 万个参数来训练自然语言处理网络。一个大的计算问题需要一个高效的优化算法,如随机梯度下降或 L-BFGS。
数据科学家通过运行具有训练数据的优化算法来训练神经网络。对于预测和推理 问题,训练数据包括具有已知结果的历史示例。优化算法确定一组预测误差最小 化的参数。
大模型需要大量数据。例如,完成 ImageNet 基准测试的微软团队使用了 130 万张图像的数据。
像所有机器学习技术一样,当组织机构将训练过的模型应用于新的信息时,人工 神经网络可以提供业务价值。数据科学家称之为推论。推论与训练正好相反。在 训练任务中,数据科学家使用一系列广泛的历史样本与已知的结果来估计模型的 参数。推论使用经过训练的模型来预测或者推算未知。
深度学习有两个关键优势,使其与其他机器学习技术区分开。其中第一个是特征 学习。用其他的技术,数据科学家需要手动转换特征以通过特定算法获得最佳结果。 这个过程需要时间,也需要大量的猜测。相比之下,深度学习从多层次的输入数 据中学习更高层次的抽象。数据科学家不用猜测如何组合、重新编码或总结输入。
此外,深度学习还可以检测表面上看不见的变量之间的相互作用。它可以检测非线 性相互作用并近似任意函数。虽然可以使用更简单的方法来适应互动效应,但是这 些方法需要手动指定和数据科学家的更多猜测。深度学习会自动学习这些关系。
特征学习和检测复杂关系的能力往往使深度学习成为某些类型数据的不错选择:
高基数结果。对于诸如语音识别和图像识别等问题,学习者必须区分大量离散类别。(例如,语言识别应用程序必须在英语中区分近 20 万个单词。)数学家称此属性为基数。传统的机器学习技术往往在这个任务中失败;深度学习可以解决成千上万的元素的分类问题。
高维数据。在诸如视频分析、粒子物理或基因组分析等问题中,数据集可以具有数十亿个特征。深度学习可以工作于这样大量的“宽”数据集。
未标记数据。标签提供有关数据包的有价值的信息。例如,图像可以携带标签“猫”。对于无监督学习,深度学习可工作于缺少信息标签的数据(例如位映射图像)。
与其他机器学习技术相比,深度学习也有一些缺点。
技术挑战。深度学习是一个复杂的过程,需要实施者做许多选择。这些选项包括 网络拓扑、传递函数、激活函数和训练算法等。方法和最佳实践才刚刚出现;数 据科学家经常依靠试错来发现凑效的模型。因此,深度学习模式往往比简单和成 熟的技术花费更多的时间。
不透明。通过模型参数的检查,深度学习模型很难或不可能解释。这样的模型可 能有很多隐藏层,没有“真实世界”的指象。数据科学家通过衡量它的预测效果 来评估模型,将其内部结构视为“黑匣子”。
过度拟合。像许多其他机器学习技术一样,深度学习易于过度拟合,倾向于“学习” 训练数据的特征而不将整体推广到整个人群。辍学和正则化技术可以帮助防止这 个问题。与任何机器学习技术一样,组织机构应该对模型进行测试和验证,并使 用独立于训练数据集的数据来评估准确性。
计算密集型。训练深度学习模型可能需要数十亿次计算。虽然可以在常规硬件上 执行此任务,但一些行业分析师建议使用专门的 GPU 加速平台。这个硬件不便宜。 此外,由于对高性能机器的需求,一些客户报告订单和延长的交货时间。
部署问题。深度学习模型是复杂的,这使得它们更难部署在生产系统中。由于模 型的不透明度,组织机构可能需要实施其他措施来向用户进行说明。
看到这里,你对深入学习有没有新的认识呢?如果感兴趣可以关注我们慧都大数据,在后面的学习中我们将介绍Cloudera数据和机器学习的统一平台,并展示实施深度学习的四种方法,以及提供六个实用技巧,帮助您的组织开始进行深度学习。
慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。
欢迎拨打慧都热线023-68661681或咨询,我们将帮您转接大数据专家团队,并发送相关行业资料给您!
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@capbkgr.cn
大数据分析的一些发展趋势将为企业的未来发展做好准备。大数据分析如今成为政府部门和私营企业以及医疗机构抗击新冠疫情的重要资源。这在很大程度上要归功于云计算软件的发展,很多企业现在可以实时跟踪和分析大量业务数据,并相应地对其业务流程进行必要的调整。
生产质量分析是从工厂订单下单-订单生产-流入市场, 针对整个生产链进行全面的质量分析。其中最重要的一环就是对于质量控制。
生产质量分析主要是为了帮助企业更快更准确的发现产品的质量问题,找到影响质量的根本原因,改善原因,提高企业产品良率。下面我们看看慧都科技的质量分析到底能帮助企业解决哪些问题?
在工业制造界,企业极不希望发生停机事故。因为,一小时的停机时间会使企业损失上百万人民币甚至更多。除了资金方面的损失之外,停机还意味着,当持续发生设备故障时,对员工的激励难度则会变大。因此,在企业的日常业务运营中,预测性维护就显得十分重要。
一款用于数据驱动的云优先型企业的平台。
Cloudera 企业版基于hadoop的大数据分析和管理软件
Cloudera Essentials管理和支持Cloudera的Hadoop发行版。
Cloudera Data Warehouse今天,明天及未来的现代分析数据库。
Cloudera Operational DB现代数据驱动型业务的实时洞察。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@capbkgr.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢