新产品上线！Cloudera Machine Learning——新云原生机器学习服务，专为CDP构建-控件新闻-慧都网

新产品上线！Cloudera Machine Learning——新云原生机器学习服务，专为CDP构建

原创|产品更新|编辑：况鱼杰|2020-05-07 14:56:45.417|阅读 600 次

概述：Cloudera Machine Learning（CML）是Cloudera的新云原生机器学习服务，专为CDP构建。本文将会介绍CML的使用功能，以及Cloudera Machine Learning 和Cloudera Data Science Workbench的联系。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

Cloudera Machine Learning是Cloudera针对CDP构建的云原生机器学习平台。Cloudera Machine Learning将自助服务数据科学和数据工程统一在一个便携式服务中，作为企业数据云的一部分，可对任何位置的数据进行多功能分析。

产品介绍

Cloudera Machine Learning（CML）只是您可以在Cloudera数据平台（CDP）上使用的众多体验之一。 Cloudera Machine Learning使团队可以立即部署机器学习工作空间，这些工作空间可以自动扩展以适应他们的需求，并可以通过使用kubernetes自动挂起以节省成本。所有这些都打包成可移植的体验，多个团队成员可以轻松访问这些体验，以在整个组织中提供一致的体验。在下面的视频中，将带您逐步了解CDP公共云上CML中的各种高级功能。（点击可查看介绍视频）

优势概况

			对于数据科学家
			在可满足您的业务和IT要求的平台上获取端到端机器学习工作流所需的访问，工具和计算资源。
			对于IT领导者
			在不影响安全性和治理的前提下，为您的团队提供通过机器学习进行试验，迭代和影响业务所需的资源。

功能详细介绍

自助式数据访问

借助Cloudera Machine Learning，管理员可以轻松地在混合和多云环境中复制受控数据集，以使数据科学团队可以自助访问他们所需的业务数据，同时保持企业数据安全性和治理控制。

弹性，自动暂停的资源

Cloudera Machine Learning使数据科学团队可以访问横向扩展的异构计算资源，以快速完成工作，同时维护可调节的护栏，以帮助IT部门轻松管理和优化基础架构资源和成本。

首选的开放软件工具

除了适用于Spark的Python，R和Scala之外，现代数据科学团队还需要最新的开源工具和库来进行创新，并在首选IDE中进行协作。Cloudera机器学习使从业人员可以自由使用自己喜欢的工具，同时保持安全性，效率和可扩展性，而无需管理开销。

可对云大规模批处理计分

当在本地训练ML模型但推理数据存储在云中时，可以对驻留在云存储中的大量数据进行批评分。IT部门可以使用预先配置的资源利用防护栏来部署ML工作区，数据科学团队则使用自动缩放/挂起的TensorFlow/Spark作业快速处理数据，不会损失任何成本。

云中数据端到端的ML工作区

Cloudera Machine Learning使IT可以轻松地从本地到云复制受管业务数据，并为具有预先配置的资源消耗防护栏的团队部署新的ML工作区，提供对模型训练和部署所需的数据，工具和计算资源访问使用本地产生的数据。

端到端ML与云中生成的数据

Cloudera Machine Learning使IT人员可以使用预先配置的资源消耗防护栏为团队部署新的ML工作区，从而使用云中固有的数据提供对模型训练和部署所需的工具和计算资源的访问权限。

CML与CDS的对比

CML是Cloudera Machine Learning，CDSW是Cloudera Data Science Workbench。对于现有的Cloudera Data Science Workbench用户，本主题将有助于重点介绍Cloudera Data Science Workbench与它的原生云产品Cloudera Machine Learning之间的一些关键区别。

CML与CDSW有何关系？

CML利用云原生优势（如快速配置，弹性自动缩放，分布式依赖项隔离和分布式GPU培训）扩展了Cloudera Data Science Workbench（CDSW）的端到端工作流。它可以运行自己的本机分布式计算工作负载，而无需单独的CDH群集进行横向扩展计算。它旨在在现有Kubernetes环境中的CDP上运行，例如托管云Kubernetes服务（EKS，AKS，GKE）或Red Hat OpenShift，从而在提供多云可移植性的同时为某些客户降低了运营成本。

两种产品都可以帮助数据工程师和数据科学团队通过强大的安全性和治理来提高共享数据和计算的生产力,他们共享大量的代码。

CML与CDSW的区别

主要区别在于：

CDSW通过在网关节点上运行并将分布式计算工作负载推入群集来扩展现有的CDH群集。CDSW为其分布式计算（包括Apache Spark）需要并支持一个CDH集群。
相比之下，CML是自包含的，并且在Kubernetes上的容器中管理自己的分布式计算，本机运行的工作负载-包括但不限于Apache Spark。

	CDSW	CML
结构	CDSW需要CDH或HDP群集，并在群集上的一个或多个专用网关节点上运行。	CML是自包含的，不需要附加的CDH / HDP群集。
	1个主主机和多个工作主机的概念。	没有指定的主机和工作主机；所有节点都是短暂的。
安全性	通过CDH / HDP集群集成了Kerberos身份验证；通过LDAP / SAML进行外部身份验证。	通过Cloudera数据平台（CDP）使用FreeIPA进行集中身份管理。
应用存储	项目文件，内部postgresDB和Livelog都永久存储在Master主机上。	所有必需的持久性存储都在云托管的块存储，NFS和关系数据存储中。
计算	Python / R / Scala工作负载在集群的CDSW网关节点上执行。	Python / R / Scala工作负载在CDP /云提供商管理的K8s集群上运行。
	CDSW将分布式计算工作负载（例如YARN上的Spark）推送到CDH / HDP集群。	不支持Spark-on-YARN；改为使用Spark-on-K8s 。工作负载将在客户环境中配置的专用K8s集群上运行。
	没有自动缩放。	通过您的云服务提供商进行自动扩展。Kubernetes /节点级自动缩放将用于根据需求扩展/收缩集群大小。
打包	作为可下载的RPM和CSD提供。	作为CDP上的托管服务提供。
	Spark与CDH打包在一起。	K8s上的Spark与CML打包在一起，不依赖于外部集群。
资料存取	数据通常驻留在HDFS，Hive，HBase等中的附加CDH / HDP群集上。	数据可以驻留在对象存储（例如S3）上，也可以驻留在向CDP注册的任何现有工作负载群集上。