大数据管理新常态：让Hadoop轻松跑云端-存储专区

大数据管理新常态：让Hadoop轻松跑云端

作者：蔡思萌编辑：蔡思萌 2016-01-28 16:01 IT168网站原创

　　【IT168 资讯】现在的企业级IT硬件已经变得越来越廉价，一台非品牌服务器，2颗24核CPU，配48G内存，2T的硬盘，不到2万块人民币就能搞定。这种配置如果简单地放几个web应用，显然是奢侈的浪费。就算是用来实现单节点的hadoop，对计算资源浪费也是非常高的。对于这么高性能的计算机，如何有效利用计算资源，就成为成本控制的一项重要议题了。

　　通过虚拟化技术，我们可以将一台服务器，拆分成12台VPS，每台2核CPU，4G内存，40G硬盘，并且支持资源重新分配。那如果我们拥有12个节点的Hadoop集群，如何能够让它更好地跑在云端呢?

　　作为Apache Hadoop的最快速、最便捷、最安全的数据管理和分析平台，以及最新开源技术的提供者，Cloudera于一个月前宣布增加了对Spark SQL和MLiB与Cloudera Enterprise 5.5 和 CDH 5.5集成的支持。在过去的一年中，两者已经在可用性和交互操作性上取得重大成绩。

　　近日，Cloudera又发布了大数据部署和管理工具Cloudera Director 2.0。Cloudera方面表示，新版Cloudera Director简化了在云端执行Hadoop的工作，例如ETL(Extract、Transform、Load)、建立数据流模型(Modeling)、商业智能(Business Intelligence，BI)和分析，以及应用程序递送等。目前Cloudera Director 2.0已开放免费下载。

　　据悉，Cloudera Director 2.0能够提供自动工作提交功能，加速特定查询的硬件资源请求和释放基础设施的资源分配，且不需手动管理丛及生命周期。此外，也提供客制化模板和设定，让使用者便于管理且可以重复部署。

　　另外，Cloudera也与Amazon AWS服务、Google云端平台(Google Cloud Platform，GCP)和微软Aazure合作，提供Cloudera Director支持混合的作业环境，以及Cloudera Director也支持开放云端连接器(Open Cloud Connector)，可以和私有云整合。

　　具体到合作方面，新版Cloudera Director可支持AWS Spot Instance、Google虚拟机云端服务Preemptible VM、在Amazon S3上的Apache Hive和Apache Spark等，以降低基础设施的作业成本，来提升如ETL的工作量。另外，使用者可以透过Azure市集在Azure上部署Cloudera企业版。

　　此外，Cloudera Director 2.0新增集群复制(Clone)和集群修复功能，在不影响用户日常作业的情况下，来增加使用者数量和修复集群。而在应用程序递送工作方面，Cloudera Director在引导工作流程中整合高可用性和Kerberos验证设定，来简化应用程序递送的工作。

关注我们