大数据技术和私有云环境都很有用;不过,如果将两者结合在一起,企业会获得巨大的利润。尽管结合两者会让环境变得更复杂,企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。如何来做会更好?
方案1. Swift+Apache Hadoop MapReduce
在私有云环境中,常见的大数据部署模型之一是:将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群,从而实现处理功能。使用这种架构的优势是,企业将获得一个可扩展的存储节点,可以用该节点来处理其不断累积的数据。根据 IDC 的调查,数据年增长率已经达到 60%,该解决方案将满足不断增长的数据需求,同时允许组织同时启动一个试点项目来部署私有云。
该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术,同时在内部使用大数据技术。最佳实践表明企业应当先将大数据技术部署到您的 生产数据仓库环境中,然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中,并且已经正确构建并运行您的私有云存储池,那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。
方案2. Swift + Cloudera Apache Hadoop 发行版
对于那些不愿意从头开始使用大数据的企业,可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案,它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工,因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集,希望以缓慢、渐进的方式将该技术集成到其产品组合的企业,这一点尤其吸引人。
大数据和云计算属于相对较新的技术,许多企业希望通过它们实现成本节省;不过,许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持 的大数据软件版本,企业在这方面将会更加从容,同时还可以了解如何使用这些技术来发挥自身的优势。此外,如果使用大数据软件分析大型数据集,而且可以通过 私有云存储节点来管理这些数据集,那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中,首先需要安装、配置和管理 CDH,以便分析企业的数据仓库环境,然后将 Swift 中存储的数据添加到需要的地方。
方案3. Swift、Nova + Apache Hadoop MapReduce
对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业,可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此,企业需要最大限度地利用这两种技术栈,这就要求采用与前面所述的解决方案不同的思维方式来设计环境。
要获得完全可伸缩的、灵活的大数据环境,必须在一个同时提供存储和计算节点的私有云环境中运行它。为此,企业必须先构建私有云,然后添加大数 据。因此,在这种情况下,必然会用到 Swift、Nova 和 RabbitMQ,并控制器节点来管理和维护环境。但是,问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分(例如,非大数据虚拟机或客 户机实例)。如果企业准备完全使用私有云,那么应当添加 Quantum,从网络的角度对不同的环境进行划分(参见图 5)。
▲图 5. OpenStack 架构
在设置并测试了私有云环境后,可以将 Apache Hadoop 组件合并到其中。此时,Nova 实例可用于存放 NoSQL 或 SQL 数据存储(没错,它们可以共存)以及 Pig 和 MapReduce 实例;Hadoop 可以位于一个独立的非 Nova 机器上,以便提供处理功能。在不久的将来,Hadoop 有望在 Nova 实例上运行,使私有云自包含到所有 Nova 实例中。
方案4. GFS、Nova、Pig 和 MapReduce
从架构的角度看,除了使用 OpenStack 的 Swift 实现可扩展存储外,可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件,具体来讲,使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点,同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云,企业可以专注于计算处理功能的核心能力,由第三方负责实现存储。该模型可以利用其他供应商的存储解决方 案,如 Amazon Simple Storage Service;但是,在使用任何外部存储之前,企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案,并进行相应的测试,然后再将其扩展到公共云中。此外,根据数据的敏感性,企业可能需要使用数据保护机制,比如模糊处理 (obfuscation)、解除匿名化、加密或散列。
技巧和提示
在将云计算和大数据技术并入企业环境时,一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后,就可以组建一个实验室来测试这两 个平台合并后的效果。由于包含许多不同的组件,因此在实现过程中,请务必遵循前面提到的经过验证的路径。此外,企业在尝试合并这两种模式时可能会遇到一些 挫折,应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。
障碍和陷阱
由于这些都是比较新的技术,所以大多数企业需要利用现有资源进行测试,之后再进行大量的资本支出 (CapEx)。然而,如果没有对这些技术在企业中的应用进行合理的预算和人员培训,那么试点和测试工作将会以失败告终。同样,如果缺少完整的私有云部 署,企业应当首先在其中实现大数据技术,然后再实现私有云。
最后,企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署,则需要进行更多的分析 “工作”,这有可能会拖延处理过程。为了消除这种风险,应当采用一种迭代式的项目管理方法,以分阶段的方式部署到业务部门中,通过这种方法将这些技术部署 到企业中。企业需要确认如何通过应用这些新技术使公司受益,如成本节省或加强处理功能等。
相关推荐
将OpenStack私有云部署到HadoopMapReduce环境中四种方案
业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部署到Hadoop上。SteveMarkey教授重点介绍了后者。这两种答案都有企业在实践。“Hadoop跑在OpenStack上”可以参考《ProjectSavanna:让Hadoop运行在OpenStack之...
### 部署OpenStack私有云到Hadoop MapReduce环境 随着云计算和大数据技术的发展,企业正在经历深刻的变革。为了最大化投资回报并提升数据分析平台的功能性与效率,将这些新兴技术融合到现有的IT架构中变得越来越...
通过在云端部署Hadoop,可以迅速完成从部署到使用的整个过程,并且得到专家优化的系统,无需过多考虑机器性能和采购问题,也使得中小型企业能够快速进入大数据计算领域。 在OpenStack中部署Hadoop时,有几个关键...
本文将详细解析如何在Mirantis OpenStack私有云环境中部署Hadoop,帮助你理解这一过程中的关键知识点和技术要点。 首先,我们要了解OpenStack。OpenStack是一个开源的云计算平台,用于构建、管理和运行各种类型的...
通过分析各种Hadoop项目案例和商业案例,可以学习到如何在现实场景中部署Hadoop系统、实施数据处理流程,以及如何解决实际应用中遇到的问题。 ### OpenStack知识汇总 #### 1. OpenStack技术架构 OpenStack是一套...
【部署实施】在OpenStack平台上部署Hadoop,首先需要通过OpenStack Dashboard创建虚拟机实例,分配足够的资源如内存和磁盘空间。然后在每个虚拟机上安装所需的软件,包括操作系统、Hadoop、JDK等,最后进行Hadoop...
OpenStack是一种开源的云计算平台,它由多个组件共同构成,通过这些组件能够实现IaaS(基础设施即服务)的解决方案。在OpenStack的部署过程中,需要配置和管理计算、网络、存储等多个服务。部署OpenStack通常涉及多个...
总体来说,Savanna项目通过提供一种在OpenStack上快速部署Hadoop集群的方法,解决了用户在搭建和管理大数据处理环境时可能遇到的许多挑战。该项目的出现和不断完善,将有利于推动Hadoop技术在云环境下的普及和应用。
这个平台由两台服务器构成,一台作为控制节点(controller),另一台作为计算节点(compute),这符合典型的OpenStack部署模型,其中控制器节点负责网络、身份服务和计量等功能,计算节点则主要处理虚拟机实例。...
本文详细阐述了基于OpenStack云计算平台的整体搭建步骤,包括控制节点与计算节点的基础环境准备、关键组件和服务(如Nova、Neutron、Cinder等)的配置方法,直至最终实现OpenStack与Hadoop伪分布式集群的整合部署。...
* 介绍如何使用 Sahara 部署和配置 Hadoop 集群 4. OpenStack 网络管理 * 介绍如何配置 Neutron 网络 * 介绍如何使用 ML2 驱动配置多个网络 * 介绍如何使用 YAML 配置文件自定义网络配置 5. OpenStack 安全管理 ...
以上内容中涉及到了OpenStack的几个关键概念和操作,包括使用Puppet进行自动化安装的方法,如何利用Web UI和REST APIs来管理安装过程,以及如何处理OpenStack中的常见故障。对于希望深入理解和掌握OpenStack的读者来...
在大数据和云计算领域,OpenStack为Hadoop、MapReduce等分布式处理框架提供了基础设施支持,通过OpenStack的计算服务,可以轻松地在大规模集群上部署和管理这些大数据处理工具,实现高效的数据处理和分析。...
总体来说,这份OpenStack部署手册详细地介绍了OpenStack各个组件的基本使用和高级配置,包括节点管理、存储优化、网络服务配置、附加组件部署以及监控与维护等内容,旨在帮助新用户快速上手并实现OpenStack云平台的...
在OpenStack平台上自动化部署Ambari HDP Hadoop集群是一项复杂而重要的任务,涉及到多个关键技术领域。本项目的核心是利用Python脚本来实现这一自动化过程,从而简化云计算环境中的大数据基础设施搭建。 首先,...
Red Hat OpenStack云平台是一款流行的开源云计算解决方案,它具备许多强大的功能和使用场景。本文将对其中的核心功能和特性进行介绍,同时解释它们的工作原理、应用原因以及如何应用到实际的云计算环境中。 首先,...