这几天接触了 OpenStack和Docker - 一个是比较成熟的云平台,另外是一个发展中的,增长很迅速的新云平台,其中的一个问题又引发我的深思。
问题: 云平台与大数据平台Hadoop怎么进行融合?
先说一下云平台的几个概念:计算(Compute),存储(Storage),网络(Network).
关于存储,在云上的管理一大部分是共享存储,如磁盘阵列什么的。当然也可以是由很多台机器的在线磁盘组成,不过那样的话,管理及性能都会是一个很大的问题。
与云平台最相关的是大数据的应用。我们知道光有云平台,没有应用,也不可能有存在的价值。而大数据的应用,也在很大程度上促进了云的发展。而谈到大数据,那一定会谈到Hadoop这个处理大数据的平台。
Hadoop集群来讲,设计的初衷之一是以水平扩展能力的提高来取作垂直扩展能力的提高。因为重直扩展是昂贵的,有限的(比如一台PC机,现在替换成一台服务器,再逐渐被替换为小型机),而水平扩展(如一台PC机,水平扩展成2台PC,n台PC). 水平扩展的成本更低,扩展更平滑。
这样看起来,对于云平台与大数据,他们走的是不一样的道路。
下面是一般的
云平台:
一系列低中高性能服务器 + 中高性能共享存储 + 高速网络
大数据:
一系列低中性能服务器 + 机器自身存储 + (中低性能共享存储) +中低速网络
相信国内的大部分公司的IT设施相对来说还是比较简单,便宜,这是因为成本的考虑。同时,这些公司也有非常强烈的大数据的使用需求(这是一个与大公司进行平等竞争的有力武器). 那怎么样服务这些公司,叫他们又能使用大数据,同时使用维护成本能够保持在较低水平呢?
这也是很多公司正在做的。
而对于云公司来说,在云上运行大数据的效率并不是很理想,这在很大程度上影响了使用云平台大公司的ROI, 这其实主要是云公司需要解决的一个很重要的问题。
分享到:
相关推荐
Spark是Apache软件基金会下的一个大数据处理框架,以其高效、易用和可扩展性著称。在本安装包“spark-3.2.4-bin-hadoop3.2-scala2.13”中,包含了用于运行Spark的核心组件以及依赖的Hadoop版本和Scala编程语言支持。...
总之,Apache Spark 3.1.3 是一个强大且功能丰富的大数据处理工具,尤其适用于需要高性能、实时处理和机器学习的场景。结合Hadoop 3.2,它提供了一个高效且兼容的解决方案,适用于各种大数据项目。
Spark 2.4.0是Apache Spark的一个重要版本,它是一个快速、通用且可扩展的大数据处理框架。这个版本在2.3的基础上进行了多方面的优化和功能增强,旨在提高数据处理效率,支持更多数据源,并提供了更丰富的数据分析...
4. 容器化部署:Spark 3.0.0支持Kubernetes作为其原生的容器编排平台,为云环境下的部署提供了更多可能性。 三、Spark与Hadoop 3.2的协同工作 Spark 3.0.0与Hadoop 3.2的集成,使得Spark可以利用Hadoop的最新特性...
总的来说,Spark 2.0.0是一个全面升级的版本,不仅强化了核心功能,还扩展了其在数据处理、机器学习、实时流处理等领域的应用,为大数据开发者提供了更强大、更易用的平台。如果你在官方下载渠道遇到问题,可以尝试...
在当今数字化时代,电力系统正在逐步向智能化转型,基于云平台的智能电参数采集与控制系统成为这一转型的重要组成部分。本设计装置旨在实现对电力系统的实时监控、数据采集和智能分析,以提高电力系统的运行效率和...
标题“行业分类-设备装置-一种云平台数据处理方法”以及描述“行业分类-设备装置-一种云平台数据处理方法.zip”均指向了一个专注于云环境中的数据管理技术的主题。标签“行业分类-设备装置-一种云平台数”进一步强调...
2. **统一的数据处理框架**:Spark支持多种类型的数据处理,包括批处理、流处理、机器学习、图形处理等,这使得开发者能够在一个统一的平台上完成复杂的数据处理任务。 3. **弹性分布式数据集(RDD)**:RDD是Spark...
标题中的“行业分类-设备装置-一种云平台数据获取方法”揭示了这个压缩包内容的主要方向,即关于设备装置在云平台数据获取方面的技术。这种技术通常涉及到物联网(IoT)、大数据、云计算等多个IT领域的交叉应用。...
这个压缩包包含了关于Hadoop云平台的系统架构、搭建过程及理论的详细资料,让我们一起来深入探讨这些知识点。 首先,Hadoop是Apache基金会开发的一个开源框架,主要用于处理和存储大规模数据集。它的主要组件包括...
基于Spark的面向十亿级别特征的大规模机器学习,作为阿里云的重要组件,旨在解决大规模机器学习问题。该解决方案的核心是基于Spark的 Vector-free L-BFGS 算法,用于处理大规模机器学习中的优化问题。 背景 大...
Apache Spark 是一个强大的分布式计算框架,专为大数据处理设计,具备四大核心特性:Speed(快速性)、Ease of Use(易用性)、Generality(通用性)和Runs Everywhere(跨平台性)。Spark 的设计理念旨在提高数据...
标题中的“行业分类-设备装置-一种云平台数据查询方法”揭示了这个压缩包内容的主要方向,它涉及的是IT行业中与设备装置相关的云平台数据查询技术。这种技术是现代物联网(IoT)和云计算领域的重要组成部分,对于实现...
一个里程碑式的课程准备了五年时间,意味着这是一个系统而深入的学习项目,涉及内容十分丰富。 从课程内容的描述来看,该课程不仅提供理论知识,还强调实战经验的重要性。通过直接引用BAT(百度、阿里巴巴、腾讯)...
Spark是Apache软件基金会下的一个开源大数据处理框架,其1.3.0版本是该系统的一个重要里程碑。这个版本带来了许多增强的功能和优化,使得Spark在处理大规模数据时的效率、稳定性和可扩展性都有所提升。 一、核心...
《基于云平台的非侵入式负荷监测系统及识别方法》是针对现代电力系统中设备装置监控的一项先进技术。非侵入式负荷监测(NILM,Non-Intrusive Load Monitoring)是一种通过分析整体电力消耗来识别单个设备负荷的技术...
在IT行业中,云平台日志管理是至关重要的一个环节,尤其对于设备装置的监控和维护而言。云平台日志管理方法及系统的核心目标是确保高效、安全地收集、存储、分析和利用大量的日志数据,以提升服务质量和运营效率。...
云平台安全是云平台及大数据建设思路的重要组件之一。云平台安全可以使用身份验证、访问控制和加密等技术实现。云平台安全可以帮助企业保护云平台和数据。 12. 大数据安全: 大数据安全是云平台及大数据建设思路的...
Python库dagster_spark是大数据处理领域的一个重要工具,它将Dagster的流程定义能力与Apache Spark的强大计算引擎相结合,为数据工程师提供了一个高效、可扩展的平台来构建和执行复杂的ETL(提取、转换、加载)任务...
标题中的“行业文档-设计装置-一种基于云平台的大数据分析方法”揭示了本文档的核心内容,即探讨在云平台上实施大数据分析的一种特定方法。描述与标题一致,进一步强调了文档的主题,即关于大数据分析的实践方案,...