上次说到了Hadoop是目前最流行的大数据工具,其核心是HDFS来存储数据和MapReduce来处理数据,但它又不仅仅如此。后来,围绕着Hadoop相继出现了一系列的应用。比如存储结构化数据的HBase,用于和传统数据实现数据迁移的Spooq,SQL接口Hive,用于工作调度的Ozzie,以脚本取代代码完成MapReduce的Pig,机器学习工具集Mahout等等。羽翼渐丰的Hadoop已经一步步从“工具”发展成为“平台”和“生态系统”。可是,一条技术鸿沟却横在了众多企业面前。一方面,无论是金融还是电信,各个领域的大公司都有海量数据处理的需求。而另一方面,他们的IT部门大都不具备部署、维护大规模Hadoop集群,和开发Hadoop应用的能力。而他们以前倚重的IBM,Oracle也没有这样的能力。
正是看到了这一点,以Hadoop为核心的一些咨询公司相继成立。经过市场洗礼,目前呈现出Cloudera,Hortonworks和MapR三足鼎立之势。三家的产品我都使用过,以后两家为主。下面就分别谈谈各家的优势和劣势。
Cloudera成立于2008年,是三家中成立最早的,目前为止客户资源最多,技术储备时间最长,规模总量最大。背后有Intel做坚强后盾。其产品线以企业级的平台管理和监控著称,其Hadoop用户界面Hue也十分友好。当然,Cloudera的许可证价格不菲,都是按年按机器收钱,这一点和Oracle没什么区别,可能和CEO的Oracle前高管的背景有关。
Hortonworks成立比较晚,是从Yahoo中剥离出去的,也算是嫡系正统。和其他两家最大的不同是,Hortonworks坚持百分百开源的理念,完全只靠咨询服务赚钱。我是开源的拥护者,也十分看好它未来的发展。个人认为Hortonworks的拳头产品是Hadoop自动部署工具Ambrari和资源管理器YARN。其中YARN的意义甚至超过了Hadoop本身,这一点会在以后的文章中讨论。另外,Hortonworks在12月份刚刚IPO,希望充裕的资金有助于加速它对开源项目的贡献。
MapR和原生的Hadoop相距最远。它完全重写了文件系统和HBase实现,从而大幅提高了系统性能。它的读写性能都数倍于原生Hadoop。重新实现同时也简化了Hadoop的安全框架。但问题是和原生的HDFS和HBase不可能完全兼容,使得它在产品配套更新方面总是慢半拍。应用开发者也往往要付出额外的精力去考虑兼容Hadoop。当然,权衡投入产出比,这样的付出也许是值得的。最近MapR刚刚宣布其MapR Database可以免费使用,大概也是看到了自己的优秀产品在接受度上的尴尬。此外,MapR和Google走得很近,也等到了Google风投的资助,其产品通过脚本程序可以很方便地部署到Google计算引擎。很荣幸MapR接受了我对其脚本的小小补充。
大数据市场是一块大蛋糕,三家公司应该会愉快地玩耍一段时间(除非被其他巨头吃掉)。至于长远来看,谁会是最大赢家,以及Hadoop还能火多久,取决于市场,资金和技术等诸多因素的影响。技术层面来看,我们也许可以从近两年的发展略窥端倪,请看下篇“Hadoop之技术未来”。
请看下篇:Hadoop系列之三:技术未来
相关推荐
This book is written for anyone who needs to know how to analyze data using Hadoop. It is a good book for both Hadoop beginners and those in need of advancing their Hadoop skills. The author has ...
$ sudo chown -R hadoop:hadoop /opt/hadoop-0.2.203.0 ``` 这里`/opt/hadoop-0.2.203.0`是Hadoop的具体安装路径,应根据实际情况进行调整。 2. **重新启动Hadoop服务**:修改完所有权后,需要重新启动Hadoop...
王家林的“云计算分布式大数据Hadoop实战高手之路”系列教程,通过三个不同的学习阶段,帮助学习者从零基础开始,逐步成为Hadoop领域的高手。 首先,课程的初级阶段“从零开始”致力于让初学者无痛入门Hadoop。在这...
### Hadoop on Kubernetes:容器化的Hadoop方案及产品实践 #### 一、市场动态与容器化趋势 在当今快速发展的IT行业中,容器技术已经成为一种重要的趋势。随着容器化技术的不断成熟,越来越多的企业开始考虑将传统...
- **分布式存储**:HDFS是Hadoop的核心组成部分之一,它是一种分布式文件系统,能够将大规模数据集分布在多个廉价的商品服务器上存储。这种分布式的存储方式极大地提高了数据的处理速度。 - **容错性**:HDFS具有...
,Hadoop 技术已经在互联网领域得到了广泛的应用。互联网公司往往需要 存储海量的数据并对其进行处理,而这正是Hadoop 的强项。如Facebook 使用Hadoop 存储 内部的日志拷贝,以及数据挖掘和日志统计;Yahoo !利用...
Hadoop是大数据处理领域的一个核心框架,主要用于分布式存储和计算。这个文档集合应该是关于Hadoop开发者的下载资源,可能包含了源代码、开发工具和其他相关资料。由于没有具体的描述,我将根据一般Hadoop开发者的...
我的报错:Could not locate Hadoop executable: E:\big_data\hadoop-3.3.0\bin\winutils.ex hadoop的winutils.exe及hadoop.dll文件,可以用于hadoop3.3. 下载好直接将两个文件复制到我们hadoop的bin目录下就行了
当启动hadoop或者使用ssh时出现: 输入ifconfig指令发现:自己之前配置的ip:192.168.79.103地址已经发生了变化 怎么解决办法呢? 如下步骤: 重新修改静态ip 输入vi /etc/udev/rules.d/70-persistent-net.rules...
Hadoop分布式文件系统是Hadoop生态系统的核心组件之一,负责存储和管理大规模数据集。下面将对Hadoop分布式文件系统的架构和设计进行详细介绍。 一、前提和设计目标 Hadoop分布式文件系统的设计目标是满足大规模...
内容概要:windows环境下添加snappy源码,并对2.8.5的apache版本hadoop包进行编译,生成指定的hadoop.dll、snappy.dll文件,方便Windows环境下利用idea工具进行Hadoop、Spark的local模式下代码调试。 版本更新:...
资源名称:云计算Hadoop:快速部署Hadoop集群内容简介: 近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以...
在IT领域,Hadoop是一个广泛使用的开源框架,它由Apache基金会开发,用于处理和存储大量数据。这个框架的核心包括两个主要部分:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统,它...
在IT领域,Hadoop是一个广泛使用的开源框架,用于处理和存储大数据。本教程将深入探讨Hadoop的配置、安装及使用方法,旨在帮助初学者快速掌握这一强大的分布式系统基础架构。 1. **Hadoop概述**:Hadoop由Apache...
2. **Hadoop HDFS (Hadoop Distributed File System)**: HDFS是Hadoop的核心组件之一,提供了高容错性的分布式文件系统,能够处理PB级别的数据。源代码中包括了HDFS客户端、数据节点(DataNode)、名称节点(NameNode)...
赠送jar包:hadoop-auth-2.6.5.jar 赠送原API文档:hadoop-auth-2.6.5-javadoc.jar 赠送源代码:hadoop-auth-2.6.5-sources.jar 包含翻译后的API文档:hadoop-auth-2.6.5-javadoc-API文档-中文(简体)-英语-对照版...
这个版本是为Hadoop 2.8.0定制的,这意味着它与Hadoop 2.x系列的兼容性已经过验证,可以在该版本的Hadoop环境中稳定运行。 描述中提到的"Mac下编译的hadoop-lzo"意味着这个版本是在Mac操作系统上编译构建的,这确保...
hadoop学习时用到的 测试数据:手机上网日志
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理
Hadoop硬实战:Hadoop in Practice