在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。
Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。
首先来看下Cloudera的技术框架:
主要有几大主要的组件:
1、Hbase:Hbase是一个分布式的,扩展性很强的存储,主要受G oogle的Bigtable的启发,可以参考前面写过《实时分析系统(HIVE/HBASE/IMPALA)浅析》。
2、Impala:Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。
3、Spark:spark是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以spark现在非常热门,包括腾讯,UC,淘宝都有团队在研究和应用。
相比Hortonworks,Cloudera包装的开源软件要显得少一些,可以参考前面的文章《hadoop发行商介绍:Hortonworks》,但是从目前业界的情况来看,cloudera坚持了自己的技术,普遍认为cloudera的发展潜力更大,包括最近intel放弃自己的发行版本,转而支持cloudera。
从Hortonworks和Cloudera两家都支持的力度来看,Spark是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。
除了Hortonworks和Cloudera两家主要的发型版提供商,Hadoop发型领域还有MapR,EMC等,各有特点。从大多数应用来说,选择 Cloudera和Hortonworks就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。
相关推荐
- **Cloudera Distribution Including Apache Hadoop (CDH)**:这是Cloudera提供的Hadoop发行版,包含了Hadoop核心组件以及一系列其他工具和服务。 - **Apache Hadoop**:这是最纯粹的形式,只包含Hadoop核心组件...
Cloudera是提供Hadoop商业发行版的一个主要供应商,其产品CDH(Cloudera's Distribution including Apache Hadoop)是业界广泛使用的企业级Hadoop解决方案。 在Cloudera提供的Hadoop开发员培训中,首先会对Hadoop的...
在Cloudera的官方介绍中,介绍了CDH(Cloudera's Distribution Including Apache Hadoop),它是Cloudera提供的一个企业级Hadoop发行版,包含了Apache Hadoop的核心组件,并加入了一些Cloudera自研的技术来增强系统...
1. Cloudera Hadoop简介:Cloudera是业界领先的大数据管理和分析服务提供商,其产品Cloudera Enterprise将Hadoop功能化,包含了集群管理、高可用性、安全、数据挖掘等多个组件,可用于实现数据仓库的替代品。...
Cloudera是全球领先的Hadoop发行版提供商和相关服务的供应商,致力于推动Apache Hadoop技术的应用和发展。在这门培训课程中,参与者将学习到Hadoop的基础概念、编程模型、数据分析、系统集成以及最佳实践等内容。 ...
最后,文档中提及的Cloudera主要发行商包括MapR、Hortonworks和Cloudera等。Cloudera是最早将Hadoop商用的公司,提供全面的Hadoop商用解决方案,包括Cloudera Manager的自动集群管理功能,并且拥有强大的合作伙伴...
此外,市场上还有几家知名的Hadoop发行商,如Cloudera Manager、HortonWorks和MapR,它们分别提供了各自特色的产品和服务。 - **Cloudera Manager**:提供了一个统一的管理界面,简化了Hadoop集群的部署和管理过程...
Cloudera是一家知名的Hadoop发行版提供商,其CDH(Cloudera Distribution Including Apache Hadoop)集成了许多经过优化的Hadoop组件。例如,CDH5.X版本在性能和安全性方面进行了显著提升,并且与英特尔合作,优化了...
- **Cloudera Distribution for Hadoop (CDH)**:由Cloudera公司开发,是市场上最受欢迎的Hadoop发行版之一。它包含了多个开源项目,如HBase、Impala等,能够支持多种数据分析场景。 - **IBM InfoSphere Big ...
- **版本发行商**:如Apache Hadoop、Cloudera、Hortonworks等,它们提供Hadoop的稳定版本和支持服务。 - **第三方管理软件提供商**:这类公司提供用于管理Hadoop集群的工具,帮助提高效率和简化操作。 - **Hadoop...
Cloudera和Hortonworks是两个重要的Hadoop发行版本提供商,它们在Hadoop的基础上提供了更多的企业级功能和服务。 【Hadoop发行版本】 1. **Apache Hadoop**:这是最原始的基础版本,适合初学者学习。它提供了核心...
Cloudera是著名的开源大数据管理平台提供商,其产品包括Hadoop发行版CDH(Cloudera Distribution Including Apache Hadoop),其中包含了Hive和Impala这两个关键组件。 Hive是基于Hadoop的数据仓库工具,它允许用户...
**2.3 Hadoop三大发行版本** - **Apache Hadoop**: 最原始的版本,适合入门学习。 - **Cloudera Hadoop**: 在大型互联网企业中应用较为广泛,提供了更多的功能和服务。 - **Hortonworks Hadoop**: 专注于提供开源...
### Hadoop介绍与核心组件详解 #### Hadoop概述 Hadoop是一种开源软件框架,主要用于分布式存储和处理大规模数据集。其设计目标是为了处理PB级别的数据,并且能够在数千台商用服务器组成的集群上运行。Hadoop的...
Cloudera是Hadoop生态系统中的重要参与者,提供了企业级的Hadoop发行版Cloudera Enterprise。它包含了对整个Hadoop生态系统的广泛支持,包括但不限于MapReduce、Hive、Pig、Spark等工具,并且由Cloudera员工创建了...
Hadoop的三个主要发行版本包括Apache、Cloudera、Hortonworks。Apache版本是最初的开源版本,适用于学习。Cloudera成立于2008年,是最早将Hadoop商用化的公司之一,提供了CDH、Cloudera Manager和Cloudera Support等...
Cloudera是一家提供企业级大数据管理平台解决方案的领先供应商,尤其以其支持Apache Hadoop的发行版Cloudera Distribution Hadoop (CDH)闻名。文档的描述强调了该文档附带书签功能,便于读者快速找到感兴趣的部分。 ...
Hadoop商业发行版也相继推出,如Cloudera、Hortonworks等,它们为Hadoop提供附加产品及技术支持。Cloudera是最早提供Hadoop商业解决方案的公司之一,其产品线涵盖CDH、Cloudera Manager和Cloudera Support等。CDH是...
Cloudera公司是业界领先的Hadoop发行版提供商,它通过将Hadoop和相关大数据技术集成在一起,构建了一个稳定、安全的平台。Cloudera为用户提供了一个集成的平台,将数据仓库、机器学习、数据挖掘和数据流处理等技术与...
Hadoop有三个主要的发行版本:Apache、Cloudera和Hortonworks。Apache版本是最原始的基础版本,适合初学者学习。Cloudera在大型互联网企业中应用广泛,提供了包括支持、咨询、培训在内的Hadoop商用解决方案,其产品...