公司有可能要用hadoop了,我极其兴奋,开始自己先研究了
以下内容均是来自互联网和自己的实践。
主要是记录自己的学习过程。
首先是要知道什么是hadoop,这个东西有什么用。
hadoop 是 Doug cutting 创建的 ,起源于 Apache Nutch,(一个网络搜索引擎),它是lucene(文本搜索系统库)的一部分。
2003年google 发布了一遍论文:google分布式文件系统。GFS,这个可以解决在网页爬起和索引过程中的超大文件的存储需求。
2004年开始实现一个开源的实现,Nutch的分布式文件系统NDFS。
2004年google 发布了论文介绍他们的MapReduce系统
2005年Nutch实现了一个MapReduce,并且将主要的算法移植,用MapReduce+NDFS来运行。
2006年MapReduce+NDFS 被Nutch开发人员移出成为一个Lucene的子项目称为hadoop.
2008年hadoop成为了apache的顶级项目
2008年hadoop 在62秒内完成了1TB的数据的排列.
首先是要安装hadoop,我直接下的最新版本,hadoop2.0.3
系统用的是centOS6.3 64
安装hadoop 的时候碰到了以下问题,
虽然centOS 是可以选择自带jdk,但是是openJDK,前辈有经验说,有用别的jdk出很多问题的,所以推荐用sun的
yum -y remove java java..... 卸载java openjdk
安装jdk,上传jdk,二种方式,第一种ftp,第二种安装lrzsz: yum -y install lrzsz 用secureCRT 。第二种适合个人。
安装hadoop ,一种直接wget 下载,一种上传。我选的是第一种。
相关推荐
《Hadoop的前世今生》是一份深入探讨Hadoop发展历程的英文文档,旨在揭示这款开源大数据处理框架的起源、发展及现状。...通过学习Hadoop的历史,我们可以更好地理解当前大数据技术的格局,并预见未来可能的趋势。
《Hadoop技术全套图书》是全面了解和深入学习Hadoop技术的重要资料集合,涵盖了Hadoop在实际应用中的各个层面,包括其发展历程、核心组件、分布式系统原理以及在不同环境下的安装与配置。以下是对这些书籍和教程的...
《Hadoop在eBay中的使用历程》是一篇深入探讨大数据处理技术如何在电子商务巨头eBay中发挥关键作用的文章。...对于关注大数据处理和应用的读者来说,这是一份宝贵的学习资料,有助于理解Hadoop的实际应用价值。
在这一课中,我们将了解Hadoop的起源、发展历程以及它在大数据处理中的重要地位。Hadoop是一个开源框架,由Apache软件基金会维护,主要用于存储和处理大规模数据集。它的核心组件包括HDFS(Hadoop分布式文件系统)和...
本文将深入探讨Hadoop在雅虎的应用历程、关键技术点以及具体的业务场景。 #### 二、Hadoop发展历程及生态系统 **1. 发展历程** - **2004-2005年:**Hadoop最初作为Apache Lucene项目的一部分进行原型开发。 - **...
通过学习“Hadoop的起源”,我们可以更好地理解大数据处理的历史脉络,掌握Hadoop的核心原理,从而在数据分析和挖掘领域发挥出更大的价值。课程大纲中的详细内容将涵盖Hadoop的诞生背景、关键组件的工作原理、生态...
同时,通过对比不同版本的源码,可以洞察Hadoop的发展历程和改进之处。 总之,董西成书籍配套的hadoop-1.0.1源码对于想要深入了解Hadoop工作原理的学习者来说是一份宝贵的资源。它不仅提供了理论知识的补充,更提供...
总的来说,《Hadoop权威指南》第二版和第四版都是学习Hadoop及其生态系统的重要参考资料。第二版适合初学者入门,了解Hadoop的基础概念和基本操作;而第四版则更深入地探讨了Hadoop的演进和新的技术趋势,对有经验的...
总的来说,通过`hadoop-1.2.1.tar.gz`文件,我们可以学习Hadoop的基础知识,包括MapReduce编程模型、HDFS的架构以及YARN的资源调度。虽然Hadoop已经发展到更高的版本,但理解早期版本对于理解其演进历程和当前版本的...
总结来说,Apache Hadoop 3.0.0版本是Hadoop发展历程中的一个重要里程碑,它的多项改进和新特性显著提升了大数据处理的效率、稳定性和安全性,为企业和开发者提供了更为强大的大数据处理平台。对于想要下载和学习...
首先,阿里云Hadoop发展历程对于理解当前架构和优势至关重要。从2009年阿里开始研究Hadoop,到后续几年的发展,比如2013年双机房国内最大Hadoop集群之一的构建,再到现在提供云服务的能力,都是阿里云Hadoop发展的...
Hadoop-2.2.0是这个项目的一个重要版本,它在Hadoop的发展历程中扮演着关键的角色。此版本为64位版本,意味着它可以充分利用64位操作系统的内存资源,处理大数据集的能力更加强大。 在Hadoop-2.2.0中,主要包含了...
1. **Hadoop简介**:Hadoop的起源、发展历程以及其在大数据处理中的重要地位。Hadoop的核心设计理念是分布式存储和分布式计算,通过MapReduce和HDFS(Hadoop分布式文件系统)实现对大规模数据集的处理。 2. **...
这个版本在Hadoop的发展历程中是一个重要的里程碑,因为它引入了许多改进和新特性,旨在提升性能、稳定性和易用性。 1. **Hadoop架构**:Hadoop由两个主要组件构成——Hadoop Distributed File System (HDFS) 和 ...
Hadoop是大数据技术的核心组成部分,它是一个由Apache基金会开发的...通过理解Hadoop的基本概念、发展历程以及不同发行版的特点,可以更好地掌握大数据处理的核心技术,为后续深入学习和应用Hadoop打下坚实的基础。
- **发展历程**: - **2004年**:Cutting和Cafarella开始开发Nutch项目,这是一个开源搜索引擎项目。 - **2006年**:在Google发布的关于GFS和MapReduce的研究报告启发下,他们开始着手创建Hadoop项目,目的是为了...
《Hadoop 0.20.1 配置手册》是一本针对Hadoop早期版本0.20.1的详细配置指南,对于理解和操作Hadoop集群具有重要...同时,理解早期版本的Hadoop也有助于对比分析Hadoop的演进历程,进一步理解当前版本的Hadoop生态系统。