第1章 源代码环境准备
1.1 Hadoop生态系统
(a). Hadoop Common: 为Hadoop的其它项目提供一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FieSystem等。
(b). Avro: 是一个数据序列化系统。可以将数据结构或者对象转换成便于存储和传输的格式。
(c). Zookeeper: 是一个分布式的服务框架。可用于处理分布式的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
(d). HDFS: Hadoop分布式文件系统(Hadoop Distributed File System),是Hadoop体系中数据存储管理的基础。
(e). MapReduce: 是一种计算模型,用于进行大数据量的计算。
(f). HBase: 是google的BigTable的开源实现,是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
(g). Hive: 是建立在Hadoop基础上的数据仓库架构。
(h). Pig: 是对大型数据集进行分析 和评估的平台,数据分析工具。
(i). Mahout: 在Hadoop基础上创建一些可扩展的机器学习领域经典算法的实现。
(j). X-RIME: 开源的社会网络分析工具。
(k). Crossbow: 利用Hadoop集群进行生物计算。
(l). Chukwa: 开源的数据收集系统。
(m). Flume: 日志收集系统。
(n). Sqoop: 是SQL-to-Hadoop的缩写,主要是在结构化数据存储与Hadoop之间进行数据交换。
(o). Oozie: 开源工作流引擎。
1.2 准备Hadoop环境
(a). JDK
可以不配置环境变量,但是有些第三方的程序会把自己的JDK路径加到PATH环境变量中,所有最好 还是手动配置JAVA_HOME、CLASSPATH和PATH等环境变量。
(b). Eclipse
(c). Ant
添加ANT_HOME环境变量,并在PATH中加入"%ANT_HOME%\bin"。
(d). Ivy
安装apache Ivy,用于管理项目的外部构建依赖项。
(e). 安装类Unix Shell环境 Cygwin
注意:Cygwin只针对widows操作系统,其它系统不用安装。
在安装程序的步骤4(Cygwin Setup-Select Package)中选择Unix的在线编辑器sed,可以利用Search输入框快速找到sed。
(f). 下载Hadoop
注意:hadoop-1.2.1.tar.gz 里面包含源码
hadoop-1.2.1-bin.tar.gz 里面没有源码
(g). 创建Eclipse项目:
(1) 解压下载的 hadoop-1.2.1.tar.gz 包,到目录E:\hadoop-1.2.1
(2) 启动Cygwin定位到“目录E:\hadoop-1.2.1”,执行“ant eclipse”
(3) 打开eclipse的File --- New --- Java Project,创建一个新的Java项目,选择项目的位置为“E:\hadoop-1.2.1”,就好。
备注:此篇为读书笔记,后面会持续更新,如有问题请留言。
相关推荐
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和MapReduce的架构设计与实现原理进行了极为详细的分析。《Hadoop技术...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和...
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是Hadoop技术领域的一本深入解析之作,它详尽地探讨了Hadoop的两大核心组件——HADOOP COMMON和HDFS(Hadoop Distributed File System)的...
Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书) 原版书籍,非扫描版,使用kindle可以打开,也可以转换为epub使用ibooks打开
Hadoop技术内幕-深入解析HADOOP COMMON和HDFS架构设计与实现原理
值得推荐,适合开发者学习使用。讲解Hadoop还不错,不过适合开发的看。
Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理(扫描版)
Hadoop技术内幕 深入解析Hadoop Common和HDFS架构设计与实现原理完整版电子书
Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理.z01 共三部分
Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理.z03 共三部分
Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理.z02 共三部分
Hadoop技术内幕深入解析YARN架构设计与实现原理