`
cumtheima
  • 浏览: 255957 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Hadoop技术内幕_深入解析Hadoop Common和HDFS架构设计与实现原理——读书笔记(1)

阅读更多

第1章 源代码环境准备

    

    1.1 Hadoop生态系统

        (a). Hadoop Common: 为Hadoop的其它项目提供一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FieSystem等。

        (b). Avro: 是一个数据序列化系统。可以将数据结构或者对象转换成便于存储和传输的格式。

        (c). Zookeeper: 是一个分布式的服务框架。可用于处理分布式的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

        (d). HDFS: Hadoop分布式文件系统(Hadoop Distributed File System),是Hadoop体系中数据存储管理的基础。

        (e). MapReduce: 是一种计算模型,用于进行大数据量的计算。

        (f). HBase: 是google的BigTable的开源实现,是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

        (g). Hive: 是建立在Hadoop基础上的数据仓库架构。

        (h). Pig: 是对大型数据集进行分析 和评估的平台,数据分析工具。

        (i). Mahout: 在Hadoop基础上创建一些可扩展的机器学习领域经典算法的实现。

        (j). X-RIME: 开源的社会网络分析工具。

        (k). Crossbow: 利用Hadoop集群进行生物计算。

        (l). Chukwa: 开源的数据收集系统。

        (m). Flume: 日志收集系统。

        (n). Sqoop: 是SQL-to-Hadoop的缩写,主要是在结构化数据存储与Hadoop之间进行数据交换。

        (o). Oozie: 开源工作流引擎。

    1.2 准备Hadoop环境

      (a). JDK

             可以不配置环境变量,但是有些第三方的程序会把自己的JDK路径加到PATH环境变量中,所有最好 还是手动配置JAVA_HOME、CLASSPATH和PATH等环境变量。

      (b). Eclipse

      (c). Ant

            添加ANT_HOME环境变量,并在PATH中加入"%ANT_HOME%\bin"。

      (d). Ivy

             安装apache Ivy,用于管理项目的外部构建依赖项。

      (e). 安装类Unix Shell环境 Cygwin

            注意:Cygwin只针对widows操作系统,其它系统不用安装。

                       在安装程序的步骤4(Cygwin Setup-Select Package)中选择Unix的在线编辑器sed,可以利用Search输入框快速找到sed。

      (f). 下载Hadoop

            注意:hadoop-1.2.1.tar.gz                 里面包含源码

                      hadoop-1.2.1-bin.tar.gz           里面没有源码

      (g). 创建Eclipse项目:

             (1)  解压下载的 hadoop-1.2.1.tar.gz 包,到目录E:\hadoop-1.2.1

             (2)  启动Cygwin定位到“目录E:\hadoop-1.2.1”,执行“ant eclipse”

             (3)  打开eclipse的File --- New --- Java Project,创建一个新的Java项目,选择项目的位置为“E:\hadoop-1.2.1”,就好。

 

备注:此篇为读书笔记,后面会持续更新,如有问题请留言。

分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

Global site tag (gtag.js) - Google Analytics