`
中国爪哇程序员
  • 浏览: 167285 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hadoop

    博客分类:
  • java
 
阅读更多
hadoop官方网站:
http://hadoop.apache.org/

中文介绍参考网站:
http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

hadoop下载:
这里提供两种方式:
1. 编译好的文件:
http://hadoop.apache.org/releases.html#Download
http://apache.fayea.com/apache-mirror/hadoop/common/

笔者当时采用这种方式。需要注意的,该文件是用32位操作系统编译的,如果用这个文件部署到64位操作系统会有warn提示信息。但不影响hadoop的运行。
如果不想启动出现warn日志提示,可下载源代码,自行在64位操作系统下进行编译。
通过下面使命可查看到这种方式是32位系统下编译的。



2.下载源代码
通过svn 下载源码:http://svn.apache.org/repos/asf/hadoop/common/branches/
具体编译方式,可上网查资料。有很详细的说明。
编译示例:http://blog.csdn.net/wind520/article/details/38331167
编译时需要安装protobuf.
由于网络原因,wget https://protobuf.googlecode.com/files/protobuf-2.5.0.tar.gz下载不了,可从本文附件中下载。
maven hadoop 依赖:http://mvnrepository.com/tags/hadoop
按照指示,在打包的时候出现一个错误。
最终还是报了一个错:

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.6:run (make) on project hadoop-common: An Ant BuildException has occured: Execute failed: java.io.IOException: Cannot run program "cmake" (in directory "/root/hadoop-2.2.0-src/hadoop-common-project/hadoop-common/target/native"): error=2, No such file or directory -> [Help 1]


是没有安装cmake
[root@hadoop1 ~]# cd
[root@hadoop1 ~]# wget http://www.cmake.org/files/v2.8/cmake-2.8.12.2.tar.gz
[root@hadoop1 ~]# tar zxvf cmake-2.8.12.2.tar.gz
[root@hadoop1 ~]# cd cmake-2.8.12.2
[root@hadoop1 ~]# ./configure
[root@hadoop1 ~]# gmake
[root@hadoop1 ~]# gmake install

执行mvn 打包命令。最后成功:


然后file下hadoop/lib/native。如图:发现已经是64位的。



整打包比较耗时,我把打好的包上传到百度云。下面是下载的链接:
http://pan.baidu.com/s/1c0b9pAS

payattentin :
在$HADOOP_HOME/etc/hadoop/hadoop-env.sh中加入:
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_HOME/lib/native"


hadoop安装
安装我分了三个步骤:
1.环境准备:
linux操作系统,JDK
此处省去1W字。

2.ssh 环境创建
关于SSH环境创建,请参考: http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html
这篇文件介绍的很详细。而且是通篇介绍了hadoop的安装过程。感谢文章作者,让许多刚入手搭建hadoop的开发者少走了些弯路。

这里补充说明的SSH配置结束后,请用SSH IP 的方式来验证master和slaves之间SSH通信。


3.hadoop配置

Hadoop三种安装模式:单机模式,伪分布式,真正分布式
建议用第三种方式,构建一般产品环境真正的分布式模式。
这里需要说明的:网上很多例子讲述的都是比较老的版本的配置。笔者采用的hadoop2.4.1
这个版本是第二新的。不同版本之间配置项的参数和文件都不相同。
我是参考
http://blog.itpub.net/26613085/viewspace-1219710/
这里做了调整,在其阐述的配置中,并没有用hostname,而一律用的是IP.
修改了如下配置:
hadoop-env.sh,yarn-env.sh 配置JAVA_HOME等环境变量
core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml
建议:先统一处理master上配置。做好后再scp到slaves结点服务器上。

最后启动没用问题。
如图所示:


标红的可以查看hadoop启动以及运行时产生的各种日志。
各个slave上也有同样的日志。

eclipse访问hadoop

这里提供了两个插件的下载。放到eclipse的plugin目录下,然后重启tomcat即可。
其中hadoop-eclipse-plugin.jar是JDK1.6编译的。
而hadoop-2.4.1-eclipse-4.4-plugin是JDK1.7编译的。

http://pan.baidu.com/s/1qWrzEqg
http://pan.baidu.com/s/1gdKitcJ

JDK考虑到兼容性的问题,低版本运行在高的JDK上面不会有问题,但是高版本编译的插件运行在低版本JDK会报错。如下所示:


最后是配置eclipse上的配置:
请参考网上其他资料.

关于Map/Reduce 和DFSMaster的配置项请参考两个文件:
Map/Reduce:mapred-site.xml
DFSMaster:core-site.xml

在DFS Locations下连接hadoop成功。但是上传和下载发生错误。查看日志:
org.apache.hadoop.util.Shell$ExitCodeException: id: Administrator:无此用户

这是因为我是在windows操作下操作的,而且当前用户是Administrator,eclipse以些用户去连hadoop.而且集群配置的帐户是hadoop.
有三种解决方案:
(1)修改Advanced parameters.好几十项配置,我也不清楚改哪个。但我估计是可以的。查了网上资料也说的不明白。主要是因为版本不一致的原因。
(2)用wind7 的管理员Administraor创建了一个hadoop(跟SSH的帐户相同)帐户,在这个帐户下操作,成功了。但是觉得也不太好。
(3)第三种,还可以去掉hdfs的权限检查
打开conf/hdfs-site.xml,找到dfs.permissions属性修改为false(默认为true)OK了。
        <property>
            <name>dfs.permissions</name>
            <value>false</value>
        </property>

    改完需要重启HDFS;
做完后,是正常连接到hadoop。通过eclipse插件操作文件增,删,查操作也成功了。
这里还有个问题,就是后台日志仍然会报:
org.apache.hadoop.util.Shell$ExitCodeException: id: Administrator:无此用户
这个错误。
但不影响操作。笔者认为在DEV环境或者自已搭建的环境可以产用这种方式。生产环境肯定是不允许的。一定要验证用户的身份。
(4)还有一种,TBD.

eclipse 调试时,仍出现了些问题,参照下面信息后,调试通过。
http://blog.csdn.net/yueritian/article/details/23991741

测试用例:
http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html

export JAVA_HOME=/data/index/Work/install/jdk1.7.0_55
export JRE_HOME=/data/index/Work/install/jdk1.7.0_55/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=.:$JAVA_HOME/bin:$PATH

#set hadoop path
#set hadoop path
export HADOOP_HOME=/usr/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOOME/sbin:$HADOOP_HOME/lib
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

hbase安装
http://www.micmiu.com/bigdata/hbase/hbase-setup-full-distributed/
  • 大小: 129.6 KB
  • 大小: 17.7 KB
  • 大小: 132.2 KB
  • 大小: 227.6 KB
  • 大小: 151.3 KB
  • 大小: 63.5 KB
  • 大小: 38.8 KB
分享到:
评论

相关推荐

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    hadoop-2.7.7 linux安装包

    此文件为hadoop-2.7.7.tar.gz,可在linux下直接进行安装,如在windows上安装,则需要hadooponwindows-master.zip,用windows-master里的文件替换解压好后hadoop的bin和etc即可。Hadoop 2.7.7是一款开源的分布式计算...

    hadoop插件apache-hadoop-3.1.0-winutils-master.zip

    Apache Hadoop是一个开源框架,主要用于分布式存储和计算大数据集。Hadoop 3.1.0是这个框架的一个重要版本,提供了许多性能优化和新特性。在Windows环境下安装和使用Hadoop通常比在Linux上更为复杂,因为Hadoop最初...

    hadoop2.7.x_winutils_exe&&hadoop_dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。标题"hadop2.7.x_winutils_exe&&hadoop_dll"暗示我们关注的是Hadoop 2.7.x版本在Windows环境下的两个关键组件:`winutils.exe`和`...

    hadoop2.7.3的hadoop.dll和winutils.exe

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...

    hadoop2.7.7对应的hadoop.dll,winutils.exe

    在Hadoop生态系统中,Hadoop 2.7.7是一个重要的版本,它为大数据处理提供了稳定性和性能优化。Hadoop通常被用作Linux环境下的分布式计算框架,但有时开发者或学习者在Windows环境下也需要进行Hadoop相关的开发和测试...

    win环境 hadoop 3.1.0安装包

    在Windows环境下安装Hadoop 3.1.0是学习和使用大数据处理技术的重要步骤。Hadoop是一个开源框架,主要用于分布式存储和处理大规模数据集。在这个过程中,我们将详细讲解Hadoop 3.1.0在Windows上的安装过程以及相关...

    hadoop2.6 hadoop.dll+winutils.exe

    标题 "hadoop2.6 hadoop.dll+winutils.exe" 提到的是Hadoop 2.6版本中的两个关键组件:`hadoop.dll` 和 `winutils.exe`,这两个组件对于在Windows环境中配置和运行Hadoop至关重要。Hadoop原本是为Linux环境设计的,...

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    hadoop2.7.3 hadoop.dll

    在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....

    hadoop.dll & winutils.exe For hadoop-2.7.1

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...

    hadoop2.6.0插件+64位winutils+hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop2.6.0是这个框架的一个重要版本,它包含了多项优化和改进,以提高系统的稳定性和性能。在这个压缩包中,我们关注的是与Windows...

    winutils+hadoop.dll+eclipse插件(hadoop2.7)

    在Hadoop生态系统中,`winutils.exe`和`hadoop.dll`是Windows环境下运行Hadoop必备的组件,尤其对于开发和测试环境来说至关重要。这里我们深入探讨这两个组件以及与Eclipse插件的相关性。 首先,`winutils.exe`是...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

    Hadoop源码分析(完整版)

    Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点,通过源码分析,可以更好地掌握Hadoop的工作机制、关键组件的实现方式和内部通信流程。Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两...

    hadoop.dll & winutils.exe For hadoop-2.8.0

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。这个压缩包文件包含的是"Hadoop.dll"和"winutils.exe"两个关键组件,它们对于在Windows环境下配置和运行Hadoop生态系统至关重要。 首先,...

    大数据 hadoop-3.1.3 linux 安装包

    在大数据领域,Hadoop是一个关键的开源框架,用于存储和处理海量数据。Hadoop-3.1.3是Hadoop的稳定版本,提供了许多增强的功能和优化,使其更适合大规模分布式计算环境。在这个针对Linux系统的安装包中,我们将探讨...

Global site tag (gtag.js) - Google Analytics