一、集群环境及安装:
1.1 集群环境
- 系统: Ubuntu Kylin 14.04 LTS
- Hadoop版本:Apache Hadoop-2.6.0
节点类型 |
网络地址 |
机器名 |
配置信息 |
Master |
192.168.0.100 |
master |
CPU:4核,内存:8G |
Backup&Slave |
192.168.0.99 |
backup |
CPU:4核,内存:8G |
Slave |
192.168.0.101 |
datanode1 |
CPU:2核,内存:4G |
Slave |
192.168.0.102 |
datanode2 |
CPU:4核,内存:4G |
Slave |
192.168.0.103 |
datanode3 |
CPU:2核,内存:4G |
Slave |
192.168.0.104 |
datanode4 |
CPU:4核,内存:4G |
1.2 集群系统安装
1)首先使用U盘启动盘将Ubuntu Kylin系统直接安装到硬盘上,安装时SWAP分区大小设置为内存大小,即master/backup的swap为8192M,其余节点为4096M,并且设置合适的硬盘分区大小挂载到“/”路径下。
2)在安装过程中,可以设置用户名、机器名等。如果在该步骤中设置,可跳至步骤4。
3)创建hadoop用户组和用户:
$ sudo addgroup hadoop //创建hadoop用户组
$ sudo adduser -ingroup hadoop hadoop //创建hadoop用户
4)给hadoop用户添加权限:
$ sudo gedit /etc/sudoers //打开/etc/sudoers文件
给hadoop用户赋予root用户同样的权限。在root ALL=(ALL:ALL) ALL下添加: hadoop ALL=(ALL:ALL) ALL
二、安装JDK
2.1 配置环境变量
2.1.1 解压JDK
$ sudo mkdir /usr/lib/jvm
$ sudo tar zxvf jdk-8u05-linuxX64.tar.gz /usr/lib/jvm
2.1.2 添加环境变量
$ sudo gedit /etc/profile
在文件的末尾加上如下内容,保存并关闭文件
# for java export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_05 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH
使设置生效:
$ gedit ~/.bashrc
在文件最后加上: source /etc/profile, 保存并退出。
2.2 修改默认JDK
sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk1.8.0_05/bin/java 300
sudo update-alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk1.8.0_05/bin/javac 300
sudo update-alternatives --install /usr/bin/jar jar /usr/lib/jvm/jdk1.8.0_05/bin/jar 300
然后执行:
sudo update-alternatives --config java
若是初次安装 JDK,将提示
There is only one alternative in link group java (providing /usr/bin/java): /usr/lib/jvm/java/bin/java
无需配置。
最后进行简单的测试:$ java –version
若出现:
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
则表示JDK的配置已经完成。
三、ssh与免密码登陆
3.1 安装openssh-server:
$ sudo apt-get install ssh openssh-server
3.2 ssh无密码登录本机
首先要转换成hadoop用户,执行以下命令:
$ sudo su - hadoop
采用rsa方式创建ssh-key
$ ssh-keygen -t rsa -P "" (直接回车生成的密钥对:id_rsa和id_rsa.pub,默认存储)
2. 创建授权文件authorized_keys,复制 id_rsa.pub 为 authorized_keys
$ cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
3. 登录localhost;
$ ssh localhost
4. 执行退出命令(exit或CTRL+D);
权限要求:hadoop目录 755,.ssh目录700,authorized_key文件600
3.3 ssh无密码登录集群
3.2.1 配置hosts文件
在每台机器上都完成3.2步骤,然后修改每台机器的hosts文件:
$ sudo gedit /etc/hosts
修改后的/etc/hosts文件如下:
127.0.0.1 localhost 192.168.0.99 backup 192.168.0.100 master 192.168.0.101 datanode1 192.168.0.102 datanode2 192.168.0.103 datanode3 192.168.0.104 datanode4
3.2.2 追加授权
将master在3.2 步骤中生成的.ssh文件夹分发至集群每一台机器:
$ scp –r ~/.ssh hostname:/home/hadoop
权限要求:hadoop目录 755,.ssh目录700,authorized_key文件600
至此,集群内任意两台机器可以免密码登陆。
问题集:
1、Agent admitted failure to sign using the key
解决方法:在当前用户下执行命令:ssh-add
四、安装hadoop
4,1安装Hadoop
1)解压Hadoop至用户目录:
$ sudo tar zxvf hadoop-2.6.0.tar.gz
2)配置HADOOP_HOME
$ sudo gedit /etc/profile:
export HADOOP_HOME=/home/hadoop/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
4.2 配置Hadoop集群
1)hadoop-env.sh
增加:export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_05
2)编辑配置文件core-site.xml
3)编辑配置文件hdfs-site.xml
4)编辑配置文件mapred-site.xml
5)编辑配置文件yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8035</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:8088</value> </property> </configuration>
masters文件:主节点master,
slaves文件:数据节点,一行一个。
运行hadoop
1. 进入hadoop目录下,格式化hdfs文件系统,初次运行hadoop时一定要有该操作,
$ cd ~./Hadoop-yarn
$ bin/hadoop namenode -format
2. 启动sbin/start-all.sh
$ sbin/start-all.sh //关闭:同目录下./stop-all.sh
3. Web查看
五、服务端配置
修改文件副本数和block大小。
1) 指定连接超时大小:(core-site.xml)
2) 指定副本数:(hdfs-site.xml)
3) 指定block大小(1M):(hdfs-site.xml)
服务端程序通过读取SRC文件夹下的hadoop配置文件来读取配置信息:
在编写应用程序时,需要将配置文件添加到应用程序的classpath中,或者通过以下方法手动读取下配置文件就可以了。
conf.addResource(new Path("/usr/local/hadoop/conf/hdfs-site.xml"));
运行hadoop自带的wordcount程序
1、通过hadoop的命令在HDFS上创建/tmp/workcount目录,命令如下:bin/hadoop fs -mkdir /tmp/wordcount
2、通过copyFromLocal命令把本地的word.txt复制到HDFS上,命令如下:bin/hadoop fs -copyFromLocal /home/grid/word.txt /tmp/wordcount/word.txt
3、通过命令运行例子,使用命令如下:bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount /tmp/wordcount/word.txt /tmp/wordcount/out
4、查看运行结果,使用命令: bin/hadoop fs -ls /tmp/wordcount/out查看例子的输出结果,发现有两个文件夹和一个文件,使用命令查看part-r-00000文件, bin/hadoop fs -cat /tmp/wordcount/out/part-r-00000可以查看运行结果。
注意:如果出现java.net.NoRouteToHostException: No route to host,关闭防火墙
/etc/init.d/iptables stop
相关推荐
描述中提到"亲测有效,替换hadoop得bin目录下得所有资源包,把dll包加入到system32里面即可使用",这意味着用户需要执行以下步骤来利用这个压缩包: 1. **下载并解压**:首先,下载`hadoop-3.1.0winutils.rar`,...
但如果你的环境限制在32位,这个亲测可用的native-lib包将是你成功运行Hadoop的关键。 总结一下,"hadoop 32位native-lib包"是专为32位操作系统设计的Hadoop本地库,它包含了运行Hadoop所需的关键组件,如libhdfs,...
安装和配置Hadoop 2.8.1时,首先需要将winutils.exe和hadoop.dll放置在正确的路径下,通常是HADOOP_HOME/bin目录。然后,环境变量需要被正确设置,包括HADOOP_HOME和PATH。这些步骤对于在Windows上构建本地Hadoop...
hadoop 的idea 插件安装 软件windwos和mac 亲测可用 安装步骤: 1、idea 打开settings ->plugins 选择 install plugin from disk ,选择 HadoopIntellijPlugin-1.0.zip 2、重启idea 安装完毕
描述中提到的“亲测有效,替换hadoop得bin目录下得所有资源包,把dll包加入到system32里面即可使用。”意味着用户需要执行以下步骤来利用这个压缩包: 1. **下载并解压**:首先,下载`hadoop-2.7.4winutils.rar`,...
"azkaban-web-server-亲测可用"表明这是一个经过测试,能够正常运行的Azkaban Web服务器版本,0.1.0-SNAPSHOT则表示这是Azkaban的一个开发版本,可能包含了最新的特性或修复。 Azkaban的核心组成部分包括Azkaban ...
描述中提到的"亲测有效"表明这个版本的winutils已经过测试,并且可以成功地在Windows环境下运行Hadoop。为了使用这个压缩包,你需要按照以下步骤操作: 1. 首先,解压"Hadoop-2.8.4winutils.rar",你会得到一个名为...
8. **安装步骤**:安装Hadoop on Windows通常涉及下载Hadoop发行版,解压,配置环境变量,设置Java_home,替换或添加`winutils.exe`及其依赖的`.dll`文件,最后测试Hadoop是否可以正常启动和运行。 综上所述,这个...
本文将详细介绍如何在32位Windows上安装Hadoop 2.7.1,并提供亲测有效的`winutils.exe`和`hadoop.dll`的解决方案。 首先,`winutils.exe`是Hadoop在Windows上执行某些操作(如启动HDFS和YARN服务)所必需的实用程序...
在描述中提到,“亲测有效,替换hadoop得bin目录下得所有资源包,把dll包加入到system32里面即可使用。”这意味着这个压缩包包含了更新或替代原有Hadoop安装中的winutils相关文件,以适应Windows环境。通常,这可能...
总之,搭建基于Windows的Hadoop集群涉及多个步骤,包括安装JDK、配置Hadoop、安装SSH服务、配置节点和运行MapReduce任务。虽然过程相对复杂,但通过这个图文教程,你将能亲身体验到在非传统环境下部署Hadoop的乐趣和...
这个过程经过了亲测,并被认为是一个可靠的指南,适合那些希望在CentOS环境中搭建Hadoop集群的初学者。 首先,我们需要进行角色分配。在本例中,我们有三台机器,分别作为web-crawler的角色,其中一台作为master,...
在使用"apache-atlas-2.0.0-hive-hook.tar.gz"进行安装和配置时,通常需要以下步骤: 1. **解压文件**:首先,使用`tar -zxvf apache-atlas-2.0.0-hive-hook.tar.gz`命令解压压缩包。 2. **配置Atlas**:在Apache ...
1. **安装步骤**:Cygwin是一个模拟Unix环境的工具,其安装过程较为复杂,尤其是涉及到在线安装的部分。本教程提供了预先下载好的安装包,可以直接安装使用。 - 选择安装路径:强烈建议安装到根目录下。 - 安装...
本文将详细介绍如何在Windows 10操作系统上编译并安装Hadoop,基于提供的压缩包文件"window10_hadoop",确保100%兼容性与可用性。 首先,我们需要了解Hadoop的基本概念。Hadoop是由Apache软件基金会开发的分布式...
在压缩包内的文件 "亲测可以用.txt" 可能包含了测试步骤、注意事项或配置指南,对于安装和使用这个 Hadoop 版本非常有帮助。另一个文件 "hadoop-2.7.x" 可能是 Hadoop 的解压目录,包含了源代码、库文件、配置文件等...
【Hadoop2.2.0】 Hadoop2.2.0是Apache Hadoop项目的一个稳定版本,...通过亲测并解决一个月的问题,意味着这份文档提供了详实且可靠的整合部署指南。对于学习和实践大数据处理的人员来说,这样的经验分享是非常宝贵的。
Hadoop的安装及问题解决,本人亲测,还希望能够帮助到大家,若有纰漏之处还请告知.我会尽快处理