第一步:安装
(1) 下载hadoop包 http://hadoop.apache.org/
(2) 登录需要配置hadoop的服务器(HadoopSrv01) su -gird(官方建议用grid账户搭建)
(3) 解压 tar -xvf hadoop-2.1.0-bin.tar.gz 到一个目录比如/home/gird
(4) 进入/home/gird 创建临时目录 tmp
(5) 配置 hadoop-env.sh, core-site.xml, hdfs-site.xml,mapred-site.xml ,masters,slaves文件
(6) 修改hadoop-env.sh 文件,只需要设置 export JAVA_HOME=/usr/java/jdk1.7.0 即可,其他不需要修改。
(7) 修改core-site.xml 文件,增加以下内容
<property>
<name>default.name</name>
<value>http://HadoopSrv01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/gird/hadoop-2.1.0/tmp</value>
</property>
(8) 修改hdfs-site.xml,根据你自己的datanode节点数,设置复制因子。
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
(9) 修改mapred-site.xml文件
<property>
<name>mapred.job.tracker</name>
<value>HadoopSrv01:9001</value>
</property>
(10) 修改masters,slaves 增加namenode,datanode节点配置。
masters:
HadoopSrv01
slaves:
HadoopSrv02
HadoopSrv03
(11) 格式化Hadoop集群 bin/hadoop namenode -format
(12) 启动集群 bin/start-all.sh
(13)检查后台进程是否OK /usr/java/jdk1.7.0/bin/jps
NameNode,JobTracker,DataNode,TaskTracker
如果以上都能看到,就说明Hadoop分布式环境搭建好了
第二步:测试
(1) 进入cd /home/gird mkdir input
(2) cd input
(3)通过输出重定向的方式,新增两个txt文件
echo "Hi everyone">Text1.txt
echo "Hi,Hadoop">Text2.txt
(4) 查看Hadoop HDFS里是否有东西
cd /home/gird/hadoop-2.1.0/bin/hadoop fs -ls
返回:ls: Cannot access .: No such file or directory
(5)把input目录下的文件拷贝到hadoop in目录下
bin/hadoop fs -put ../put ./in
提示错误:
put: org.apache.hadoop.hdfs.server .namenode.SafeModeException: Cannot create directory /user/gird/in. Name node is in safe mode.
执行:/home/gird/hadoop-2.1.0/bin/hadoop dfsadmin -safemode leave
(6) 执行example jar 进行统计分析。
/home/gird/hadoop-2.1.0/bin/hadoop jar hadoop-examples-2.1.0.jar wordcount in out
(7) 查看执行输出文件。
bin/hadoop fs -cat ./out/part-r-00000
返回:
Hadoop 1
Hi 2
everyone 1
第三步:配置SSH验证
(1) 依次登录登录到 HadoopSrv01,HadoopSrv02,HadoopSrv03,先进行(1),(2),(3)操作,然后进行第(4)步骤操作:
(1):su - grid
(2): ssh-keygen -t rsa 全部默认,直接回车,不需要输入任何东西。
(3): cd .ssh 进入.ssh目录
(4):
HadoopSrv01上:
scp id_rsa.pub
scp id_rsa.pub
HadoopSrv02上:
scp id_rsa.pub
scp id_rsa.pub
HadoopSrv03上:
scp id_rsa.pub
scp id_rsa.pub
(2) 测试
ssh hostname 如果不需要输入密码就证明设置成功了。
相关推荐
"hadoop集群环境的搭建" Hadoop 是一个开源的大数据处理框架,由Apache基金会开发和维护。它可以实现大规模数据的存储和处理,具有高可扩展性、可靠性和高性能等特点。搭建 Hadoop 集群环境是实现大数据处理的重要...
Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验。虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的。 连接服务器 使用 ssh 命令连接远程...
根据提供的文件信息,下面将详细介绍在虚拟机上搭建Hadoop集群环境的相关知识点。 1. 安装虚拟机和操作系统 首先,需要安装虚拟机软件,例如文档中提到的VMware Workstation,它是一款流行的虚拟化软件,可以安装在...
在搭建Hadoop集群环境时,需要首先进行集群规划,确定集群的节点数量、每个节点的角色等。例如,在本文中,我们将搭建一个3节点的Hadoop集群,其中三台主机均部署DataNode和NodeManager服务,但只有hadoop001上部署...
第1步 master-slave1和slave2配置网络和搭建Hadoop集群环境.docx
现在,我们已经搭建好了Docker环境,下一步我们将基于Docker搭建Hadoop集群。Hadoop是大数据处理的常用工具,它可以对大规模数据进行处理和分析。 我们可以使用Docker来部署Hadoop集群。首先,我们需要创建一个新的...
脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,其他操作系统会有些...
标题中的“大数据教程之搭建Hadoop集群.zip_大数据环境搭建hadoop”暗示了这是一个关于如何在大数据环境中构建Hadoop集群的教程。Hadoop是Apache软件基金会的一个开源项目,主要用于处理和存储海量数据,其分布式...
Hadoop 集群架构搭建分析是指设计和搭建一个高效、可靠、可扩展的 Hadoop 集群环境,以满足大数据处理和分析的需求。本文将从概述、环境准备、环境搭建三个方面对 Hadoop 集群架构搭建进行分析。 一、概述 Hadoop ...
初学大数据,如何手动搭建一套集群是很有必要的一件事,因为使用CDH等一键搭建后,不知内部的原理,无法真正的理解其大数据集群的搭建原理,此文档刚好给大家把手动搭建集群的步骤列举出来了
在进行搭建Hadoop集群的过程中,需要注意的是本文档提到的参考资料,包括北航王宝会老师在Windows下大数据虚拟集群配置的指导,以及CSDN博主zhishengqianjun关于VMware Fusion配置Nat静态IP的文章,它们为本文档的...
Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境包括Java Development Kit...
搭建Hadoop集群在LinuxRedHat、CentOS上的实现 Hadoop是一种流行的开源大数据处理平台,由Google开发,现被Apache基金会维护。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce,分别负责数据存储...
在搭建Hadoop集群之前,首先需要准备多台虚拟机。可以使用VMware或VirtualBox等虚拟机软件,创建至少三台虚拟机,分别作为NameNode、DataNode和Secondary NameNode。确保每台虚拟机的网络设置为同一网络模式(如NAT...
Ambari 搭建 Hadoop 集群环境 Ambari 是一个商业化的平台,用于搭建 Hadoop 集群环境。该平台提供了一个端到端的解决方案,包括安装、操作、修改配置和监控集群中的所有节点。使用 Ambari 的 Web UI 和 REST API,...
以下将详细介绍如何在一台虚拟机上安装多台Linux服务节点,并构建Hadoop集群环境。 首先,我们需要准备一个基础环境。这通常涉及到在一台主机上安装虚拟机软件,如VirtualBox或VMware,然后创建多个Linux虚拟机实例...
总结来说,搭建Hadoop集群是一项涉及多方面知识的任务,包括操作系统管理、网络配置、Java环境、SSH安全以及Hadoop自身配置等多个环节。理解这些知识点,并熟练掌握集群的部署和运维,对于大数据处理和分析至关重要...
在搭建Hadoop集群的过程中,配置文件起着至关重要的作用,它们定义了集群的运行方式、节点间通信方式以及数据存储和处理的策略。本压缩包包含的文件是全面的Hadoop集群配置集合,旨在帮助用户顺利构建和管理自己的...