前言:关于hadoop集群的搭建,虽然有了很多的博客,但是很多都不是很完善。我们开始搭建集群的时候,也是去看别人的博客,在看别人的博客的过程中学到了很多,同时也发现了一些不足,在这篇博客了我会把我们在搭建集群过程中所遇到的问题和解决问题的方法详细地列出了。
集群的搭建过程:
1、在电脑上安装ubuntu
2、创建用户组,添加用户
3、安装jdk(Java Development Kit)
4、安装eclipse
5、安装ssh(SSH 为 Secure Shell )
6、安装hadoop
7、Hadoop的相关配置
8、其他相关配置
1、ubuntu的安装,如果还没有下载好ubuntu安装包的话,可以到官网去下载,网址:http://www.ubuntu.com/,目前推荐下载ubuntu-12.04.1,下载好后,可以将它做成启动盘进行安装,也可以直接安装。
启动盘安装,得用到一个软件,具体步骤可以在网上查一下,用这种方法安装的话,得从磁盘中删除一个盘来安装。
直接安装很简单,直接从文件中解压出一个叫wubi的可执行文件,(不必全部解压),解压后的wubi文件得和原来的安装放在同意目录下,双击wubi文件,根据它的提示进行安装。
2、一般我们都不直接在原来的用户(身份是管理员)安装和运行这些程序,可能是考虑到出现系统的一些问题后,我们可以利用原来的用户来处理吧。所以我们在ubuntu下创建了一个hadoop用户组,添加了一个hadoop用户,具体命令如下:
添加用户组:sudo addgroup hadoop
添加用户:sudo adduser -ingroup hadoop hadoop
添加用户权限:sudo gedit /etc/sudoers
# User privilege specification
rootALL=(ALL:ALL) ALL
hadoop ALL=(ALL:ALL) ALL #此处为追加的内容
3、切换到hadoop用户,安装jdk了,将jdk安装文件拷贝到要安装的目录下,我们是放在在 /usr/local,如果不能直接复制过去,可以
使用命令 sudo cp 源文件路径 目标目录.然后就开始解压,输入如下命令:sudo tar -zxvf 文件路径。解压好了之后,将进入到最关键的一步,那就是配置jdk。用命令打开profile文件,sudo gedit /etc/profile
在文件里面添加如下信息:
#set java environment
export JAVA_HOME=/usr/local/jdk1.7.0_10
export JRE_HOME=/usr/local/jdk1.7.0_10/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
保存好后,在终端输入java -version 如果没有显示jdk的版本号,重启计算机,
再输入java -version
4、安装eclipse,只需将eclipse的文件进行解压,然后点击里面的eclipse可执行程序就可以运行了,注意,如果解压完无法打开eclipse,请重启。
5、安装ssh
安装ssh的命令:usdo apt-get install openssh-server
然后生成密钥:ssh-keygen -t rsa -P ""
要求输入密钥的位置时,设置为:/home/hadoop/.ssh/id_rsa
给本机拷贝公钥的命令ssh-copy-id -i localhost
给master拷贝公钥的命令ssh-copy-id -i master
如果无法连接到本机或master,先查看ssh进程是否已经开启,命令为:ps -e |grep ssh
如果无法看到sshd进程,说明ssh进程没有起始或者ssh没有成功安装,可以重新安装ssh,按照步骤进行下一步操作。
6、安装hadoop
将hadoop压缩文件复制到 /usr/local文件夹下,然后解压
解压好了之后配置hadoop-env.sh文件,即指定jdk的安装目录
命令:sudo gedit /usr/local/hadoop/conf/hadoop-env.sh
删掉JAVA_HOME前面的#,将JAVA_HOME等号后面的路径改为jdk的所在的路径即可,不需要到bin目录下。
7、配置hadoop
需要配置下面5个文件,masters、slaves、core-site.xml、hdfs-site.xml和marred-site.xml
1)在终端输入sudo gedit /usr/local/hadoop/conf/masters
将里面的localhost改为master,然后点击保存即可
2)在终端输入sudo gedit /usr/local/hadoop/conf/slavers
将里面的localhost改为slaver1 ... slavern,然后点击保存即可
slavern (n=1,2,3 。。。)是你指定用来当作salver的机器。
3)在终端输入sudo gedit /usr/local/hadoop/conf/core-site.xml
将里面的内容替换为如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
4)在终端输入sudo gedit /usr/local/hadoop/conf/hdfs-site.xml
将里面的内容替换为如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/datalogs</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
5)在终端输入sudo gedit /usr/local/hadoop/conf/mapred-site.xml
将里面的内容替换为如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>
8、相关的配置
1)修改机器名:
命令:sudo gedit /etc/hostname 将里面原来的机器名改为你想要的机器名即可,然后保存,重启之后机器名才会改过来。
2)修改hosts文件:
命令:sudo gedit /etc/hosts 将里面的内容替换如下:
127.0.0.1localhost
172.0.0.1 ubuntu.ubuntu-domain ubuntu5
192.168.0.205 master
192.168.0.201 slave1
192.168.0.202 slave2
192.168.0.203 slave3
192.168.0.204 slave4
192.168.0.206 slave6
192.168.0.207 slave7
3)常用的hadoop命令
格式化命令:
bin/hadoop namenode -format
启动集群的命令
bin/start-all.sh
相关推荐
"基于Docker搭建Hadoop集群" 在本文中,我们将介绍如何基于Docker搭建Hadoop集群。Hadoop是大数据处理的常用工具,而Docker则是当前最流行的容器化技术。通过将Hadoop部署到Docker容器中,我们可以更方便地管理和...
脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,其他操作系统会有些...
标题中的“大数据教程之搭建Hadoop集群.zip_大数据环境搭建hadoop”暗示了这是一个关于如何在大数据环境中构建Hadoop集群的教程。Hadoop是Apache软件基金会的一个开源项目,主要用于处理和存储海量数据,其分布式...
搭建Hadoop集群在LinuxRedHat、CentOS上的实现 Hadoop是一种流行的开源大数据处理平台,由Google开发,现被Apache基金会维护。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce,分别负责数据存储...
【搭建Hadoop集群详解】 Hadoop是一个开源的分布式计算框架,专为处理和存储大量数据而设计。它的核心设计理念是高容错性、高效性和可扩展性,这使得Hadoop能够在大规模集群中处理PB级别的数据。Hadoop的可靠性源于...
在搭建Hadoop集群的过程中,配置文件起着至关重要的作用,它们定义了集群的运行方式、节点间通信方式以及数据存储和处理的策略。本压缩包包含的文件是全面的Hadoop集群配置集合,旨在帮助用户顺利构建和管理自己的...
在进行搭建Hadoop集群的过程中,需要注意的是本文档提到的参考资料,包括北航王宝会老师在Windows下大数据虚拟集群配置的指导,以及CSDN博主zhishengqianjun关于VMware Fusion配置Nat静态IP的文章,它们为本文档的...
在搭建Hadoop集群之前,首先需要准备多台虚拟机。可以使用VMware或VirtualBox等虚拟机软件,创建至少三台虚拟机,分别作为NameNode、DataNode和Secondary NameNode。确保每台虚拟机的网络设置为同一网络模式(如NAT...
本文主要研究了通过虚拟化技术在Linux系统下搭建Hadoop集群的方法,并对其进行了详细的研究和实现。首先,文章对Hadoop进行了简介,介绍了Hadoop的框架、HDFS和MapReduce等核心组件,并对Hadoop集群的组成进行了说明...
为了提高集群的性能、稳定性和安全性,许多企业选择了使用 IBCS 虚拟专线来搭建 Hadoop 集群。 IBCS 虚拟专线是基于 IP 专线技术的二层网络服务,它为本地服务器提供独享且固定的 IP 地址,类似于物理专线,但更...
标题 "《Hadoop大数据开发实战》教学教案—02搭建Hadoop集群" 是关于Hadoop大数据开发实战课程中第二章的教学内容,主要聚焦于如何在Linux环境下搭建Hadoop集群。描述提到该章节适用于互联网相关领域的学习,暗示了...
根据提供的文件信息,下面将详细介绍在虚拟机上搭建Hadoop集群环境的相关知识点。 1. 安装虚拟机和操作系统 首先,需要安装虚拟机软件,例如文档中提到的VMware Workstation,它是一款流行的虚拟化软件,可以安装在...
这些步骤是搭建Hadoop集群的基础,每一步都至关重要,确保了集群的安全性和稳定性。在实际部署过程中,还需要根据具体需求进一步配置Hadoop的相关组件,如HDFS、MapReduce等,以满足数据处理的需求。
在本章《Hadoop大数据开发实战》的教学中,我们将深入探讨如何搭建Hadoop集群,这是进行大数据处理的基础。首先,我们需要了解的是,Hadoop是一个开源的分布式计算框架,广泛应用于大数据处理领域,尤其是在Linux...
在大数据领域,Hadoop...总之,搭建Hadoop集群是一个涉及多步骤的过程,需要理解Hadoop的基本原理,并熟悉Linux环境下的系统管理和网络配置。通过这些文档和资源,你可以逐步学习并实践,建立起自己的大数据处理平台。
大数据课程入门,使用Vm虚拟机搭建hadoop集群,用到的系统是centOS6.8,该视频同步了如何安装虚拟机、修改虚拟网卡、配置ssh环境、配置JDK1.8及hadoop2.7.4。视频时长一小时半,当然也可以看另外一条链接:...
在本篇中,我们将探讨如何使用CM5和CDH5搭建Hadoop集群,包括安装过程、可能遇到的问题以及解决方案。CM5(Cloudera Manager 5)是Cloudera公司提供的一个管理工具,用于简化Hadoop集群的部署、管理和监控。而CDH5...
在这个"搭建Hadoop集群所需的tar包.zip"压缩文件中,包含了几个关键组件:Hadoop、HBase、Kafka、ZooKeeper以及Apache Flume。这些工具在大数据生态系统中扮演着重要角色,下面将详细介绍它们的功能和在集群搭建中的...