Hadoop入门-单机伪分布式配置
为了配置的的方便建议先提升你的登录用户权限,本配置中凡是要在终端中输入的命令都用红色字体,需注意对应的目录用了色字体标出。
启用超级用户 sudo passwd root(然后输入你的超级用户密码)以后在终端中输入su,再输入该密码就可以 用超级用户登录了
提升用户权限命令,在终端中输入sudo gedit /etc/passwd
在文件末尾找到你的登录用户:我的是szllong:x:1000:1000:szllong,,,:/home/szllong:/bin/bash 将其中的两个1000改为0保存并退出,重启电脑输入你的用户名和密码(我的用户名就是szllong,这里可能会习惯性的直接输入密码需注意)。
由于root登录有助多不变,建议配置完成后,再将你的权限改回来。
接下来就可以正式安装了。
1、安装基础工具
ssh
ubuntu默认并没有安装ssh服务,如果通过ssh链接ubuntu,需要自己手动安装ssh-server。判断是否安装ssh服务,可以通过如下命令进行:ssh localhost
如上没出现 ssh: connect to host localhost port 22: Connection refused,表示没有还没有安装,可以通过apt安装,共三个,命令如下:
apt-get install ssh
apt-get install openssh-server
sudo apt-get install rsync
很多介绍里会在前面加入sudo,这是为了要获得root权限,这是可能还要输入你的用户密码,下同
2、安装JDK
下载源码包jdk-7u4-linux-i586.tar.gz
(jdk版本可以根据需要自己下载最新版本,但在接下来环境配置时记得要改为相应版本)
将之放到目录:/usr/lib/jvm下
(这里位置目录可以自己定义,JDK环境变量需要对应)
进入该目录直接解压:tar zxvf jdk-7u4-linux-x64.tar.gz
3、安装hadoop-1.0.3.tar.gz,到hadoop官网下载hadoop-1.0.3.tar.gz
(此时hadoop-1.0.3.tar.gz是最稳定的版本,可以根据情况选择其他版本)
3.1、将下载包解压到usr目录tar zxvf hadoop-1.0.3.tar.gz
3.2、修改hadoop-env.sh配置
这里有两种配置方法一种是直接通过vi配置,这需要对它有一定的了解,由于我是个新手所以就直接找到该文件,然后对之进行修改(这时用具有root权限的用户登录就有优势了,因为这些配置文件的权限属于root,普通用户是不具有该权限的)
先给出通过vi 配置的方法,这是我在网上百度的,没有实验过,但这里的目录名需要与你的先前解压目录相对应(即/usr/lib/jvm/jdk1.7.0_04 目录)
vi conf/hadoop-env.sh
# 找到JAVA_HOME设置:export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_04
# 在文件末尾加以下内容, 取消环境变量$HADOOP_HOME过时的警告:export HADOOP_HOME_WARN_SUPPRESS=1
配置环境变量(集群节点都要配置环境变量)
vi /etc/profile
在文件中末尾加入以下内容:
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_04
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/hadoop-1.0.3
export PATH=$PATH:$HADOOP_HOME/bin
让环境变量生效
source /etc/profile
主要配置三个文件:core-site.xml、hdfs-site.xml、mapred-site.xml使用高版本的hadoop就要修改为下面的配置:
Java代码 §
1 配置
2 使用如下的 conf/core-site.xml:
3
4 <configuration>
5 <property>
6 <name>fs.default.name</name>
7 <value>hdfs://localhost:9000</value>
8 </property>
9 </configuration>
Java代码 §
10 配置
11 使用如下的 conf/hdfs-site.xml:
12
13 <configuration>
14 <property>
15 <name>dfs.replication</name>
16 <value>1</value>
17 </property>
18 </configuration>
Java代码 §
19 配置
20 使用如下的 conf/mapred-site.xml:
21
22 <configuration>
23 <property>
24 <name>mapred.job.tracker</name>
25 <value>localhost:9001</value>
26 </property>
27 </configuration>
接下来给出直接配置方法,直接配置方法就是直接在你的安装目录中修改该文件,
1.在usr/hadoop1.0.3/conf目录下找到hadoop-env.sh 文件后打开,注意因为现在是root用户登录,所以可能会出现一个对话框,这里要选显示而不是执行
找到
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
(# 表示注释,它之后的句子不被执行,仅起提示作用)
再该句话下加入配置环境语句(注意目录的对应)
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_04
在文件末尾加
export HADOOP_HOME_WARN_SUPPRESS=1
取消环境变量$HADOOP_HOME过时的警告:
2.配置环境变量
在etc目录下找到profile文件,在其末尾加入以下内容(这里同样要注意目录的对应)
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_04
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/hadoop-1.0.3
export PATH=$PATH:$HADOOP_HOME/bin
由于#可以起到注释作用,你可以在这里加上
#I add something to make java-jdk active times:2012 08 24 22:36
唯一标识
让环境变量生效
在终端中source /etc/profile
3.配置三个文件core-site.xml、hdfs-site.xml、mapred-site.xml
在usr/hadoop1.0.3/conf中找到core-site.xml文件
在<configuration>
</configuration>
中加入
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
找到hdfs-site.xml文件
在<configuration>
</configuration>
中加入
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
找到mapred-site.xml文件
在<configuration>
</configuration>
中加入
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
4.在终端中输入ssh localhost如果需要输入密码则输入密码后运行以下两条命令,
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
这是为了,配置自由登录hadoop的密码,第一句是产生,第二句是分发
5.用cd命令进入usr/hadoop1.0.3中 输入bin/hadoop namenode -format进行格式化
6. 输入bin/start-all.sh启动hadoop
7.在浏览器中输入 http://localhost:50070/,如显示的有磁盘容量表示已经配置成功。
注意因定要进入hadoop安装目录后再运行bin...命令,否则会出现找不到文件或文件夹
分享到:
相关推荐
Hadoop单机伪分布式搭建和运行第一个WordCount程序 ...Hadoop单机伪分布式搭建和运行第一个WordCount程序是Hadoop入门的基础。通过这篇文章,您可以了解Hadoop的基本概念和配置,并且可以编写和运行自己的Hadoop程序。
### Hadoop 1.X 伪分布式安装知识点概览 #### 1. Hadoop 简介 - **定义**: Apache Hadoop 是一个开源框架,它允许开发者通过简单的编程模型来处理大量的数据集,并且能够在集群服务器上进行分布式处理。 - **特点**...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。它的核心设计思想是分布式存储和计算,能够高效地处理海量数据。...但作为初学者,伪分布式环境足以满足学习需求,并且可以有效降低入门门槛。
总之,"基于单机的Hadoop伪分布式运行模拟实现"是一个让新手快速入门Hadoop的有效方法。通过这个过程,不仅可以熟悉Hadoop的基本配置,还能深入理解Hadoop的工作流程,为进一步学习Hadoop的高级特性,如HBase、Hive...
### 分布式计算开源框架Hadoop入门实践 #### 一、Hadoop简介 Hadoop是一个由Apache基金会维护的开源分布式计算框架,它基于Java语言编写,主要由两大核心组件构成:**HDFS(Hadoop Distributed File System)** 和...
本文档提供了一个详细的脚本,涵盖了从Java环境配置到Hadoop集群的完全分布式安装的所有步骤,旨在降低大数据技术入门的复杂度和时间成本。 **脚本功能** 1. **Java环境一键配置**:自动安装Java运行环境,确保...
【Hadoop入门教程(1.x)】是一份针对初学者的综合教程,涵盖了Hadoop的基础概念、安装步骤以及核心组件的使用。这份教程主要聚焦在Hadoop 1.x版本,这是Hadoop发展早期的一个重要阶段,它为后来的Hadoop 2.x及更高...
同时,理解伪分布式和完全分布式模式的区别也是很重要的,前者在单机上模拟分布式环境,后者则在多台机器上实现真正的集群部署。 三、HDFS操作 Hadoop用户需要熟悉HDFS的基本操作,如使用Hadoop命令行工具hadoop ...
6. **Hadoop安装与配置**:详述在不同操作系统上安装Hadoop的步骤,包括单机模式、伪分布式模式和完全分布式模式的配置,以及环境变量设置和集群优化技巧。 7. **数据输入与输出**:理解Hadoop如何处理不同类型的...
这个版本包含了运行Hadoop所需的所有组件和配置文件,以便在Windows系统上搭建Hadoop集群或单机模式。 1. **主要组件**: - **bin**:包含Hadoop的可执行脚本,如`hadoop`, `hdfs`, `yarn`等,用户可以通过这些...
- 学习如何在不同操作系统上安装和配置Hadoop,包括单机模式、伪分布式模式和完全分布式模式。 4. **Java版本的选择**: - J2EE适用于Web开发,尤其在处理和展示大数据时,可以利用其服务器端功能。 - J2SE是...
《Hadoop入门实战手册》是一份详尽介绍Hadoop的资料,主要面向初学者,旨在帮助读者理解Hadoop的核心概念、特性和应用。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它允许在廉价硬件上处理和存储海量...
通过以上介绍可以看出,《Hadoop入门指南》不仅涵盖了Hadoop的基础概念、安装配置流程,还深入讲解了HDFS和MapReduce的工作原理及实际应用案例。这对于初学者来说是非常宝贵的资源,能够帮助他们快速掌握Hadoop的...
安装Hadoop的过程通常分为单机模式、伪分布式模式和完全分布式模式。单机模式适合初学者快速入门,所有Hadoop进程运行在同一台机器上,不涉及网络通信。伪分布式模式则是模拟多节点环境,所有服务在一个节点上独立...