大数据系列1：在win7上安装配置Hadoop伪分布式集群

yangshangchuan

浏览: 2477073 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

akingde

feilafei123

wf_chn

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据

hadoop HBase 大数据搜索引擎网络爬虫

1、 安装虚拟机和操作系统

VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBox

ubuntu-13.04-server-amd64.iso 下载ubuntu

2、 设置root用户密码

sudo passwd root

3、 上传文件

利用WinSCP上传JDK和HADOOP文件，利用putty连接虚拟机中的ubuntu，下载WinSCP，下载putty，下载jdk，下载hadoop

4、 配置JDK和HADOOP

tar -xzvf jdk-7u40-linux-x64.tar.gz

tar -xzvf hadoop-1.2.1.tar.gz

sudo vi /etc/profile

增加：

export JAVA_HOME=/home/ysc/jdk1.7.0_40

export PATH=$PATH:$JAVA_HOME/bin: /home/ysc/hadoop-1.2.1/bin

source /etc/profile

5、配置HADOOP

配置主机名称及网络

vi /etc/hostname

指定名称为host001

vi /etc/hosts

替换内容为：192.168.137.128 host001

同时加入C:\Windows\System32\drivers\etc\hosts文件

查看是否启用IPV6：

cat /proc/sys/net/ipv6/conf/all/disable_ipv6

显示0说明ipv6开启，1说明关闭

关闭ipv6的方法：

sudo vi /etc/sysctl.conf

增加下面几行，并重启

#disable IPv6

net.ipv6.conf.all.disable_ipv6 = 1

net.ipv6.conf.default.disable_ipv6 = 1

net.ipv6.conf.lo.disable_ipv6 = 1

配置SSH

cd /home/ysc

sudo apt-get install openssh-server

ssh-keygen -t rsa（密码为空，路径默认）

cp .ssh/id_rsa.pub .ssh/authorized_keys

ssh host001

yes

cd hadoop-1.2.1

配置HADOOP环境变量

vi conf/hadoop-env.sh

增加：

export JAVA_HOME=/home/ysc/jdk1.7.0_40

配置HADOOP运行参数

vi conf/masters

改localhost为host001

vi conf/slaves

改localhost为host001

vi conf/core-site.xml

<name>fs.default.name</name>

</property>

<name>hadoop.tmp.dir</name>

</property>

vi conf/hdfs-site.xml

<value>/home/ysc/dfs/filesystem/name</value>

</property>

<value>/home/ysc/dfs/filesystem/data</value>

</property>

<name>dfs.replication</name>

</property>

vi conf/mapred-site.xml

<name>mapred.job.tracker</name>

</property>

<name>mapred.tasktracker.map.tasks.maximum</name>

</property>

<name>mapred.tasktracker.reduce.tasks.maximum</name>

</property>

<name>mapred.system.dir</name>

<value>/home/ysc/mapreduce/system</value>

</property>

<name>mapred.local.dir</name>

<value>/home/ysc/mapreduce/local</value>

</property>

格式化名称节点并启动集群

hadoop namenode -format

启动集群并查看WEB管理界面

start-all.sh

访问http://host001:50030可以查看 JobTracker 的运行状态

访问http://host001:50060可以查看 TaskTracker 的运行状态

访问http://host001:50070可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等

hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -inputinput -output output-streaming -mapper/bin/cat -reducer /usr/bin/wc

hadoop jar hadoop-1.2.1/hadoop-examples-1.2.1.jar wordcount input output

停止集群

stop-all.sh

APDPlat旗下十大开源项目

3
顶

5
踩

分享到：

大数据系列6：HBase – 基于Hadoop的分布 ... | 大数据系列11：Gora – 大数据持久化

2013-10-09 18:39
浏览 12693
评论(2)
分类:互联网
查看更多

2 楼 CoderDream 2013-12-02

不错，感谢分享！

1 楼 YA2012 2013-11-02

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论