用了近两个礼拜的摸索终于搭建好了hadoop集群,测试性能也符合预期。
centos6.4下hadoop2.3集群总结如下:
关于环境的设置:
1.关闭selinux (反复折腾了好多次)
vi /etc/selinux/config
SELINUX=disabled
2.关闭防火墙
service iptables status service ip6tables status service iptables stop service ip6tables stop chkconfig iptables off chkconfig ip6tables off
3.对ssh打开免密码登陆设置
vi /etc/ssh/sshd_config
RSAAuthentication yes PubkeyAuthentication yes AuthorizedKeysFile .ssh/authorized_keys
4.设置jdk环境变量
export JAVA_HOME=/usr/local/jdk1.7.0_51 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin update-alternatives --install /usr/bin/java java /usr/local/jdk1.7.0_51/bin/java 60 update-alternatives --config java
关于经常遇到的问题:
- etc/hadoop/hdfs-site.xml 文件中dfs.replication每个节点都需要保持一致
针对小规模的集群设置为1其实就可以了 执行效率还提高了,没必要是用2份或者3份,反而影响性能
- namenode 最好与datanode分开
因为它是起到管理节点的作用,头节点效率低了,直接影响整个hadoop运行速度以及稳定性
- hadoop2.3 对默认的机器硬件要求为4核和8g
所以在机器性能没有问题的情况下,最好使用默认值,强制使用2核或者1核反而达不到预期效果
- hadoop 中针对集群方式,其实所有节点配置都是一样的,增加或减少节点只需要对etc/hadoop/slaves进行配置就可以了。其他的事情hadoop自己来做。
hadoop常用命令如下:
./bin/hdfs dfsadmin -report ./bin/hadoop namenode -format ./bin/hdfs dfs -mkdir -p /export/home/hadoop ./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input ./sbin/start-dfs.sh && ./sbin/start-yarn.sh ./sbin/stop-yarn.sh && ./sbin/stop-dfs.sh
./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input1
执行结果有原来的伪分布式的43分钟
使用集群方式后三个slave,每个slave 4核8,使用1个副本 执行结果为4.5分钟。
针对自己搭建的集群使用vmware workstation 就足够了,没有必要使用exsi 或者其他虚拟化软件,上手时间还快。
相关推荐
Hadoop分布式集群配置指南 Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 ...
### Hadoop 2.6 集群配置详解 ...总结,Hadoop 2.6 集群配置涉及多个环节,从环境准备、基础配置到高级特性(如HA)的启用都需要仔细规划和实施。通过以上步骤,可以构建出一个稳定且功能齐全的Hadoop集群。
在IT行业中,Hadoop是一个广泛使用的开源框架,用于处理和存储大规模数据集。在这个"**hadoop-2.3-win7配置**"中,我们主要关注的是如何在Windows 7环境下配置...只有正确配置,才能确保Hadoop集群稳定高效地运行。
Hadoop 3.0 分布式集群搭建(HA)详细文档 本资源摘要信息主要介绍了 Hadoop 3.0 分布式集群搭建的详细步骤和要求,从搭建前的准备工作到集群的安装和配置,涵盖了主机规划、软件规划、用户规划、数据目录规划、...
总结来说,配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫涉及多个步骤,包括安装和编译软件、配置相关参数、启动服务以及运行爬虫。每个组件的配置都需要细致入微,确保它们能够协同工作。同时,由于不同版本...
"Hadoop集群部署方案" Hadoop 集群部署方案是指在分布式系统中部署 Hadoop 集群的详细步骤和配置过程。下面是该方案的详细知识点解释: 1. Hadoop 简介 Hadoop 是Apache软件基金会旗下的开源项目,主要用于大数据...
### Hadoop 2.4.1 集群搭建安装教程 #### 一、环境准备:Linux系统配置 在开始搭建Hadoop集群之前,首先需要准备好一个稳定的Linux环境。本教程将详细介绍如何在Linux上进行必要的配置。 ##### 1.1 设置主机名 ...
2.3 Hadoop 集群的测试与优化一旦集群部署完毕,进行基本的功能测试是非常重要的,如创建文件系统目录、上传数据、运行 MapReduce 示例任务等。这些操作有助于验证 Hadoop 集群的正确性和可用性。同时,根据实际需求...
**2.3 安装配置Hadoop** - **安装Hadoop**: 将Hadoop的压缩包解压到`/opt/hadoop0200`目录。 - **配置Hadoop**: 编辑Hadoop的配置文件,例如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`等,以适应集群的...
根据提供的文件信息,本知识点将详细介绍英特尔Apache Hadoop软件发行版安装手册2.3版的内容。 ### 英特尔Apache Hadoop软件发行版安装手册2.3概述 该手册为2013年2月版本,主要目的是提供关于英特尔提供的Apache ...
**2.3 文件同步与集群初始化** - **将文件同步到Slave节点:** - Slave节点解压同步过来的Hadoop软件包。 - **Master节点初始化集群:** - 使用`hadoop namenode -format`命令格式化NameNode。 - 如果启动时报错...
Hadoop集群部署知识点详解 Hadoop集群部署是大数据处理的核心组件之一,正确的部署可以确保集群的高可用性和高性能。本文将详细介绍Hadoop集群部署的各个步骤,并对关键技术点进行解析。 一、先决条件 在开始...
总结全文,讨论Hadoop在大数据处理中的应用前景,以及在CentOS 7上配置Hadoop集群可能遇到的问题和解决策略。同时,对未来Hadoop技术的发展趋势进行展望。 ### 关键词 Hadoop架构、大数据处理、分布式计算、数据...
### Hadoop集群中WordCount运行详解 #### 一、MapReduce理论简介 ##### 1.1 MapReduce编程模型概述 MapReduce是一种编程模型,用于处理和生成大型数据集。其核心理念是“分而治之”,即将大规模数据处理任务拆分...
##### 2.3 安装配置Hadoop - 下载并解压Hadoop到 `/opt` 目录下,并改名为 `hadoop0200`。 - 编辑 `/opt/hadoop0200/conf/hadoop-env.sh` 文件,配置JDK路径: ```sh export JAVA_HOME=/opt/jdk1.7.0 ``` #####...