`
xiamizy
  • 浏览: 90606 次
  • 性别: Icon_minigender_1
  • 来自: 南京
博客专栏
78437efc-ad8e-387c-847f-a092d52e81a6
spring framew...
浏览量:4895
社区版块
存档分类
最新评论

hadoop 2.3 集群总结

阅读更多

用了近两个礼拜的摸索终于搭建好了hadoop集群,测试性能也符合预期。

centos6.4下hadoop2.3集群总结如下:

关于环境的设置:

             1.关闭selinux (反复折腾了好多次)

               vi /etc/selinux/config

 

SELINUX=disabled

 

 

             2.关闭防火墙

service iptables status
service ip6tables status
service iptables stop
service ip6tables stop
chkconfig iptables off
chkconfig ip6tables off

 

 

             3.对ssh打开免密码登陆设置

                vi /etc/ssh/sshd_config

 

RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile      .ssh/authorized_keys

 

 

             4.设置jdk环境变量

export JAVA_HOME=/usr/local/jdk1.7.0_51
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

update-alternatives --install /usr/bin/java java /usr/local/jdk1.7.0_51/bin/java 60
update-alternatives --config java

   关于经常遇到的问题:

  •    etc/hadoop/hdfs-site.xml 文件中dfs.replication每个节点都需要保持一致

            针对小规模的集群设置为1其实就可以了 执行效率还提高了,没必要是用2份或者3份,反而影响性能

  •      namenode 最好与datanode分开

            因为它是起到管理节点的作用,头节点效率低了,直接影响整个hadoop运行速度以及稳定性

  •     hadoop2.3 对默认的机器硬件要求为4核和8g

           所以在机器性能没有问题的情况下,最好使用默认值,强制使用2核或者1核反而达不到预期效果

  •     hadoop 中针对集群方式,其实所有节点配置都是一样的,增加或减少节点只需要对etc/hadoop/slaves进行配置就可以了。其他的事情hadoop自己来做。

    hadoop常用命令如下:

 

./bin/hdfs dfsadmin -report

./bin/hadoop namenode -format

./bin/hdfs dfs -mkdir -p /export/home/hadoop  

./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input

./sbin/start-dfs.sh &&  ./sbin/start-yarn.sh 

./sbin/stop-yarn.sh && ./sbin/stop-dfs.sh

 

 

./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input1

执行结果有原来的伪分布式的43分钟 

使用集群方式后三个slave,每个slave 4核8,使用1个副本 执行结果为4.5分钟。

 

   针对自己搭建的集群使用vmware workstation 就足够了,没有必要使用exsi 或者其他虚拟化软件,上手时间还快。

    

 

 

 

 

 

 

分享到:
评论

相关推荐

    Hadoop分布式集群配置指南

    Hadoop分布式集群配置指南 Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 ...

    hadoop2.6集群配置

    ### Hadoop 2.6 集群配置详解 ...总结,Hadoop 2.6 集群配置涉及多个环节,从环境准备、基础配置到高级特性(如HA)的启用都需要仔细规划和实施。通过以上步骤,可以构建出一个稳定且功能齐全的Hadoop集群。

    hadoop-2.3-win7配置

    在IT行业中,Hadoop是一个广泛使用的开源框架,用于处理和存储大规模数据集。在这个"**hadoop-2.3-win7配置**"中,我们主要关注的是如何在Windows 7环境下配置...只有正确配置,才能确保Hadoop集群稳定高效地运行。

    Hadoop3.0分布式集群搭建(HA)详细文档.docx

    Hadoop 3.0 分布式集群搭建(HA)详细文档 本资源摘要信息主要介绍了 Hadoop 3.0 分布式集群搭建的详细步骤和要求,从搭建前的准备工作到集群的安装和配置,涵盖了主机规划、软件规划、用户规划、数据目录规划、...

    Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

    总结来说,配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫涉及多个步骤,包括安装和编译软件、配置相关参数、启动服务以及运行爬虫。每个组件的配置都需要细致入微,确保它们能够协同工作。同时,由于不同版本...

    Hadoop集群部署方案.docx

    "Hadoop集群部署方案" Hadoop 集群部署方案是指在分布式系统中部署 Hadoop 集群的详细步骤和配置过程。下面是该方案的详细知识点解释: 1. Hadoop 简介 Hadoop 是Apache软件基金会旗下的开源项目,主要用于大数据...

    hadoop2.4.1集群搭建安装教程

    ### Hadoop 2.4.1 集群搭建安装教程 #### 一、环境准备:Linux系统配置 在开始搭建Hadoop集群之前,首先需要准备好一个稳定的Linux环境。本教程将详细介绍如何在Linux上进行必要的配置。 ##### 1.1 设置主机名 ...

    Hadoop集群部署研究.docx

    2.3 Hadoop 集群的测试与优化一旦集群部署完毕,进行基本的功能测试是非常重要的,如创建文件系统目录、上传数据、运行 MapReduce 示例任务等。这些操作有助于验证 Hadoop 集群的正确性和可用性。同时,根据实际需求...

    Hadoop集群配置及MapReduce开发手册

    **2.3 安装配置Hadoop** - **安装Hadoop**: 将Hadoop的压缩包解压到`/opt/hadoop0200`目录。 - **配置Hadoop**: 编辑Hadoop的配置文件,例如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`等,以适应集群的...

    英特尔Apache Hadoop 软件发行版安装手册2.3

    根据提供的文件信息,本知识点将详细介绍英特尔Apache Hadoop软件发行版安装手册2.3版的内容。 ### 英特尔Apache Hadoop软件发行版安装手册2.3概述 该手册为2013年2月版本,主要目的是提供关于英特尔提供的Apache ...

    Hadoop单机与集群部署笔记.docx

    **2.3 文件同步与集群初始化** - **将文件同步到Slave节点:** - Slave节点解压同步过来的Hadoop软件包。 - **Master节点初始化集群:** - 使用`hadoop namenode -format`命令格式化NameNode。 - 如果启动时报错...

    最新Hadoop集群部署(最全面).docx

    Hadoop集群部署知识点详解 Hadoop集群部署是大数据处理的核心组件之一,正确的部署可以确保集群的高可用性和高性能。本文将详细介绍Hadoop集群部署的各个步骤,并对关键技术点进行解析。 一、先决条件 在开始...

    基于CentOS 7的Hadoop集群配置的研究与实现.docx

    总结全文,讨论Hadoop在大数据处理中的应用前景,以及在CentOS 7上配置Hadoop集群可能遇到的问题和解决策略。同时,对未来Hadoop技术的发展趋势进行展望。 ### 关键词 Hadoop架构、大数据处理、分布式计算、数据...

    细细品味Hadoop_Hadoop集群(第6期)_WordCount运行详解

    ### Hadoop集群中WordCount运行详解 #### 一、MapReduce理论简介 ##### 1.1 MapReduce编程模型概述 MapReduce是一种编程模型,用于处理和生成大型数据集。其核心理念是“分而治之”,即将大规模数据处理任务拆分...

    hadoop集群配置及mapreduce开发手册

    ##### 2.3 安装配置Hadoop - 下载并解压Hadoop到 `/opt` 目录下,并改名为 `hadoop0200`。 - 编辑 `/opt/hadoop0200/conf/hadoop-env.sh` 文件,配置JDK路径: ```sh export JAVA_HOME=/opt/jdk1.7.0 ``` #####...

Global site tag (gtag.js) - Google Analytics