`
侯上校
  • 浏览: 225777 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

搭建hadoop2.4.0伪分布式

 
阅读更多

+==========================================搭建伪分布式hadoop===========================


+======================================准备工作/下载及安装软件  开始===========================
  0.下载新新版本的ubuntu
     见网上教程
  1.JDK下载安装
    下载地址:http://download.oracle.com/otn-pub/java/jdk/8u5-b13/jdk-8u5-linux-x64.tar.gz
    减    压:tar –zxvf  jdk-8u5-linux-x64.tar.gz
    环境变量:
    vim /etc/profile
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin: $PATH
验    证:java –version
  2.maven下载安装
    下载地址:http://apache.fayea.com/apache-mirror/maven/maven-3/3.2.1/binaries/apache-maven-3.2.1-bin.tar.gz
    减    压:tar –xvf  apache-maven-3.2.1-bin.tar.gz
    环境变量:
    vim /etc/profile
    export MAVEN_HOME=/opt/hadoop/software/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH
验    证:mvn –version
  3.ProtoclBuffer下载安装
    下载地址:https://code.google.com/p/protobuf/downloads/detail?name=protobuf-2.5.0.tar.gz&can=2&q=
    减    压:tar –xvf  protobuf-2.5.0.tar.gz
    安    装:
              ./configure --prefix=/opt/hadoop/software/protobuf
              make
              make install
    环境变量:
    vim /etc/profile
    export PROTOC_HOME=/opt/hadoop/software/protobuf
PATH=$PROTOC_HOME/bin:$PATH
验    证:protoc –-version
  4.CMake下载安装
    下载地址:http://www.cmake.org/files/v2.8/cmake-2.8.12.2.tar.gz
    减    压:tar –xvf  cmake-2.8.12.2.tar.gz
    安    装:
    ./bootstrap –prefix=/home/hadoop/software/cmake
    make
    make install
    环境变量:
    vim /etc/profile
    export CMAKE_HOME=/opt/hadoop/software/cmake
PATH=$ CMAKE_HOME/bin:$PATH
验    证:cmake –version
5.安装其他依赖软件
  yum install openssl-devel
yum install ncurses-devel
  6.hadoop源码下载编译安装
    下载地址:http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.4.0/hadoop-2.4.0-src.tar.gz
    减    压:tar –xvf  hadoop-2.4.0-src.tar.gz
    编    译:
              目录/opt/hadoop/hadoop-2.4.0-src中,执行命令
mvn package -DskipTests -Pdist,native

进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
    环境变量:
    vim /etc/profile
    export HADOOP_PREFIX=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$PATH:HADOOP_PREFIX/bin
  7.配置SSH免密码登陆
    生成公钥和私钥
ssh-keygen -t rsa
进入 ~/.ssh 目录
cat id_rsa.pub >> authorized_keys
然后使用ssh localhost命令测试ssh是否配置正确
8.hadoop伪分布式配置
  A.进入cd hadoop-2.4.0/etc/hadoop/
  给所有的.sh 文件增加可执行权限
  chmod +x *.sh
  B.修改hadoop-env.sh
    vim hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
修改为
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
  C.修改core-site.xml;注意:配置hdfs://localhost:9000中hadoop是主机名称, 使用hostname命令查看
    在configuration节点中增加
<property>
          <name>fs.defaultFS</name>
          <value>hdfs://localhost:9000</value>
      </property>
      <property>
          <name>hadoop.tmp.dir</name>
          <value>/opt/hadoop/hadoop/hadoop-2.4.0/data/tmp</value>
      </property>
    D.修改hdfs-site.xml
      在configuration节点中增加
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
  E.修改yarn-site.xml
    在configuration节点中增加
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.resourcemanager.address</name>
    <value>localhost:8032</value>
</property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>localhost:8031</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hadoop:8033</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>localhost:8030</value>
</property>
<property>
    <name>yarn.web-proxy.address</name>
    <value>localhost:8888</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
9.启动hadoop
  A.格式化namenode
    进入到hadoop安装目录的bin目录下执行:./hadoop namenode –format
  B.启动伪分布式集群
    进入到hadoop安装目录的sbin目录下执行:./start-all.sh
  C.查看启动是否成功
    执行jps命令成功结果如下:
    7552 Jps
6858 SecondaryNameNode
6380 NameNode
6601 DataNode
7038 ResourceManager
7281 NodeManager


10.浏览器访问查看集群状态
    http://localhost:50070
    查看resourcemanager上cluster运行状态
    http://http://hadoop1:8088/cluster:8088/cluster
11.运行hadoop自带的WordCount小程序(进入到hadoop安装目录的bin目录下)
    第一步:./hadoop fs -mkdir -p myIn 在HDFS上创建文件夹myIn
    第二步:本地目录下..创建几个文本文件,然后在里边写入单词, 如:fileA.txt, fileB.txt.
    第三步:./hadoop fs -put file*.txt myIn  //  将刚才的几个文件放入到hadoop的文件系统之中
    第四步:./hadoop fs -cat input/file01.txt   //查看刚刚文本中内容命令
    第五步:执行
            ./hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
      第六步:hadoop fs -ls output会显示生成的结果文件中
      第七步:./hadoop fs -cat output/part-r-00000
      第八步: (localhost:8088可以查看到正在运行任务的进度等信息)
      第九步:hadoop中HDFS操作命令官网地址:  http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#lsr
+======================================准备工作/下载及安装软件  结束===============

或者:
sudo apt-get install maven
sudo apt-get install protobuf-compiler
sudo apt-get install cmake
sudo apt-get install zlib1g.dev
sudo apt-get install g++
sudo apt-get install libglib2.0-dev
sudo apt-get install libssl-dev

+======================================过程中遇到问题及解决办法=========开始===================
  1.新建用户后终端只显示user@hostname ~, 正常(root@hadoop1:/usr/local/hadoop/sbin#)
    解决:查看/etc/passwd该配置文件中,你新建的用户用的是不是bash,不是的话就改过来/  /.bashrc里面加上PS1="[\u@\h \W]\$"就可以了
  2.格式化结点(数据结点也启不来) ./hadoop namenode -format
    解决:把/opt/hadoop/hadoop2.4.0/data目录全部干掉, 因为之前已经格式化过了
  3.ubuntu安装完成后, 如果是代理下上网的话,需要设置一下火狐浏览器的代理
  4.修改主机名称
    /etc/hostname文件中内容重启机器(utuntu),重启系统查看
  5.执行./hdfs dfsadmin -report 后如下错误:
    WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform
    ??:可能是由于apache提供的32位hadoop版本, 而我们在64位机器上装, 需要在64位下编译
  6.其它就是一些linux系统配置等问题
+======================================过程中遇到问题及解决办法==========结束=========================
分享到:
评论

相关推荐

    云服务器上搭建大数据伪分布式环境

    #### 一、云服务器上搭建Hadoop伪分布式环境 ##### 1、软硬件环境 - **操作系统**: CentOS 7.2 64位 - **Java版本**: OpenJDK-1.8.0 - **Hadoop版本**: Hadoop-2.7 ##### 2、安装SSH客户端 为了能够在本地或其他...

    hadoop-2.4.0.tar.gz

    要搭建一个本地或分布式Hadoop环境,您需要按照官方文档或相关教程进行配置,主要包括设置环境变量、修改配置文件(如core-site.xml、hdfs-site.xml和mapred-site.xml)、格式化NameNode以及启动Hadoop服务。...

    Hadoop 2.4 完全分布式环境安装与配置

    ### Hadoop 2.4 完全分布式环境安装与配置 #### 一、前置准备:Java环境搭建 在安装Hadoop之前,首先需要确保已经安装了Java环境,因为Hadoop是基于Java编写的。 1. **下载Java JDK** 从Oracle官方网站下载JDK ...

    伪分布式基于hadoop3.1.3生态环境大数据集群

    spark=2.4.0 sbt=1.3.8 flink=1.9.1 maven=3.6.3 建议配合主机的IntelliJ-IDEA的Bigdata拓展工具以及SSH服务进行远程操控使用。 3.本机密码都是“hadoop”。 4.mysql5.7用户名为"root",密码为"hadoop"。 5.使用...

    hadoop-2.4.0-part0

    1. **Hadoop安装和配置**:可能包含Hadoop 2.4.0的安装指南,包括环境配置、集群搭建、伪分布式模式或完全分布式模式的设置等。 2. **Hadoop核心组件**:Hadoop主要由HDFS(Hadoop Distributed File System)和...

    Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

    在搭建Hadoop-2.4.0集群时,首先需要确保系统已安装必要的依赖包和工具,包括Maven 3.0或更高版本,Findbugs 1.3.9(如果要运行findbugs),ProtocolBuffer 2.5.0以及CMake 2.6或更新版本(如果要编译本地代码)。...

    hadoop-common-2.4.0-win7编译

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop Common是Hadoop项目的基础组件,包含了所有Hadoop模块共用的类库和工具,它为整个Hadoop生态系统提供了一系列通用服务。在...

    spark-2.4.0-bin-hadoop2.7

    《Spark 2.4.0 与 Hadoop 2.7 深度解析》 Apache Spark 是一个用于大规模数据处理的开源计算框架,它以其高效、易用和多模式的特点,深受大数据处理领域的青睐。Spark 2.4.0 版本是其发展过程中的一个重要里程碑,...

    hadoop-2.4.1版本大数据

    本文将深入探讨Hadoop 2.4.1在大数据处理中的应用,以及如何搭建一个单机模拟分布式Hadoop环境。 一、Hadoop概述 Hadoop是由Apache基金会开发的一个开源项目,其设计灵感来源于Google的MapReduce和GFS(Google ...

    从零教你在Linux环境下编译hadoop2.4及hadoop2.4汇总

    Hadoop 是一个能够对大量数据进行分布式处理的软件框架,它将大数据分割成小块并分布在集群中的不同节点上进行计算。本文将详细介绍如何在 Linux 环境下(以 Ubuntu 为例)从零开始编译 Hadoop 2.4 版本,并解决编译...

    Hadoop研究报告

    通过以上内容,我们可以了解到,搭建Hadoop单机云平台不仅需要对Hadoop本身的安装和配置有深刻理解,还需要掌握与之相关的子组件集成技术,以及对搜索功能的优化和扩展。 总结以上知识点,Hadoop作为一个强大的大...

    Ubuntu14.pdf

    在搭建Hadoop集群的过程中,首先我们需要在Ubuntu 14.04系统上进行一系列的准备工作。本文将详细讲解如何创建Hadoop用户组、用户,安装JDK,配置SSH无密码登录,以及安装和配置Hadoop 2.4.0。 1. **创建Hadoop用户...

    hadoop-2.6.0.tar.gz&hadoop-2.6.0-cdh5.16.2.tar.gz

    用户可以通过解压此文件,编译安装来搭建自己的Hadoop环境,进行分布式计算和数据存储。这个版本还包含了其他相关工具,如Hadoop命令行工具、Hadoop守护进程等,用于管理和操作Hadoop集群。 而hadoop-2.6.0-cdh...

    Ubuntu14.docx

    Ubuntu 14.04作为一个稳定且广泛使用的Linux发行版,是搭建Hadoop集群的理想选择。本文将详细阐述如何在Ubuntu 14.04上进行Hadoop集群的搭建。 ### 1. 用户与权限设置 #### 1.1 创建Hadoop用户组 首先,为了管理...

    Linux下搭建spark.docx

    以上就是Linux环境下搭建Spark开发环境的详细步骤,包括JDK、Scala、Hadoop的安装配置,以及Spark的分布式集群搭建。记得在每个步骤完成后进行相应的测试,确保环境的正确性。同时,搭建过程中遇到问题,可以参考...

    实验报告模板 - 大数据应用-实验七.docx

    实验环境搭建在Linux操作系统上,采用Hadoop 3.1.3、JDK 1.8和Spark 2.4.0版本。 ### 实验环境配置 1. **操作系统**:推荐使用Ubuntu 16.04或18.04,因其稳定性和对开源软件的良好支持。 2. **Hadoop**:Hadoop ...

    spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址

    Spark是大数据处理领域的一款热门框架,它提供了高效、弹性、分布式的计算能力。Hive则是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Spark与Hive的集成,使得用户...

Global site tag (gtag.js) - Google Analytics