`
wa114d
  • 浏览: 835 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

Hadoop实战-初级部分 之 Hadoop安装部署

阅读更多
第一部分:Hadoop 在windows 上伪分布式的安装过程
安装JDK
1.下载JDK
       http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html
2.解压
   或者直接运行.exe安装
后面根据项目的实际需要来进行调整。
安装 Cygwin
1.下载Cygwin
    网址: http://www.cygwin.com/setup.exe
2.安装Cygwin
1. Net Category 下的OpenSSL
2.    Base Category 下的sed
3.Editors Category 下的vim
4.Devel Category  下subversion
后面根据项目的实际需要来进行调整。

配置环境变量
1.配置JAVA 环境变量
    PATH 和JAVA_HOME:
        JAVA_HOME 指向JDK安装目录;
        PATH 指向JDK的bin

启动 SSHD 服务
1.安装SSHD
   ssh-host-config
2. 启动SSHD
    net start sshd
ssh 的安装和配置
实现ssh无密码登陆
$ssh-keygen -t rsa 
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

安装 Hadoop
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
配置 Hadoop
1. 配置hadoop-env.sh
2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件
概念
HDFS:
      NameNode  :管理节点
      DataNode   :数据节点
      SecondaryNamenode : 数据源信息备份整理节点

MapReduce
       JobTracker  :任务管理节点
       Tasktracker  :任务运行节点

配置文件
       core-site.xml   common属性配置
       hdfs-site.xml    HDFS属性配置
       mapred-site.xml  MapReduce属性配置
       hadoop-env.sh     hadooop 环境变量配置
修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25
core-site.xml

java代码:
查看复制到剪贴板打印
<configuration>      
<property>   
       <name>fs.default.name</name>   
       <value>hdfs://localhost:9000</value>   
</property>   
<property> 
       <name>hadoop.tmp.dir</name> 
        <value>/hadoop</value> 
     </property> 
</configuration>   

hdfs-site.xml
 
java代码:
查看复制到剪贴板打印
<configuration>      
   <property>   
         <name>dfs.replication</name>   
         <value>1</value>   
    </property>   
</configuration>   
mapred-site.xml
java代码:
查看复制到剪贴板打印
<configuration>      
    <property>   
         <name>mapred.job.tracker</name>   
         <value>localhost:9001</value>   
    </property>   
</configuration>   

启动 Hadoop
1.格式化文件系统
      hadoop namenode –format
2. 启动hadoop
      启动所有任务start-all.sh/stop-all.sh
      启动关闭HDFS: start-dfs.sh/stop-dfs.sh
      启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh     
3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker
     
第二部分:Hadoop 在linux  上单节点伪分布式的安装过程
安装 JDK
$chmod +x jdk-6u27-linux-i586.bin
$./jdk-6u27-linux-i586.bin
安装完后设置java 环境变量如下
命令 :/home路径下
$vi .bashrc
然后添加如下语句
export JAVA_HOME=/home/test/ jdk1.6.0_27
export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.
然后. .bashrc使其生效

ssh 的安装和配置
$实现ssh无密码登陆
$sudo apt-get install ssh
$ssh-keygen
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机


Hadoop 安装
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
3. 添加Hadoop Bin到环境变量中

修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25


conf/core-site.xml

java代码:
查看复制到剪贴板打印
<configuration>      
    <property>   
          <name>fs.default.name</name>   
          <value>hdfs://localhost:9000</value>   
      </property>   
      <property> 
           <name>hadoop.tmp.dir</name> 
           <value>/hadoop</value> 
       </property> 
</configuration>   

conf/hdfs-site.xml

java代码:
查看复制到剪贴板打印
<configuration>      
   <property>   
         <name>dfs.replication</name>   
         <value>1</value>   
    </property>   
</configuration>   

conf/mapred-site.xml

java代码:
查看复制到剪贴板打印
<configuration>      
     <property>   
         <name>mapred.job.tracker</name>   
         <value>localhost:9001</value>   
    </property>   
</configuration>   
启动 Hadoop
1.格式化文件系统
      hadoop namenode –format
2. 启动hadoop
     启动关闭所有服务 start-all.sh/stop-all.sh
     启动关闭HDFS: start-dfs.sh/stop-dfs.sh
     启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh
3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker
     
第三部分:Hadoop UI 介绍
Hadoop 重要的端口
1.Job Tracker 管理界面:50030
2.HDFS 管理界面 :50070
3.HDFS通信端口:9000
4.MapReduce通信端口:9001
常用访问页面
1. HDFS 界面
        http://hostname:50070
2. MapReduce 管理界面
        http://hostname:50030

第四部分:运行Word Count 示例
相关步骤及命令
1.先在本地磁盘上建立两个文件file1和file2
      $ echo ”Hello world Bye world" > >~/input/file1
      $ echo ”hello hadoop bye hadoop” > >~/input/file2
2.在HDFS上建立一个input目录
       $ hadoop fs -mkdir /tmp/input
3.将file1和file2拷贝到hdfs的input目录下
       $ hadoop fs -put input/* /tmp/input
4.检查hdfs上有没有file1,file2
     $ hadoop fs -ls /tmp/input
5.执行wordcount
   hadoop jar hadoop-examples-1.0.0.jar wordcount  /tmp/input  /tmp/output
6.运行完成,查看结果
   hadoop fs -cat /output/part-r-00000


第五部分:集成 Eclipse 开发环境
通过 Eclipse 编写 Hadoop 程序
1.导入hadoop-core.jar及hadoop/lib下所有Jar包
2.加入Hadoop配置文件,包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。
本节课程小结
掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装
初次体验了Hadoop运行的WordCounter程序
了解了Hadoop UI
掌握了Hadoop 集成到 Eclipse的情况
私塾在线学习网原创内容,转载请注明出处【 http://sishuok.com/forum/blogPost/list/0/5337.html】
分享到:
评论

相关推荐

    hadoop完整资料下载

    1. **初级阶段**:理解Hadoop的基本概念,包括HDFS的工作原理、MapReduce的执行流程,以及Hadoop集群的安装与配置。此外,还会学习如何使用Hadoop命令行工具进行数据操作。 2. **中级阶段**:深入理解HDFS的文件...

    实验七:Spark初级编程实践

    【Spark 初级编程实践】 Spark 是一个分布式计算框架,常用于大数据处理,它提供了高效的数据处理能力,包括批处理、交互式查询、实时流处理等。本实验旨在通过实践操作,让学生熟悉 Spark 的基本使用,包括安装...

    大数据技术基础实验报告-MapReduce编程.doc

    配置Hadoop-Eclipse-Plugin是实验的关键部分。确保Hadoop已经启动,然后在Eclipse中进行设置。首先,选择`Window`菜单,进入`Preference`,接着切换到Map/Reduce开发视图。在CentOS系统中,可能需要通过`Window -&gt; ...

    “1+X”大数据平台运维职业技能等级证书实验指导手册(初级).zip

    6. **第16章:大数据平台及组件安装部署** - 这一章全面介绍了大数据平台的搭建过程,包括各个组件的安装、配置和集成,让学习者具备独立部署大数据平台的能力。 7. **第17章:大数据平台运行与应用实战** - 通过...

    大数据课程列表.pdf

    5. **Hadoop部署进阶**:进一步深入Hadoop集群的搭建,对Hadoop分布式文件系统(HDFS)进行深度剖析,并学习使用HDFS API进行文件操作。 6. **MapReduce**:MapReduce是Hadoop的核心计算框架,课程讲解其工作原理、...

    799 大数据72年是大数据云数据的时代经典学习路线.docx

    - 学习搭建Hadoop数据分析系统集群,包括服务器配置、JDK安装、Hadoop集群部署和Hive的配置与测试。 通过这个学习路线,你将能够搭建海量数据的离线计算平台,根据业务需求设计存储方案,并实现MapReduce分布式...

    大数据学习进阶实战大纲,学习路径

    以下是一个详细的学习进阶实战大纲,旨在帮助你从初级到高级逐步提升技能,避免在不重要的知识点上浪费时间。 第一阶段,你将深入学习Java SE核心知识。这部分涵盖Java编程的基础,如变量、数据类型、数组、运算符...

    Zookeeper分布式系统开发实战[借鉴].pdf

    本课程以实操为主,讲解的核心内容包括:系统模型、客户端的使用、选举算法、集群安装/部署、Zookeeper的运维、Watcher等。 课程大纲: 第1课:Zookeeper熟悉和用途综述 * Zookeeper基础知识 * 体系结构 * 数据...

    基于spark的电影点评系统

    5. 测试与部署模块:包括单元测试和集成测试,以及部署脚本。 总的来说,这个基于Spark的电影点评系统展示了如何利用大数据技术处理用户行为数据,实现高效的数据分析和个性化推荐。通过深入学习Spark的相关知识,...

    程序员面试个人简历(JAVA).doc

    在大数据处理领域,工程师熟悉Hadoop体系结构,能部署和配置Hadoop分布式集群,理解HDFS和MapReduce的工作机制,并具备初步的Hadoop应用开发能力。 简历中提到了一个具体的项目——裕隆佳田商贸综合管理系统,该...

Global site tag (gtag.js) - Google Analytics