`
zz_19830103
  • 浏览: 15338 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop学习与实践

阅读更多

由于工作需要开始研究测试hadoop,记录一下学习过程,大家一起交流一下。

 

1、hadoop的介绍我就不多说了,google一下有很多。

 

2、下载hadoop相关软件,包括了hadoop-0.20.203.0rc1.tar.gz、hive-0.7.0.tar.gz、pig-0.8.1.tar.gz,由于我们暂时不使用Hbase,所以没有下载Hbase,有兴趣的童鞋可以自己下载玩一玩。

 

3、安装部署,测试的部署结构如下:

10.0.2.49 NameNode JobNode

10.0.2.47 DataNode TaskNode

10.0.2.50 DataNode TaskNode

1)、首先分别在三台机器上创建hadoop用户;上传hadoop-0.20.203.0rc1.tar.gz分别到三台机器的hadoop目录下。

 

 

以下在10.0.2.49上完成

2)、上在hadoop主目录下创建hadoop文件夹,解压缩hadoop安装包到hadoop的目录下,切换到hadoop-0.20.203.0下显示的目录为:/home/hadoop/hadoop/hadoop-0.20.203.0

 

3)、切换到conf目录下,创建hadoop-site.xml文件,大致内容如下:

<configuration> 

 <property>

    <name>fs.default.name</name>

    <value>hdfs://10.0.2.49:9000/</value>

  </property>

  <property> 

    <name>mapred.job.tracker</name> 

    <value>10.0.2.49:9010</value> 

  </property> 

  <property> 

    <name>dfs.replication</name> 

    <value>1</value> 

  </property> 

  <property>    

        <name>hadoop.tmp.dir</name> 

                <value>/home/hadoop/hadoop/tmp</value>

  </property>

  <property>   

        <name>mapred.child.java.opts</name> 

                <value>-Xmx512m</value>

  </property>

  <property>  

        <name>dfs.block.size</name>

        <value>5120000</value>  

        <description>The default block size for new files.</description>

  </property>

  <property>

        <name>dfs.datanode.max.xcievers</name>

        <value>4096</value>

      </property>

</configuration>

详细属性配置以后再解释,主要是fs.default.name指定NameNode位置,指明JobNode位置,hadoop.tmp.dir指明临时文件夹位置,编辑完文件保存。

 

4)、编写slaves文件,填写如下:

10.0.2.50

10.0.2.47

指定从属节点ip,从属节点完成DataNode和TaskNode的任务。

 

5)、编写masters文件,指定NameNode节点ip

10.0.2.49

 

以下内容在其他机器上完成

6)、按照如上方法配置其他机器。

 

4、创建临时文件夹/home/hadoop/hadoop/tmp。

 

5、格式化存储数据文件,调用hadoop_home下的hadoop命令,“hadoop namenode -format” 如果出现java找不到,需要修改conf/hadoop-env.sh中的“# export JAVA_HOME=/usr/lib/j2sdk1.5-sun” 为你自己的jdk位置,要求是1.6以上版本。没有异常则表明已经格式化好了。

 

6、启动Hdfs,在10.0.2.49机器上,使用命令bin/start-dfs.sh启动,注意该命令会调用ssh访问slaves文件中指定的ip启动其他从属节点的hadoop进程,所以需要输入密码,用户名使用的是当前用户名。

 

7、启动MapReduce,在10.0.2.49机器上,使用命令bin/start-mapred.sh启动,该命令同样调用ssh。

 

8、启动完成标识,在slaves机器上的进程如下:

889 DataNode

1061 TaskTracke

在master机器上的进程如下:

2885 JobTracker

2573 NameNode

2759 SecondaryNameNode

也可以用http://10.0.2.49:50070查看文件系统,使用http://10.0.2.49:50030/查看任务情况。

 

到目前为止Hadoop系统就算启动成功了

 

 

 

 

 

 

0
1
分享到:
评论

相关推荐

    Hadoop学习资料

    Hadoop作为开源分布式系统...涵盖了Hadoop的学习资料、版本历史、生态圈、安装、HDFS、MapReduce、Zookeeper、HBase、Hive、Storm以及数据挖掘和推荐系统等多个方面,为学习和使用Hadoop提供了全面的理论和实践知识。

    Python+Spark 2.0+Hadoop机器学习与大数据

    《Python+Spark 2.0+Hadoop机器学习与大数据》是一本深入探讨大数据处理与机器学习技术结合的著作。作者林大贵以其丰富的经验,详细介绍了如何利用Python、Spark 2.0以及Hadoop这一组合来构建高效的数据分析解决方案...

    java及hadoop学习资料

    这份“java及hadoop学习资料”压缩包提供了丰富的学习资源,帮助初学者或进阶者深入理解和掌握这两个领域的核心概念。 Java部分: 1. **Java基础知识**:Java的学习通常从基础语法开始,包括数据类型、变量、控制...

    最新Hadoop学习笔记

    综上所述,这份“最新Hadoop学习笔记”涵盖了从环境搭建到项目实践的全过程,旨在帮助读者全面掌握Hadoop的核心技术和应用方式。通过阅读和实践,你将能够熟练地在大规模数据集上进行高效计算和存储。

    Hadoop学习必看路线图2.pdf

    ### Hadoop学习必看路线图概览 #### 一、Linux与Python基础 - **Linux安装及基本操作**:这是Hadoop学习的基础,包括Linux系统的安装、常用的命令行操作(如文件管理、进程管理等)。熟悉Linux环境对于后续的学习...

    hadoop学习整理的文档

    【标题】:“Hadoop学习整理的文档” 【文档概述】: Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要用于处理和存储大规模数据。这个文档集合可能是针对Hadoop初学者或者希望深入理解Hadoop生态系统...

    《Hadoop系统搭建及项目实践》课程标准.pdf

    教材需要与时俱进,及时反映Hadoop及相关技术的最新发展,而评价机制则需全面考虑学生的理论学习和实践操作能力,通过期末考核与平时成绩相结合的方式,公正地评价每位学生的综合表现。 总体而言,《Hadoop系统搭建...

    Hadoop入门学习文档

    ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间...对于希望进入大数据领域的技术人员来说,掌握Hadoop的基础知识和实践技能是非常必要的。

    hadoop学习资料书

    【Hadoop学习资料书】 Hadoop是大数据处理领域的一个核心框架,由Apache软件基金会开发,以其分布式计算模型和高容错性而闻名。本学习资料书主要针对Hadoop的初学者,旨在提供全面的基础知识解析,帮助读者快速掌握...

    hadoop学习资料(一)

    总之,Hadoop学习资料(一)将带你从基础概念到实践操作,全面掌握Hadoop的核心技术和应用场景。通过系统地学习和实践,你将能够熟练运用Hadoop解决大数据处理中的各种问题,为你的职业生涯开辟新的道路。

    hadoop学习资料

    与孙老师交流Hadoop学习方法也是一种宝贵的学习机会。在学习过程中遇到问题时,可以向孙老师请教,获取及时的帮助和支持。此外,加入相关的学习社区或论坛,与其他学习者互动交流,也是提高学习效率的有效途径之一。...

    实验2-Hadoop安装与HDFS基础实践.nbn.zip

    通过学习Hadoop,我们可以理解如何在分布式环境下存储和处理海量数据。 一、Hadoop简介 Hadoop是由Apache软件基金会开发的一个开源框架,它允许在廉价硬件上进行大规模数据处理。Hadoop的主要设计目标是高容错性、...

    Hadoop学习之路(三)Hadoop-2.7.5在CentOS-6.7上的编译

    ### Hadoop-2.7.5在CentOS-6.7上的编译...Hadoop的学习和实践不仅可以帮助我们更好地理解大数据处理的原理和技术细节,还能为后续进行更高级的大数据平台搭建奠定坚实的基础。希望本文能够对您的学习和工作有所帮助。

    hadoop学习资料汇总

    这份资料汇总可能包含了Hadoop的基础教程、实战案例、API文档、最佳实践指南等,这些都是深入学习Hadoop的宝贵资源。你可以通过链接(https://blog.csdn.net/qq_33417321/article/details/82662973)获取更多更新的...

    Hadoop_入门实践

    《Hadoop 入门实践》 Hadoop 是一个开源的分布式计算框架,由Apache软件基金会维护,...通过《Hadoop 入门实践》的学习,你将不仅理解Hadoop的基本原理,还能掌握实际操作技能,为在大数据领域深入探索打下坚实基础。

    Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件.rar

    《Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件》是一个关于Hadoop在大数据处理领域的核心课程资源。这个压缩包包含了丰富的教学资料,帮助学习者深入理解和掌握Hadoop生态系统的核心概念和技术。...

    《Python+Spark2.0+Hadoop机器学习与大数据实战》练习.zip

    《Python+Spark2.0+Hadoop机器学习与大数据实战》是一本深入探讨大数据处理和机器学习技术的书籍。在本书的练习部分,作者通过实际案例帮助读者掌握Python、Spark 2.0以及Hadoop的核心概念和技术。这些技术是当前大...

    Hadoop学习时间轴

    根据提供的信息,我们可以详细地解析出关于Hadoop学习时间轴中的关键知识点,这些知识点主要集中在Hadoop的基础架构、MapReduce工作原理以及Hive在实际应用中的优化等方面。 ### Hadoop学习时间轴概述 Hadoop是一...

    Hadoop 学习与安装

    本篇文章将基于“Hadoop学习与安装”这一主题,详细阐述Hadoop的核心概念、架构及其配置文件的解读,以帮助初学者快速入门。 Hadoop是一个开源的分布式计算框架,最初由Apache软件基金会开发,旨在处理和存储大量...

Global site tag (gtag.js) - Google Analytics