`

hadoop 实战

阅读更多

 


在装Hadoop之前首先需要: 
1.java1.6.x 最好是sun的,1.5.x也可以 
2.ssh 
安装ssh 

$ sudo apt-get install ssh 
$ sudo apt-get install rsync 


下载Hadoop 
从http://hadoop.apache.org/core/releases.html 下载最近发布的版本 

最好为hadoop创建一个用户: 
比如创建一个group为hadoop user为hadoop的用户以及组 

$ sudo addgroup hadoop 
$ sudo adduser --ingroup hadoop hadoop 

解压下载的hadoop文件,放到/home/hadoop目录下 名字为hadoop 
配置JAVA_HOME: 

gedit ~/hadoop/conf/hadoop-env.sh 

将 

Java代码 
# The java implementation to use.  Required. 
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun 

修改成java的安装目录:(我的是:/usr/lib/jvm/java-6-sun-1.6.0.15) 

# The java implementation to use. Required. 
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.15 


现在可以使用单节点的方式运行: 

$ cd hadoop 
$ mkdir input 
$ cp conf/*.xml input 
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 
$ cat output/* 

Pseudo-distributed方式跑: 

配置ssh 

$ su - hadoop 
$ ssh-keygen -t rsa -P "" 
Generating public/private rsa key pair. 
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 
Created directory '/home/hadoop/.ssh'. 
Your identification has been saved in /home/hadoop/.ssh/id_rsa. 
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub. 
The key fingerprint is: 
9d:47:ab:d7:22:54:f0:f9:b9:3b:64:93:12:75:81:27 hadoop@ubuntu 


让其不输入密码就能登录: 

hadoop@ubuntu:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 

  使用: 

$ ssh localhost 

看看是不是直接ok了。 


hadoop配置文件: 
conf/core-site.xml 

Java代码 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 

<!-- Put site-specific property overrides in this file. --> 

<configuration> 
   <property> 
    <name>hadoop.tmp.dir</name> 
        <value>/home/hadoop/hadoop-datastore/hadoop-${user.name}</value> 
   </property> 
   <property> 
    <name>fs.default.name</name> 
    <value>hdfs://localhost:9000</value> 
   </property> 
</configuration> 

hadoop.tmp.dir配置为你想要的路径,${user.name}会自动扩展为运行hadoop的用户名 

conf/hdfs-site.xml 

Xml代码 
<configuration> 
  <property> 
    <name>dfs.replication</name> 
    <value>1</value> 
  </property> 
</configuration> 

dfs.replication为默认block复制数量 
conf/mapred-site.xml 

Xml代码 
<configuration> 
  <property> 
    <name>mapred.job.tracker</name> 
    <value>localhost:9001</value> 
  </property> 
</configuration> 

执行 

格式化分布式文件系统: 

$ bin/hadoop namenode -format 

启动hadoop: 

Java代码 
$ bin/start-all.sh 

可以从 

NameNode - http://localhost:50070/ 
JobTracker - http://localhost:50030/ 

查看NameNode和JobTracker 

运行例子: 


$ bin/hadoop fs -put conf input 
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 

look at the run result: 
$ bin/hadoop fs -get output output 
$ cat output/* 


大家可参考: 1、http://hadoop.apache.org/common/docs/current/quickstart.html 
2、http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_%28Single-Node_Cluster%29

分享到:
评论

相关推荐

    Hadoop实战大数据大作业

    ### Hadoop实战大数据大作业——基于Hadoop的单词统计系统 #### 一、课题简介与研究意义 **课题简介:** 本课题旨在设计一个简单的基于Hadoop平台进行的单词统计系统。该系统需要自行搭建Hadoop伪分布式架构,并...

    大数据云计算技术 hadoop实战培训(共56页).ppt

    【大数据云计算技术 hadoop实战培训】的PPT深入解析了如何应对海量数据处理的挑战,以及Hadoop在其中的关键作用。大数据是指无法用传统数据库管理工具处理的大量、高速、多样的信息资产,而云计算则提供了按需分配...

    hadoop 实战 中文版 韩冀中

    《Hadoop实战》是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、...

    hadoop实战源代码Java

    总之,`hadoop实战源代码Java`提供了学习和实践Hadoop与Java集成的机会,这对于大数据开发者来说是非常宝贵的资源。通过深入研究这些示例代码,你可以更好地理解Hadoop的API用法,提升处理大数据的能力。在实践中,...

    hadoop 实战 中文版

    《Hadoop实战》中文版是一本深入探讨Apache Hadoop生态系统技术的书籍,旨在帮助读者理解和掌握分布式计算的核心概念以及在实际项目中的应用。Hadoop Action是本书的副标题,暗示了其强调实践性的特点,旨在通过具体...

    hadoop 实战 dev_03

    标题中的知识点:Hadoop实战dev_03 内容概述:本次分享是关于Hadoop实战的第三部分,专注于Hadoop系统的应用开发实例。 知识点详细说明: 1. Hadoop系统:Hadoop是一个能够存储和处理大量数据的分布式系统框架,是...

    hadoop 实战 dev_02

    Hadoop实战课程知识点: 1. Hadoop系统概览:Hadoop是一个开源的分布式存储计算框架,能够处理大量数据,是大数据处理技术中的核心组件。它通常与HDFS(Hadoop Distributed File System,分布式文件系统)和...

    hadoop 实战 dev_04

    标题:“Hadoop 实战 dev_04”指的是Hadoop实战教程的第四部分。Hadoop是Apache软件基金会的开源框架,允许使用简单编程模型跨分布式环境存储和处理大数据。由于文件信息明确表示这是课程的第四部分,我们可以推断...

    hadoop 实战开发

    《Hadoop实战开发》是针对大数据处理领域的重要书籍,尤其对于初学者和进阶者来说,它是理解并掌握Hadoop生态系统的关键资源。本篇将基于书名和描述,结合相关标签,深入探讨Hadoop的核心概念、实战应用以及高级编程...

    hadoop 实战 dev_05~dev_08

    在本压缩包文件“hadoop 实战 dev_05~dev_08”中,包含的是关于Hadoop实战的学习资料,涵盖了Hadoop系统的第五、六、七和第八个部分。这些部分是深入理解和掌握Hadoop分布式计算框架的关键,旨在帮助用户从理论到...

    hadoop实战教程.doc

    【Hadoop实战教程】 Hadoop,诞生于2006年,是由Nutch和Lucene的创始人Doug Cutting完成的一个开源项目。这个名字源于Cutting小儿子对一只玩具象的发音,与Google的名字来源有着异曲同工之妙。历经5年的开发,...

    hadoop实战培训.ppt

    hadoop实战培训.ppt

    hadoop权威指南及实战.rar

    《Hadoop实战掌握》则更侧重于实践,通过一系列实例引导读者熟悉Hadoop的安装配置、数据操作、作业调度、性能优化等环节。这本书涵盖了Hadoop生态系统中的其他重要组件,如HBase(分布式数据库)、Hive(数据仓库...

    hadoop实战培训.pptx

    hadoop实战培训.pptx

    Hadoop实战之Hadoop完全分布式集群安装.pdf

    Hadoop实战之Hadoop完全分布式集群安装.pdf

    Hadoop 实战英文版

    Hadoop 实战书籍, 非常不错的一本书. 指的学习. 希望各位喜欢

    大数据云计算技术 hadoop实战培训(共56页).rar

    本篇将基于“大数据云计算技术 hadoop实战培训”的主题,深入探讨Hadoop的相关知识。 首先,我们要了解什么是大数据。大数据是指无法用传统数据处理方法进行有效管理和分析的海量、高速度和多样性的信息资产。它...

    实战hadoop中的源码

    【标题】"实战hadoop中的源码"涵盖了在大数据处理领域深入理解并应用Apache Hadoop的核心技术。Hadoop是开源的分布式计算框架,它允许在大规模集群上存储和处理海量数据。通过研究Hadoop的源码,开发者可以深入了解...

Global site tag (gtag.js) - Google Analytics