`

hadoop 实战

阅读更多

 


在装Hadoop之前首先需要: 
1.java1.6.x 最好是sun的,1.5.x也可以 
2.ssh 
安装ssh 

$ sudo apt-get install ssh 
$ sudo apt-get install rsync 


下载Hadoop 
从http://hadoop.apache.org/core/releases.html 下载最近发布的版本 

最好为hadoop创建一个用户: 
比如创建一个group为hadoop user为hadoop的用户以及组 

$ sudo addgroup hadoop 
$ sudo adduser --ingroup hadoop hadoop 

解压下载的hadoop文件,放到/home/hadoop目录下 名字为hadoop 
配置JAVA_HOME: 

gedit ~/hadoop/conf/hadoop-env.sh 

将 

Java代码 
# The java implementation to use.  Required. 
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun 

修改成java的安装目录:(我的是:/usr/lib/jvm/java-6-sun-1.6.0.15) 

# The java implementation to use. Required. 
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.15 


现在可以使用单节点的方式运行: 

$ cd hadoop 
$ mkdir input 
$ cp conf/*.xml input 
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 
$ cat output/* 

Pseudo-distributed方式跑: 

配置ssh 

$ su - hadoop 
$ ssh-keygen -t rsa -P "" 
Generating public/private rsa key pair. 
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 
Created directory '/home/hadoop/.ssh'. 
Your identification has been saved in /home/hadoop/.ssh/id_rsa. 
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub. 
The key fingerprint is: 
9d:47:ab:d7:22:54:f0:f9:b9:3b:64:93:12:75:81:27 hadoop@ubuntu 


让其不输入密码就能登录: 

hadoop@ubuntu:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 

  使用: 

$ ssh localhost 

看看是不是直接ok了。 


hadoop配置文件: 
conf/core-site.xml 

Java代码 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 

<!-- Put site-specific property overrides in this file. --> 

<configuration> 
   <property> 
    <name>hadoop.tmp.dir</name> 
        <value>/home/hadoop/hadoop-datastore/hadoop-${user.name}</value> 
   </property> 
   <property> 
    <name>fs.default.name</name> 
    <value>hdfs://localhost:9000</value> 
   </property> 
</configuration> 

hadoop.tmp.dir配置为你想要的路径,${user.name}会自动扩展为运行hadoop的用户名 

conf/hdfs-site.xml 

Xml代码 
<configuration> 
  <property> 
    <name>dfs.replication</name> 
    <value>1</value> 
  </property> 
</configuration> 

dfs.replication为默认block复制数量 
conf/mapred-site.xml 

Xml代码 
<configuration> 
  <property> 
    <name>mapred.job.tracker</name> 
    <value>localhost:9001</value> 
  </property> 
</configuration> 

执行 

格式化分布式文件系统: 

$ bin/hadoop namenode -format 

启动hadoop: 

Java代码 
$ bin/start-all.sh 

可以从 

NameNode - http://localhost:50070/ 
JobTracker - http://localhost:50030/ 

查看NameNode和JobTracker 

运行例子: 


$ bin/hadoop fs -put conf input 
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 

look at the run result: 
$ bin/hadoop fs -get output output 
$ cat output/* 


大家可参考: 1、http://hadoop.apache.org/common/docs/current/quickstart.html 
2、http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_%28Single-Node_Cluster%29

分享到:
评论

相关推荐

    Hadoop实战实战-陆嘉恒(高清完整版)

    《Hadoop实战(第2版)》能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之...

    hadoop实战第二版及源码

    《Hadoop实战第二版》是由陆嘉恒编著的一本深度解析Hadoop技术的专业书籍,其源码的提供为读者提供了亲自动手实践Hadoop的机会,增强了学习效果。Hadoop作为大数据处理领域的基石,它的核心在于分布式存储系统HDFS...

    Hadoop实战(韩冀中)中文版

    Hadoop实战(韩冀中)中文版 pdf。《Hadoop实战》是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive...

    hadoop实战第二版(陆嘉恒)

    《Hadoop实战第二版》是由国内知名大数据专家陆嘉恒编著的一本深入浅出的Hadoop技术指南。这本书针对Hadoop生态系统进行了详尽的解析,尤其适合对大数据处理感兴趣的IT从业者、学生以及研究人员阅读。作为第二版,...

    Hadoop实战 中文版

    纵情享受海量数据之美!揭开云计算的神秘面纱!深入分析,追本溯源!作为云计算所青睐的分布式架构,hadoop 是一个用java 语言... 《hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

    《Hadoop实战》中文版电子书下载

    《Hadoop实战》一书是IT领域特别是大数据处理与分析方向的重要参考资料,其核心知识点紧密围绕Hadoop这一开源框架展开,旨在帮助读者深入理解和掌握Hadoop的实际应用与操作技巧。以下是对该书中关键知识点的详细解析...

    大数据云计算技术 hadoop实战培训(共56页).ppt

    【大数据云计算技术 hadoop实战培训】的PPT深入解析了如何应对海量数据处理的挑战,以及Hadoop在其中的关键作用。大数据是指无法用传统数据库管理工具处理的大量、高速、多样的信息资产,而云计算则提供了按需分配...

    hadoop 实战 中文版 韩冀中

    《Hadoop实战》是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、...

    Hadoop实战-陆嘉恒(高清完整版)

    《Hadoop实战-陆嘉恒(高清完整版)》是一本深入浅出介绍Hadoop技术的书籍,尤其适合初学者作为入门教材。Hadoop作为大数据处理领域的基石,其重要性不言而喻。这本书详细讲解了Hadoop的核心概念、架构以及实际应用,...

    《Hadoop实战》PDF版本下载.txt

    根据提供的文件信息,我们可以推断出这是一份关于获取《Hadoop实战》一书PDF版本的资源链接。接下来,我们将围绕这一主题展开讨论,重点介绍Hadoop的基本概念、功能特性以及如何利用这本书籍来深入学习Hadoop技术。 ...

    Hadoop实战中文版 完整版

    Hadoop实战中文版 完整版

    Hadoop实战++第2版.pdf 高清扫描带书签 免费下载

    hadoop实战 第二版带书签 免费下载

    (数据挖掘三部曲3)HADOOP实战第二版中文清晰版

    《数据挖掘三部曲3》中的HADOOP实战第二版中文清晰版是一本专为初学者和有经验的IT从业者设计的指南,旨在帮助读者深入理解并掌握大数据处理框架Hadoop的核心技术和应用。Hadoop是Apache软件基金会开发的一个开源...

    hadoop实战源代码Java

    总之,`hadoop实战源代码Java`提供了学习和实践Hadoop与Java集成的机会,这对于大数据开发者来说是非常宝贵的资源。通过深入研究这些示例代码,你可以更好地理解Hadoop的API用法,提升处理大数据的能力。在实践中,...

    Hadoop实战+Hadoop权威指南(第二版)+Hadoop源码分析(完整版)_PDF文件

    这个压缩包包含三本关于Hadoop的重要书籍:《Hadoop实战》、《Hadoop权威指南(第二版)》和《Hadoop源码分析(完整版)》,它们涵盖了从基础到深入的所有关键知识点,对于不同阶段的Hadoop学习者都极具价值。...

    hadoop实战全套视频

    hadoop实战全套视频,高质量hadoop视频资料,你值得拥有

    王家林的“云计算分布式大数据Hadoop实战高手之路

    "王家林的“云计算分布式大数据Hadoop实战高手之路"是一份旨在帮助初学者逐步掌握Hadoop技术的专业教程。这个教程的特色在于其详尽无遗的步骤指导,使学习者能够从零开始构建Hadoop的单机和伪分布式环境,从而深入...

    Hadoop实战源代码(HadoopinAction_source_code)

    《Hadoop实战源代码》(HadoopinAction_source_code)是针对大数据处理框架Hadoop的一份珍贵资源,其中包含了从知名书籍《Hadoop in Action》官网获取的实际代码示例。这些示例涵盖了Hadoop的核心组件及其应用,为...

    Hadoop实战.源代码

    《Hadoop实战.源代码》这个压缩包包含的资源是关于Hadoop技术的实战指南以及相关的源代码,对于想要深入理解和应用Hadoop的IT从业者来说,这是一个宝贵的资料库。Hadoop是一个开源的分布式计算框架,它允许在大量...

Global site tag (gtag.js) - Google Analytics