在装Hadoop之前首先需要:
1.java1.6.x 最好是sun的,1.5.x也可以
2.ssh
安装ssh
$ sudo apt-get install ssh
$ sudo apt-get install rsync
下载Hadoop
从http://hadoop.apache.org/core/releases.html 下载最近发布的版本
最好为hadoop创建一个用户:
比如创建一个group为hadoop user为hadoop的用户以及组
$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hadoop
解压下载的hadoop文件,放到/home/hadoop目录下 名字为hadoop
配置JAVA_HOME:
gedit ~/hadoop/conf/hadoop-env.sh
将
Java代码
# The java implementation to use. Required.
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
修改成java的安装目录:(我的是:/usr/lib/jvm/java-6-sun-1.6.0.15)
# The java implementation to use. Required.
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.15
现在可以使用单节点的方式运行:
$ cd hadoop
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*
Pseudo-distributed方式跑:
配置ssh
$ su - hadoop
$ ssh-keygen -t rsa -P ""
Generating public/private rsa key pair.
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):
Created directory '/home/hadoop/.ssh'.
Your identification has been saved in /home/hadoop/.ssh/id_rsa.
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.
The key fingerprint is:
9d:47:ab:d7:22:54:f0:f9:b9:3b:64:93:12:75:81:27 hadoop@ubuntu
让其不输入密码就能登录:
hadoop@ubuntu:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
使用:
$ ssh localhost
看看是不是直接ok了。
hadoop配置文件:
conf/core-site.xml
Java代码
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-datastore/hadoop-${user.name}</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hadoop.tmp.dir配置为你想要的路径,${user.name}会自动扩展为运行hadoop的用户名
conf/hdfs-site.xml
Xml代码
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
dfs.replication为默认block复制数量
conf/mapred-site.xml
Xml代码
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
执行
格式化分布式文件系统:
$ bin/hadoop namenode -format
启动hadoop:
Java代码
$ bin/start-all.sh
可以从
NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/
查看NameNode和JobTracker
运行例子:
$ bin/hadoop fs -put conf input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
look at the run result:
$ bin/hadoop fs -get output output
$ cat output/*
大家可参考: 1、http://hadoop.apache.org/common/docs/current/quickstart.html
2、http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_%28Single-Node_Cluster%29
相关推荐
《Hadoop实战(第2版)》能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之...
《Hadoop实战第二版》是由陆嘉恒编著的一本深度解析Hadoop技术的专业书籍,其源码的提供为读者提供了亲自动手实践Hadoop的机会,增强了学习效果。Hadoop作为大数据处理领域的基石,它的核心在于分布式存储系统HDFS...
Hadoop实战(韩冀中)中文版 pdf。《Hadoop实战》是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive...
《Hadoop实战第二版》是由国内知名大数据专家陆嘉恒编著的一本深入浅出的Hadoop技术指南。这本书针对Hadoop生态系统进行了详尽的解析,尤其适合对大数据处理感兴趣的IT从业者、学生以及研究人员阅读。作为第二版,...
纵情享受海量数据之美!揭开云计算的神秘面纱!深入分析,追本溯源!作为云计算所青睐的分布式架构,hadoop 是一个用java 语言... 《hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。
《Hadoop实战》一书是IT领域特别是大数据处理与分析方向的重要参考资料,其核心知识点紧密围绕Hadoop这一开源框架展开,旨在帮助读者深入理解和掌握Hadoop的实际应用与操作技巧。以下是对该书中关键知识点的详细解析...
【大数据云计算技术 hadoop实战培训】的PPT深入解析了如何应对海量数据处理的挑战,以及Hadoop在其中的关键作用。大数据是指无法用传统数据库管理工具处理的大量、高速、多样的信息资产,而云计算则提供了按需分配...
《Hadoop实战》是一本系统且极具实践指导意义的hadoop工具书和参考书。内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、...
《Hadoop实战-陆嘉恒(高清完整版)》是一本深入浅出介绍Hadoop技术的书籍,尤其适合初学者作为入门教材。Hadoop作为大数据处理领域的基石,其重要性不言而喻。这本书详细讲解了Hadoop的核心概念、架构以及实际应用,...
根据提供的文件信息,我们可以推断出这是一份关于获取《Hadoop实战》一书PDF版本的资源链接。接下来,我们将围绕这一主题展开讨论,重点介绍Hadoop的基本概念、功能特性以及如何利用这本书籍来深入学习Hadoop技术。 ...
Hadoop实战中文版 完整版
hadoop实战 第二版带书签 免费下载
《数据挖掘三部曲3》中的HADOOP实战第二版中文清晰版是一本专为初学者和有经验的IT从业者设计的指南,旨在帮助读者深入理解并掌握大数据处理框架Hadoop的核心技术和应用。Hadoop是Apache软件基金会开发的一个开源...
总之,`hadoop实战源代码Java`提供了学习和实践Hadoop与Java集成的机会,这对于大数据开发者来说是非常宝贵的资源。通过深入研究这些示例代码,你可以更好地理解Hadoop的API用法,提升处理大数据的能力。在实践中,...
这个压缩包包含三本关于Hadoop的重要书籍:《Hadoop实战》、《Hadoop权威指南(第二版)》和《Hadoop源码分析(完整版)》,它们涵盖了从基础到深入的所有关键知识点,对于不同阶段的Hadoop学习者都极具价值。...
hadoop实战全套视频,高质量hadoop视频资料,你值得拥有
"王家林的“云计算分布式大数据Hadoop实战高手之路"是一份旨在帮助初学者逐步掌握Hadoop技术的专业教程。这个教程的特色在于其详尽无遗的步骤指导,使学习者能够从零开始构建Hadoop的单机和伪分布式环境,从而深入...
《Hadoop实战源代码》(HadoopinAction_source_code)是针对大数据处理框架Hadoop的一份珍贵资源,其中包含了从知名书籍《Hadoop in Action》官网获取的实际代码示例。这些示例涵盖了Hadoop的核心组件及其应用,为...
《Hadoop实战.源代码》这个压缩包包含的资源是关于Hadoop技术的实战指南以及相关的源代码,对于想要深入理解和应用Hadoop的IT从业者来说,这是一个宝贵的资料库。Hadoop是一个开源的分布式计算框架,它允许在大量...