`
jsczxy2
  • 浏览: 1275726 次
  • 性别: Icon_minigender_1
  • 来自: 常州
文章分类
社区版块
存档分类
最新评论

[转]hadoop0.2版本使用

阅读更多

Hadoop配置
1.	下载Hadoop:
http://labs.renren.com/apache-mirror//hadoop/core/
选择相应版本并下载相应目录下hadoop-*.tar.gz文件。
Ps:
1)	建议选择0.20.2相关版本,此配置基于0.20.204.0版本。
2)	这里只给出一种安装方式(tar方式),其他方式亦可。
2.	解压到安装目录:
sudo tar -zxvf hadoop-*.tar.gz –C /opt
Ps:
1)	自行选择解压目录,即安装目录,不建议选在指定用户目录下。通常在集群配置时,所有机器的Hadoop安装目录路径是相同的,方便管理。
3.	添加环境变量:
在文件/etc/environment下添加如下环境变量:
PATH=”…: /opt/hadoop-*/bin”
HADOOP_INSTALL=/opt/hadoop-*
HADOOP_CONF_DIR=/opt/hadoop-*/conf
HADOOP_COMMOM_HOME=/opt/hadoop-*
Ps:
1)	HADOOP_INSTALL和HADOOP_COMMON_HOME均设为安装目录即可,$HADOOP_CONF_DIR设置为安装目录下conf文件夹。
2)	推荐设置环境变量,方便之后的操作,如果不设置不能保证也能正常运行(未尝试)。
4.	设置文件夹所属:
sudo chown –R yyz:yyz $HADOOP_INSTALL
Ps:
1)	如果你的hadoop安装目录所有人是root那么会有很多麻烦,建议设置成为普通用户,”yyz”是实验时操作的用户,请替换成自己的用户。
5.	修改hadoop配置文件:
修改hadoop-env.sh文件,加入如下一行:
export JAVA_HOME=/usr/program/jdk1.6.0_06
ps:事实上,文件中有这一行,只不过被注释掉了,去掉该行注释即可。
修改core-site.xml:
源文件:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
</configuration>
修改后:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/local/hadoop/hadooptmp</value>
  <description>A base for other temporary directories.</description>
</property>
<property>
  <name>fs.default.name</name>
  <value>hdfs://localhost:9000</value>
  <description> The name of the default file system.URI.</description>
</property>
</configuration>
简要说明:
1)	hadoop.tmp.dir配置为临时文件存放目录,该目录自行指定并且是已经存在的。
2)	fs.default.name配置为NameNode的URI,建议写IP,localhost可能会引起一些麻烦,不过在这里写localhost也没问题。
修改hdfs-site.xml:
源文件:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
</configuration>
修改后:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
  <name>dfs.replication</name>
  <value>1</value>
  <description>Default block replication.</description>
</property>
</configuration>
简要说明:
1)	dfs.replication配置为数据块的复制次数,即备份数量,它必须不大于集群的机器数目,默认值是3.
修改mapred-site.xml:
源文件:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
</configuration>
修改后:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
  <name>mapred.job.tracker</name>
  <value>localhost:9001</value>
  <description>The host and port that the MapReduce job tracker runs at.</description>
</property>
<property>
	<name>mapred.local.dir</name>
	<value>/usr/local/hadoop/hadooptmp/maptmp1</value>
	<description>Temp folder for local Map/Reduce.</description>
</property>
</configuration>
简要说明:
1)	mapred.job.tracker配置JobTracker的主机和端口
2)	mapred.local.dir配置Map/Reduce存放临时文件的场所,多路径以逗号分隔,有助于磁盘i/o
6.	*****配置结束,将配置好的hadoop文件夹拷贝到其余集群机器当中,并微调配置以适应各台机器。(伪分布式不用做)*****

Hadoop使用
1.	进入hadoop安装目录:
cd $HADOOP_INSTALL
2.	格式化hadoop文件系统:
bin/hadoop namenode –format
Ps:
1)	如果添加了bin文件夹路径到环境变量PATH中,可以不用进入hadoop目录下,任何场所均可使用bin下所有命令。
2)	对话询问输入y确认执行
3.	启动守护进程:
bin/start-all.sh
Ps:
1)	如果hadoop安装目录所属是root用户,这里将会要求反复输入root密码,很烦恼。
2)	验证hadoop是否配置成功:
	在浏览器中输入地址Http://localhost:50030和Http://localhost:50070看是否出现hadoop页面。
	也可以输入命令:bin/jps查看已经启动的节点。
4.	运行实例:
(1)在hdfs中建立一个input目录:bin/hadoop fs -mkdir input
(2)将file01和file02拷贝到hdfs中:
bin/hadoop fs -put conf/core-site.xml input
(3)执行wordcount:
bin/hadoop jar hadoop-examples-*.jar wordcount input output
(4)完成之后,查看结果
bin/hadoop fs -cat output/part-r-00000
Ps:
1)	Output是输出目录,hadoop进程会自动建立,而提前建立反而会导致运行错误。下次运行前可先将output删除,命令式bin/hadoop fs –rmr output
2)	hadoop-examples-*.jar是hadoop下样例文件
5.	结束守护进程:
bin/stop-all.sh
 
分享到:
评论

相关推荐

    hadoop 0.2

    这个“hadoop 0.2”指的是Hadoop的早期版本,它为开发者提供了一个分布式计算的基础平台,允许在大规模集群上处理海量数据。在这个阶段,Hadoop已经开始展现其在大数据领域的潜力,为后续的版本打下了坚实的基础。 ...

    hadoop1.0.2 hbase0.94安装

    本教程主要涵盖的是在较旧版本的Hadoop 1.0.2上安装并配置HBase 0.94,以及相关的MapReduce开发和Hadoop-Eclipse插件的编译。这些内容对于理解大数据处理的基本流程和工具使用具有重要意义。 首先,我们来详细讨论...

    hadoop 0.20.2

    Hadoop 0.20.2 是一个早期版本的开源分布式计算框架,它由Apache软件基金会维护并持续发展。这个版本在2010年左右发布,为大数据处理提供了基础架构,尤其在处理大规模数据集时表现出了强大的能力。本文将深入探讨...

    hadoop调试工具hadoop.dll和hadoop.exp和winutils.exe

    安装Hadoop 2.6(x64) V0.2版本意味着你正在使用针对64位处理器优化的版本,这通常会提供更好的性能和稳定性,尤其是在处理大量数据时。 为了正确使用这些工具,你需要确保配置好Hadoop的环境变量,包括HADOOP_HOME...

    Hadoop datanode启动失败:Hadoop安装目录权限的问题

    或者使用其他适用于您的Hadoop版本和配置的命令。 #### 四、预防措施 为了避免未来再次出现类似问题,建议采取以下预防措施: - **在安装过程中使用非root用户**:推荐在整个安装过程中都使用一个非`root`用户...

    hadoop2.6(x64)V0.2.tar.gz

    9. **版本控制**: 推荐使用版本控制系统(如Git)来管理代码,确保代码的版本管理和协作。 标签 "Windows7 Eclipse Hadoop" 指出,这个话题主要关注在Windows 7操作系统上使用Eclipse作为开发工具来处理Hadoop项目...

    Hadoop-Installation-0.2.zip

    经常要安装Hadoop的2.x和3.x的伪集群版本。仅限于Linux系统,不能在Windows上执行 虽然已经熟练,但是需要修改各个配置文件。 索性,将所有的操作整理成了一个工具。执行此命令,可能会要求输入当前用户的密码和...

    hadoop0.2.0安装部署教程及相关eclipse工具

    中间遇见过各种错误,要学习下chown chmod等,改变路径权限的相关内容,除了用JPS查看之外,最容易看是否启动成功的就是看netstat -tlp|grep 50070 ,这样看看50070启动与否,来观察。本人确实根据这两个文档及...

    Hadoop-2.2.0源码包

    - 学习如何使用Hadoop API编写MapReduce程序。 - 跟踪和解决Hadoop在运行时遇到的问题。 总之,Hadoop-2.2.0源码包是学习和开发Hadoop的宝贵资源,它揭示了分布式计算的复杂性和效率,有助于提升开发者在大数据处理...

    hadoop-2.7.x&2.6.x windows可执行文件包

    本文将详细讲解如何在Windows操作系统上搭建和使用Hadoop 2.6.x及2.7.x版本的可执行环境,主要基于提供的压缩包文件:`hadoop2.7.1X64.zip`和`hadoop2.6(x64)V0.2.zip`。 一、Hadoop简介 Hadoop的核心组件包括HDFS...

    hadoop2.2.0 64位 native库centos64

    在CentSO_64bit集群搭建,hadoop2.2(64位)编译 新版亮点: 基于yarn计算框架和高可用性DFS的第一个稳定版本。...而且这坑货官方竟然没有提供64位版本,要使用得自己编译。 于是就有了下面这漫漫的填坑之路。

    hadoop ambari简介,为什么选择ambari

    - 相比旧版本的 Hadoop,如 Hadoop 0.2,Ambari 支持的 Hadoop 2.x 版本提供了更好的性能和更高的稳定性。 - Hadoop 2.x 中引入的 YARN 架构显著提高了资源调度的效率和灵活性,同时也解决了 JobTracker 单点故障...

    实验1:Hadoop安装部署

    在这个实验中,我们将使用 Docker 容器来部署 Hadoop 环境。 实验步骤 1:加载 Docker 镜像 在开始实验之前,需要加载 Docker 镜像。 Docker 镜像是一个包含了操作系统、应用程序和依赖项的存档文件。在这个实验中...

    hadoop分布式文件系统搭建

    - **JDK和Hadoop版本选择**:这里选择的是JDK 1.7.0_79 64位和Hadoop 2.6.0。 - **JDK环境变量配置**: - 解压JDK:`tar -zxvf jdk1.7.0_79.tar.gz -C /usr/java` - 修改`/etc/profile`文件添加以下行: ``` ...

    Hadoop-2.6.0分布式部署参考手册

    - **Hadoop版本**:Apache Hadoop 2.6.0 - **操作用户**:hadoop ##### 2.2 Hadoop集群环境说明 对于Hadoop集群的部署,我们需要了解各个节点的具体信息。以下为示例集群的架构: | 主机名 | IP地址 | 角色 | |--...

    kafka_2.11-0.11.0.2.zip

    在`kafka_2.11-0.11.0.2`这个版本中,它支持Scala 2.11的API,这使得Kafka能够与使用该版本Scala构建的其他系统更好地集成。 1. **消息模型**:Kafka的消息模型是发布/订阅(Pub/Sub)模型,但与传统的消息队列不同...

    大数据分析师认证样题0814v0.2word版本.docx

    大数据分析师认证样题0814v0.2word版本.docx 本文档提供了大数据分析师认证考试样题,涵盖了数据分析、数据库管理、数据挖掘、统计学和数据可视化等多个方面的知识点。 一、单选题 1. MySQL 数据库中有"product”...

    KFS文件系统所有版本(0.2-0.3)5个版本

    这个压缩包包含了KFS从0.2到0.3五个不同版本的源代码,对于研究分布式存储系统、软件演进以及对比不同版本之间的改进具有重要的价值。 0.2.0版是KFS的第一个稳定版本,它引入了基本的文件系统功能,如文件创建、...

    超详细CentOS_安装Hadoop

    1. **下载Hadoop安装包**:从Hadoop官网下载合适的版本。 2. **解压安装包**:将Hadoop安装包上传至服务器,并解压。 ```bash # 解压Hadoop安装包 tar -xvf hadoop-2.7.3.tar.gz # 设置环境变量 echo 'export ...

Global site tag (gtag.js) - Google Analytics