1. 下载hadoop安装包
可以到这个网站上下载http://www.apache.org/dist//hadoop/core/如果下载不下来自己到网上找找很多的。选一个版本下载。我用的是hadoop-0.20.2。
2.解压到一个目录下。随便选择按个目录。建议直接选择一个根目录。随后进行配置。这里配置的是伪分布式了。需要配置四个文件。都在conf目录下。分别为:hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml。下面逐一说明:
3.hadoop-env.sh
这个文件中主要配置JAVA_HOME路径。需要注意的是:1.jkd是1.6以上版本。2.路径应该是linux风格的。打开后将export前面的#注释符去掉,路径为/cygdrive/你的jdk路径。如果路径中有空格需要将路径用‘’括起来。设置后如下图:
4. core-site.xml
配置属性很多。到也可以简化自己设置几个属性就可以了。这里我们直接复制src/core下的core-default.xml到conf下并改名为core-site.xml替换原来的。修改下列属性如下:<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/tmp</value>
<description>A base for other temporary directories.</description>
</property>
设置临时的文件hadoop默认中有了但重启后会被删除所以还得需要格式化所以手动设定一个。避免格式化。
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
5. hdfs-site.xml
这个也同样到src/hdfs下把hdfs-default.xml复制到conf下改名替换。修改下列属性:
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
<description> </description>
</property>
DFS名节点存放位置
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data</value>
<description></description>
</property>
DFS数据节点存放位置
<property>
<name>dfs.replication</name>
<value>1</value>
<description></description>
</property>
存放副本数,这是为了安全考虑的在集群中要多放几个。咱们是伪分布式的就一个可以了。
6. mapred-site.xml
这个也同样到src/mapred中把mapred-default.xml复制到conf中改名替换。修改下列属性:
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
<description></description>
</property>
MapReduce 的jog tracker运行在所在主机及端口号。
<property>
<name>mapred.local.dir</name>
<value>/hadoop/temp</value>
<description> </description>
</property>
MapReduce的运行中间数据文件的存放路径
7. 这就可以了。设置就结束了。下面运行试一试。
使用cygwin进入到hadoop安装路径下的bin文件夹中。查看显示如下:
首先格式化:./hadoop namenode –format 如果让选择Y/N 选择Y。如下图:
其次运行:./start-sh.all 如下图则成功了。总共会启动五个节点。
最后:运行一下自带的wordcount例子。
1.先在本地文件建立一个文件夹(最好建在hadoop的安装文件在同一个目录下)如testin随后在里面建几个文件txt或java的随意。在里面输入以下英文单字。如file1.java 内容Hello world !file2.java 内容:I love you !
2.在cygwin中将一个hadoop hdfs上的目录如testin。命令如下:
./hadoop dfs –mkdir testin
3.将本地的两个文件上传到dfs上去。
./hadoop dfs –put /testin/*.java testin
此时运行./hadoop dfs –ls testin 就会就会发现已有了这两个文件了。
2、3步执行如下图:
4.执行
./hadoop jar ./../hadoop-0.20.2-examples.jar wordcount testin testout
如下图则成功了
5.查看结果
./hadoop dfs -ls testout 会发现下面有两个文件一个是日志一个是结果文件。
./hadoop dfs -cat testout/part-r-00000 查看统计单字的结果文件
执行如下图:
至此hadoop就安装配置都已结束并经过测试已经可以正常运行了。
相关推荐
Hadoop基础
Hadoop安装配置知识点: 一、Hadoop简介 Hadoop是云计算的基础,它是一个分布式系统的基础架构,被广泛应用于云计算的分布式存储和计算中。Hadoop设计用来从单一服务器扩展到数千台机器,每台机器提供本地计算和...
首先,Hadoop的配置文件是整个系统运行的基础,它们定义了Hadoop集群的运行参数、节点间的通信方式以及数据存储策略等关键设置。主要的配置文件包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-...
通过以上步骤,您可以在单机环境下完成Hadoop的基本配置,为后续的Hadoop学习和开发打下基础。请注意,这些步骤适用于特定版本的Hadoop和Ubuntu,对于其他版本或操作系统,可能需要适当调整配置过程。
理解并妥善管理Hadoop配置文件是确保Hadoop集群高效、稳定运行的基础。每个参数都有其特定的作用,调整时需谨慎,同时结合实际情况和最佳实践进行优化。只有这样,才能充分利用Hadoop的强大功能,应对大数据时代的...
这些配置文件是Hadoop运行的基础,理解并适当调整它们可以优化Hadoop集群的性能。 首先,我们来看`core-default.xml`。这个文件包含了Hadoop核心组件的基本设置,如I/O选项、网络参数和通用配置。例如,`fs.default...
这只是一个基础配置,实际开发中可能还需要配置Hadoop的伪分布式或完全分布式模式,以及处理其他可能遇到的问题,例如网络配置、安全性设置等。理解并掌握这些配置过程对于进行Hadoop开发至关重要。
Hadoop技术-Hadoop基础环境配置.pptx
4. "Hadoop实战.pdf" - 可能是一本全面的Hadoop实践指南,涵盖了从基础到高级的多个主题,包括配置、编程、性能优化等内容。 5. "conf.rar" - 这是一个压缩文件,很可能包含了Hadoop的配置文件样本,供用户参考和...
根据提供的文件信息,本文将详细解析Hadoop 2.6.4/2.7.3环境配置的关键步骤,包括Linux开发环境的搭建、JDK安装、以及如何创建一个Hadoop虚拟集群。 ### 一、Linux开发环境搭建 #### 1. 准备工具 - **VMware ...
本文将深入探讨Hadoop HA(高可用性)集群的配置文件,包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`yarn-site.xml`以及`slaves`文件,这些都是确保Hadoop集群稳定运行的基础。 1. `core-site.xml`:...
│ └── Hadoop基础 -01简介及架构.ppt ├── 第2章 │ ├── 1. 安装配置虚拟机.ppt │ ├── 2. 安装Java.ppt │ └── 3. 搭建Hadoop完全分布式集群.ppt ├── 第3章 │ └── Hadoop基础操作.ppt ├──...
### 伪分布式Hadoop的配置信息 在深入探讨伪分布式Hadoop配置之前,我们先来了解下何为伪分布式模式。...通过上述步骤,我们可以构建一个基本的伪分布式Hadoop环境,并在此基础上进一步扩展和优化配置。
综上所述,理解并正确配置这些Hadoop核心文件是管理高效、稳定的Hadoop集群的基础。压缩包中的Excel文件提供了每个配置文件的具体选项和功能,便于用户深入研究和定制化设置。请根据自己的集群环境和应用需求,谨慎...
其次,`core-default.xml`包含了Hadoop核心组件的基础配置,比如文件系统、I/O流等。其中关键配置包括: - `io.file.buffer.size`:读写文件时使用的缓冲区大小,默认4096字节。 - `fs.trash.interval`:指定.trash...
通过学习《Hadoop 0.20.1 配置手册》,开发者和管理员可以掌握Hadoop集群的基础配置和高级调优技巧,从而更好地管理和利用大数据资源。同时,理解早期版本的Hadoop也有助于对比分析Hadoop的演进历程,进一步理解当前...