1.系统(本人使用虚拟机):VMware-workstation-full-7.1.2-301548
ubuntu-10.10-desktop-i386
软件包: jdk-6u31-linux-i586.bin
hadoop-0.20.205.0.tar.gz
2.JDK安装:
1)将jdk-6u31-linux-i586.bin复制到安装目录,比如:/usr/java/
2)cd /usr/java
3)chmod 777 jdk-6u31-linux-i586.bin
4)./jdk-6u31-linux-i586.bin
5)设置JAVA_HOME,vi /etc/profile
6)在profile文件中加入:JAVA_HOME=/usr/java/jdk1.6.0_31
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH
7)保存/etc/profile并退出,source /etc/profile
8)执行java -version
3.Hadoop安装
1)将hadoop-0.20.205.0.tar.gz复制到安装目录,比如:/usr
2)cd /usr
3)tar zxf hadoop-0.20.205.0.tar.gz
4)进入hadoop的conf目录
5)vi hadoop-evn.sh,将JAVA_HOME设置为JDK安装目录
6)设置HADOOP_INSTALL环境变量,vi /etc/profile
7)在profile中加入:HADOOP_INSTALL=/usr/hadoop-0.20.205.0
PATH=$JAVA_HOME/bin:$HADOOP_INSTALL/bin:$PATH
export JAVA_HOME HADOOP_INSTALL PATH
8)保存profile文件并退出,source /etc/profile
9)执行hadoop version
4.配置hadoop伪分布模式
1)修改/config/core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost/</value> </property> </configuration>
2)修改hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
3)修改mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:8021</value> </property> </configuration>
4)创建一个基于空口令的SSH密钥,以启动无密码登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
5)测试步骤4)是否成功,ssh localhost,如成功则无需键入密码
6)格式化HDFS文件系统,hadoop namenode -format
7)启动进程
start-dfs.sh
start-mapred.sh
8)查看启动是否成功
a.查看logs目录下的日志文件
b.通过web界面:http://localhost:50030/ (查看jobtracker)
http://localhost:50070/ (查看namenode)
c.通过java的jps命令
9)终止进程
stop-dfs.sh
stop-mapred.sh
- 大小: 6 KB
- 大小: 10 KB
- 大小: 6.1 KB
- 大小: 8.7 KB
- 大小: 14.6 KB
分享到:
相关推荐
在安装Apache Hadoop之前,首先需要理解Hadoop是什么。Apache Hadoop是一个开源框架,专为分布式存储和处理大规模数据而设计。它由Apache Software Foundation维护,包含几个关键组件,如Hadoop Common、HDFS...
Spring Data for Apache Hadoop API。 Spring Data for Apache Hadoop 开发文档
《Pro Apache Hadoop》是一本深入探讨Apache Hadoop生态系统的专业书籍,旨在为读者提供全面且深入的Hadoop知识。Hadoop是大数据处理领域的重要框架,由Apache软件基金会开发,以分布式计算为核心,实现了对海量数据...
Apache Hadoop 是一个开源的分布式计算框架,专为处理和存储大规模数据集而设计。它由Apache软件基金会维护,是大数据处理领域中的核心组件。Hadoop 的主要特点是高容错性和可扩展性,使得它能够处理PB级别的数据。...
标题中提到的“SQL for Apache Hadoop”指向一种通过SQL语言访问和操作Apache Hadoop存储的数据的能力。Hadoop是一个开源的框架,最初由Apache软件基金会开发,设计用于存储和处理大量数据。Hadoop主要采用分布式...
Apache Hadoop is a widely used distributed data platform. It enables large datasets to be efficiently processed instead of using one large computer to store and process the data. This book will get ...
### TeraByte Sort on Apache Hadoop #### 概述 《TeraByte Sort on Apache Hadoop》是由Yahoo公司的Owen O’Malley撰写的一篇关于Hadoop基准测试方法的论文,该论文详细介绍了一种用于Hadoop平台的大规模数据排序...
《Apache Hadoop YARN》,全名Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 (Addison-Wesley Data & Analytics Series) 这本书是2014年3月31号出版的,是基于Hadoop 2...
【Hadoop安装配置步骤】 安装Hadoop通常涉及以下步骤: 1. 安装Java开发工具包(JDK),因为Hadoop依赖Java运行。 2. 设置环境变量,如JAVA_HOME,确保Hadoop能找到Java环境。 3. 下载Hadoop二进制包,并解压到适当...
根据提供的文件信息,本知识点将详细介绍英特尔Apache Hadoop软件发行版安装手册2.3版的内容。...这本手册是进行英特尔Apache Hadoop安装和配置的重要参考资料,对于设计和管理Hadoop集群具有指导性意义。
Apache Hadoop是一个开源框架,主要用于分布式存储和计算大数据集。Hadoop 3.1.0是这个框架的一个重要版本,提供了许多性能优化和新特性。在Windows环境下安装和使用Hadoop通常比在Linux上更为复杂,因为Hadoop最初...
《Pro Apache Hadoop, 2nd Edition》是一本专门介绍Apache Hadoop第二版的专业书籍。Hadoop是一个开源框架,旨在从大型数据集中进行存储和处理的分布式系统。它允许开发者使用简单的编程模型在计算机集群上分布式地...
Apache Hadoop v2.7.0是大数据处理领域的一个关键组件,它是一个开源框架,主要用于分布式存储和计算。Hadoop的出现使得企业能够处理和分析海量数据,即使这些数据超过了单台机器的处理能力。在v2.7.0这个版本中,...
Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 完整版哦,绝对清晰,不是扫描的mobi格式电子书,请使用电子书库calibre (http://calibre-ebook.com/download) 打开。
Apache Hadoop (hadoop-3.3.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...
### Apache Hadoop 实现Facebook实时计算的关键技术与实践 #### 概述 随着大数据时代的到来,数据处理的需求日益增长,特别是在社交媒体平台如Facebook这样的大型应用上。为了应对这些挑战,Facebook选择采用...