- 浏览: 596448 次
- 性别:
- 来自: 厦门
文章分类
- 全部博客 (669)
- oracle (36)
- java (98)
- spring (48)
- UML (2)
- hibernate (10)
- tomcat (7)
- 高性能 (11)
- mysql (25)
- sql (19)
- web (42)
- 数据库设计 (4)
- Nio (6)
- Netty (8)
- Excel (3)
- File (4)
- AOP (1)
- Jetty (1)
- Log4J (4)
- 链表 (1)
- Spring Junit4 (3)
- Autowired Resource (0)
- Jackson (1)
- Javascript (58)
- Spring Cache (2)
- Spring - CXF (2)
- Spring Inject (2)
- 汉字拼音 (3)
- 代理模式 (3)
- Spring事务 (4)
- ActiveMQ (6)
- XML (3)
- Cglib (2)
- Activiti (15)
- 附件问题 (1)
- javaMail (1)
- Thread (19)
- 算法 (6)
- 正则表达式 (3)
- 国际化 (2)
- Json (3)
- EJB (3)
- Struts2 (1)
- Maven (7)
- Mybatis (7)
- Redis (8)
- DWR (1)
- Lucene (2)
- Linux (73)
- 杂谈 (2)
- CSS (13)
- Linux服务篇 (3)
- Kettle (9)
- android (81)
- protocol (2)
- EasyUI (6)
- nginx (2)
- zookeeper (6)
- Hadoop (41)
- cache (7)
- shiro (3)
- HBase (12)
- Hive (8)
- Spark (15)
- Scala (16)
- YARN (3)
- Kafka (5)
- Sqoop (2)
- Pig (3)
- Vue (6)
- sprint boot (19)
- dubbo (2)
- mongodb (2)
最新评论
一、环境说明
1、机器:一台物理机 和一台虚拟机
2、Linux版本:[Spark@S1PA11 ~]$ cat /etc/issue
Red Hat Enterprise Linux Server release 5.4 (Tikanga)
3、JDK: [spark@S1PA11 ~]$ Java -version
Java version "1.6.0_27"
Java(TM) SE Runtime Environment (build 1.6.0_27-b07)
Java HotSpot(TM) 64-Bit Server VM (build 20.2-b06, mixed mode)
4、集群节点:两个 S1PA11(Master),S1PA222(Slave)
二、准备工作
1、安装Java jdk前一篇文章撰写了:http://blog.csdn.net/stark_summer/article/details/42391531
2、ssh免密码验证 :http://blog.csdn.net/stark_summer/article/details/42393053
3、下载Hadoop版本:http://mirror.bit.edu.cn/apache/hadoop/common/
三、安装Hadoop
这是下载后的hadoop-2.6.5.tar.gz压缩包,
1、解压 tar -xzvf hadoop-2.6.0.tar.gz
2、move到指定目录下:lanwx@master:/usr$ cd hadoop
3、进入hadoop目录
lanwx@master:/usr/hadoop$ ll
total 152
drwxrwxr-x 12 lanwx lanwx 4096 May 7 18:31 ./
drwxr-xr-x 12 root root 4096 May 4 00:29 ../
drwxrwxr-x 2 lanwx lanwx 4096 Oct 2 2016 bin/
drwxrwxr-x 3 lanwx lanwx 4096 Oct 2 2016 etc/
drwxrwxrwx 3 lanwx lanwx 4096 May 5 03:02 hadoop-administrator/
drwxrwxr-x 2 lanwx lanwx 4096 Oct 2 2016 include/
drwxrwxr-x 2 lanwx lanwx 4096 May 7 18:32 input/
drwxrwxr-x 3 lanwx lanwx 4096 Oct 2 2016 lib/
drwxrwxr-x 2 lanwx lanwx 4096 Oct 2 2016 libexec/
-rw-rw-r-- 1 lanwx lanwx 84853 Oct 2 2016 LICENSE.txt
drwxrwxr-x 2 lanwx lanwx 4096 May 7 18:24 logs/
-rw-rw-r-- 1 lanwx lanwx 14978 Oct 2 2016 NOTICE.txt
-rw-rw-r-- 1 lanwx lanwx 1366 Oct 2 2016 README.txt
drwxrwxr-x 2 lanwx lanwx 4096 Oct 2 2016 sbin/
drwxrwxr-x 4 lanwx lanwx 4096 Oct 2 2016 share/
注意:hadoop-administrator 这个目录需要自己创建用于存放hdfs文件
主要涉及的配置文件有8个:都在/hadoop/etc/hadoop文件夹下,可以用gedit命令对其进行编辑。
~/hadoop/etc/hadoop/hadoop-env.sh ~/hadoop/etc/hadoop/yarn-env.sh ~/hadoop/etc/hadoop/master ~/hadoop/etc/hadoop/slaves ~/hadoop/etc/hadoop/core-site.xml ~/hadoop/etc/hadoop/hdfs-site.xml ~/hadoop/etc/hadoop/mapred-site.xml ~/hadoop/etc/hadoop/yarn-site.xml
配置 hadoop-env.sh文件-->修改JAVA_HOME
# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.7.0_25/
export HADOOP_PREFIX=/usr/hadoop/
配置 yarn-env.sh 文件-->>修改JAVA_HOME
# some Java parameters
export JAVA_HOME=/usr/java/jdk1.7.0_25/
配置master文件
master
配置slaves文件-->>增加slave节点
slave03
配置 core-site.xml 文件
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/hadoop/hadoop-administrator</value> </property> </configuration>
配置 hdfs-site.xml 文件 注意在datanode中是0.0.0.0不是master
<configuration> <property> <name>dfs.datanode.ipc.address</name> <value>master:50020</value> </property> <property> <name>dfs.datanode.http.address</name> <value>master:50075</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
配置 mapred-site.xml 文件
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>master:19888</value> </property> </configuration>
配置 yarn-site.xml 文件
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8035</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:8088</value> </property> </configuration>
设置环境变量
# set JAVA PATH export JAVA_HOME=/usr/java/jdk1.7.0_25 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$JAVA_HOME/bin:$PATH #hadoop path export HADOOP_HOME=/usr/hadoop/ export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop export PATH=$HADOOP_HOME/bin:$PATH
将配置好的hadoop文件copy到另一台slave机器上
lanwx@master:/usr$ scp -r hadoop/ slave03:/usr
四、验证
1、格式化namenode:
lanwx@master:/usr$ cd hadoop/
lanwx@master:/usr$ ls
bin dfs etc include input lib libexec LICENSE.txt logs NOTICE.txt README.txt sbin share tmp
lanwx@master:/usr$ ./bin/hdfs namenode -format
lanwx@master:/usr$ cd ~/opt/hadoop-2.6.0
lanwx@master:/usr$ ./bin/hdfs namenode -format
2、启动hadoop:
lanwx@master:/usr/hadoop$ ./sbin/start-all.sh
3、查看hadoop:
jps
9、运行wordcount程序
9.1、创建 input目录:[spark@S1PA11 hadoop-2.6.0]$ mkdir input
9.2、在input创建f1、f2并写内容
[spark@S1PA11 hadoop-2.6.0]$ cat input/f1
Hello world bye jj
[spark@S1PA11 hadoop-2.6.0]$ cat input/f2
Hello Hadoop bye Hadoop
9.3、在hdfs创建/tmp/input目录
[spark@S1PA11 hadoop-2.6.0]$ ./bin/hadoop fs -mkdir /tmp
15/01/05 16:53:57 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
[spark@S1PA11 hadoop-2.6.0]$ ./bin/hadoop fs -mkdir /tmp/input
15/01/05 16:54:16 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
9.4、将f1、f2文件copy到hdfs /tmp/input目录
[spark@S1PA11 hadoop-2.6.0]$ ./bin/hadoop fs -put input/ /tmp
15/01/05 16:56:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
9.5、查看hdfs上是否有f1、f2文件
[spark@S1PA11 hadoop-2.6.0]$ ./bin/hadoop fs -ls /tmp/input/
15/01/05 16:57:42 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 2 items
-rw-r--r-- 3 spark supergroup 20 2015-01-04 19:09 /tmp/input/f1
-rw-r--r-- 3 spark supergroup 25 2015-01-04 19:09 /tmp/input/f2
9.6、执行wordcount程序
[spark@S1PA11 hadoop-2.6.0]$ ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /tmp/input /output
15/01/05 17:00:09 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/01/05 17:00:09 INFO client.RMProxy: Connecting to ResourceManager at S1PA11/10.58.44.47:8032
15/01/05 17:00:11 INFO input.FileInputFormat: Total input paths to process : 2
15/01/05 17:00:11 INFO mapreduce.JobSubmitter: number of splits:2
15/01/05 17:00:11 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1420447392452_0001
15/01/05 17:00:12 INFO impl.YarnClientImpl: Submitted application application_1420447392452_0001
15/01/05 17:00:12 INFO mapreduce.Job: The url to track the job: http://S1PA11:8088/proxy/application_1420447392452_0001/
15/01/05 17:00:12 INFO mapreduce.Job: Running job: job_1420447392452_0001
9.7、查看执行结果
[spark@S1PA11 hadoop-2.6.0]$ ./bin/hadoop fs -cat /output/part-r-0000
15/01/05 17:06:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
参考:http://blog.csdn.net/stark_summer/article/details/42424279
发表评论
文章已被作者锁定,不允许评论。
-
Hadoop namenode的fsimage与editlog详解
2017-05-19 10:04 1177Namenode主要维护两个文件,一个是fsimage,一个是 ... -
Hadoop HBase建表时预分区(region)的方法学习
2017-05-15 11:18 1189如果知道Hbase数据表的key的分布情况,就可以在建表的时候 ... -
Hadoop HBase行健(rowkey)设计原则学习
2017-05-15 10:34 1124Hbase是三维有序存储的,通过rowkey(行键),colu ... -
Hadoop HBase中split原理学习
2017-05-12 13:38 2270在Hbase中split是一个很重 ... -
Hadoop HBase中Compaction原理学习
2017-05-12 10:34 994HBase Compaction策略 RegionServer ... -
Hadoop HBase性能优化学习
2017-05-12 09:15 684一、调整参数 入门级的调优可以从调整参数开始。投入小,回报快 ... -
Hadoop 分布式文件系统学习
2017-05-10 15:34 498一. 分布式文件系统 分布式文件系统,在整个分布式系统体系中处 ... -
Hadoop MapReduce处理wordcount代码分析
2017-04-28 14:25 591package org.apache.hadoop.exa ... -
Hadoop YARN完全分布式配置学习
2017-04-26 10:27 572版本及配置简介 Java: J ... -
Hadoop YARN各个组件和流程的学习
2017-04-24 19:04 647一、基本组成结构 * 集 ... -
Hadoop YARN(Yet Another Resource Negotiator)详细解析
2017-04-24 18:30 1153带有 MapReduce 的 Apache Had ... -
Hive 注意事项与扩展特性
2017-04-06 19:31 7451. 使用HIVE注意点 字符集 Hadoop和Hive都 ... -
Hive 元数据和QL基本操作学习整理
2017-04-06 14:36 1017Hive元数据库 Hive将元数据存储在RDBMS 中,一般常 ... -
Hive 文件压缩存储格式(STORED AS)
2017-04-06 09:35 2299Hive文件存储格式包括以下几类: 1.TEXTFILE ... -
Hive SQL自带函数总结
2017-04-05 19:25 1139字符串长度函数:length ... -
Hive 连接查询操作(不支持IN查询)
2017-04-05 19:16 718CREATE EXTERNAL TABLE IF NOT ... -
Hive优化学习(join ,group by,in)
2017-04-05 18:48 1814一、join优化 Join ... -
Hive 基础知识学习(语法)
2017-04-05 15:51 896一.Hive 简介 Hive是基于 Hadoop 分布式文件 ... -
Hive 架构与基本语法(OLAP)
2017-04-05 15:16 1242Hive 是什么 Hive是建立在Hadoop上的数据仓库基础 ... -
Hadoop MapReduce操作Hbase范例学习(TableMapReduceUtil)
2017-03-24 15:37 1208Hbase里的数据量一般都 ...
相关推荐
在搭建 Hadoop 2.6.5 伪分布式环境时,我们需要经历一系列步骤,确保所有必要的组件正确配置。以下是一个详细的指南: 1. **安装基础工具**: - `ssh`:用于远程登录和无密码登录。 - `ant`:Apache Ant,构建 ...
### Hadoop2.6.5 + Ubuntu16.04 完全分布式集群配置详解 #### 一、概述 在IT行业中,Hadoop是一个广泛使用的开源软件框架,用于分布式存储和处理大型数据集。本文旨在提供一个详尽的指南,帮助用户在Ubuntu 16.04...
Hadoop是Apache软件基金会...总之,Hadoop 2.6.5是大数据处理的重要工具,其安装和配置涉及多个步骤,包括环境准备、组件配置、集群设置、安全性和监控。理解并掌握这些知识点对于从事大数据工作的专业人士至关重要。
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将深入探讨Hadoop 2.6.5...通过这个压缩包提供的预配置文件,用户可以省去许多配置步骤,快速进入Hadoop的学习和开发阶段。
VmWare虚拟机中,hadoop-2.6.5版本的全分布式集群搭建
网上找的,适合于原生Hadoop2,包括Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,相信按照步骤来,都能顺利安装并运行Hadoop。
这个文件用于配置Hadoop运行时所需的环境变量,例如Java的安装路径等。 ``` export JAVA_HOME=/root/Downloads/jdk1.8.0_73 export HADOOP_HOME=/root/Downloads/hadoop-2.6.5 ``` 这里设置的`JAVA_HOME`指向了JDK...
Hadoop是一个开源的分布式计算框架,它允许在廉价硬件上处理和存储大量数据。Hadoop 2.6.5 版本是这个框架的一个稳定版本,提供了许多改进和优化。在Windows环境中部署Hadoop并不像在Linux那样直接,因为Hadoop最初...
本文将详细讲解如何在CentOS7.0环境下,使用Hadoop2.6.5版本进行自动化编译,确保你具备运行Java 1.8环境。首先,我们需要理解Hadoop的基本概念及其重要性。 Hadoop是Apache软件基金会开发的一个分布式计算框架,...
在安装或使用Hadoop 2.6.5版本时,你需要确保`winutils.exe`和`hadoop.dll`位于正确的路径,并且配置了相应的环境变量。首先,你需要将这两个文件放置在Hadoop安装目录的bin子目录下。然后,需要在系统的PATH环境...
在使用“hadoop-2.6.5_64.rar”之前,用户需要按照以下步骤进行安装和配置: 1. **解压文件**:首先将rar文件解压到指定目录。 2. **配置环境变量**:将Hadoop的bin目录添加到PATH环境变量中,以便于命令行调用。 3...
本资源提供的“hadoop2.6.5对应hadoop.dll、winutils.exe”便是为Windows用户量身打造的,包括了32位和64位的完整版本,以确保在各种Windows环境下顺利运行Hadoop。 `hadoop.dll` 是一个动态链接库文件,它是Hadoop...
1. **Hadoop环境搭建**:首先,你需要安装Java开发工具包(JDK)并配置好环境变量,因为Hadoop是用Java编写的,依赖于JDK运行。 2. **获取源码**:从Apache官方网站下载Hadoop 2.6.5的源代码,通常是一个.zip或.tgz...
压缩包内的两个文件"eclipse附配置hdfs相关文件"和"hadoop-2.6.5"分别对应Eclipse的HDFS配置文件和Hadoop 2.6.5的安装或解压目录。"eclipse附配置hdfs相关文件"可能包括了Eclipse插件(如Hadoop插件Hadoop-Eclipse-...
部署Hadoop2.6.5时,需要考虑到集群中的硬件配置。本文档中提到的硬件配置包括5台KVM虚拟机,每台虚拟机至少应有4GB RAM和一个CPU。在存储方面,每台机器至少需要100GB的存储空间。网络方面,每个节点都分配了一个...
在Windows下面使用Hadoop Java API进行开发的时候需要编译Windows版本的Hadoop/bin,这个资源是Windows10 64位系统下编译的hadoop 2.7.3的bin目录。下载Hadoop-2.6.5.tar.gz后解压然后替换bin。
`hadoop2.6.5源码zip`文件包含了完整的Hadoop 2.6.5源代码,开发者可以深入研究其内部机制,了解如何实现MapReduce计算模型、HDFS分布式文件系统以及YARN资源调度器等核心组件。 1. **MapReduce**:MapReduce是...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理大量数据,实现了大数据...尽管如此,对于学习和测试目的,Hadoop-2.6.5-winutils提供了一个方便的途径来在Windows上体验Hadoop的功能。
hadoop 2.6.5 windows本地调试 所需文件 hadoop.dll winutils.exe,下载之后解压,配置环境变量 HADOOP_HOME , %HADOOP_HOME%\bin , %HADOOP_HOME%\sbin, 并把 hadoop.dll 复制一份到C:\Windows\System32