下载:http://mirrors.cnnic.cn/apache/hadoop/common/
http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/
安装:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html
mr 例子:http://hi.baidu.com/whyang2006/item/436a720c4e15a013addc70c4
主启动、停止:
$ start-all.sh
$ stop-all.sh
[root@Master ~]# su - hadoop -bash-3.2$ /usr/hadoop/bin/start-all.sh starting namenode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-namenode-Master.Hadoop.out 192.168.1.101: starting datanode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-datanode-Slave1.Hadoop.out 192.168.1.100: starting secondarynamenode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-secondarynamenode-Master.Hadoop.out starting jobtracker, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-jobtracker-Master.Hadoop.out 192.168.1.101: starting tasktracker, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-tasktracker-Slave1.Hadoop.out
安装成功测试:
主服务器:
-bash-3.2$ jps
10030 JobTracker
9790 NameNode
10143 Jps
9949 SecondaryNameNode
从服务器
-bash-3.2$ jps
11579 TaskTracker
11501 DataNode
11660 Jps
问题1:不能启动从节点
2013-12-24 00:49:01,198 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because org.apache.hadoop.util.DiskChecker$DiskErrorException: No mapred local directories are writable
2013-12-24 00:48:59,819 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid directory in dfs.data.dir: can not create directory: /usr/hadoop/tmp/dfs/data
解决:chown -R hadoop:hadoop hadoop
ssh无密传输:
su - hadoop
生成非对称加密的私钥和公钥
ssh-keygen -t rsa -P ''
一路回车,默认值。
运行命令后会再/home/hadoop 目录下生成.ssh的隐藏文件夹,运行ll -a 查看是否生成成功
[hadoop@Master ~]$ ssh-keygen -t rsa -P ''
Generating public/private rsa key pair.
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):
Created directory '/home/hadoop/.ssh'.
Your identification has been saved in /home/hadoop/.ssh/id_rsa.
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.
The key fingerprint is:
c0:e3:2e:a5:38:a3:0d:25:0a:50:93:57:28:4d:b9:60 hadoop@Master.Hadoop
[hadoop@Master ~]$ ll -a
total 16
drwx------ 3 hadoop hadoop 4096 Dec 19 07:44 .
drwxr-xr-x 4 root root 4096 Aug 16 2012 ..
drwx------ 2 hadoop hadoop 4096 Dec 19 07:44 .ssh
修改授权文件的权限
chmod 600 ~/.ssh/authorized_keys
切换到root用户修改sshd_config文件,使ssh支持无密码登录
su - root
vi /etc/ssh/sshd_config
去掉注释
RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile .ssh/authorized_keys #公钥文件路径(和上面生成的文件同
将master节点上的公钥复制到slave节点的/home/hadoop目录下
scp ~/.ssh/id_rsa.pub hadoop@192.168.1.101:~/
hadoop用户连接slave机器
创建.ssh的隐藏文件夹
mkdir ~/.ssh
修改权限
chmod 700 ~/.ssh
将master的公钥信息加入到slave的授权文件中
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
完成从slave ssh登录master的过程,master同样需要slave的公钥id_rsa.pub
测试ssh成功:
ssh 192.168.1.101
如果没有提示输入密码则无密码登录设置成功否则设置失败
pig hive http://zhidao.baidu.com/link?
url=6N3qTl2WrtMZ6cl1sPekVrTjdFxtSBTGvQGEuMwuEK0WmAVWhCVmayS-JzfkZiu0GqFWm1WKXXdrsPmHfQVttK
# hadoop job -list
0 jobs currently running
JobId State StartTime UserName Priority SchedulingInfo
--------------
参考: http://blog.csdn.net/yy_done/article/details/7006489
cp /usr/hadoop/src/examples/org/apache/hadoop/examples/WordCount.java ~
mkdir classes
javac -classpath /usr/hadoop/hadoop-core-1.2.1.jar:/usr/hadoop/lib/commons-cli-1.2.jar -d classes WordCount.java
jar -cvf wordcount.jar -C classes/ .
hadoop jar wordcount.jar org.apache.hadoop.examples.WordCount input output
-bash-3.2$ hadoop fs -put file01 input
-bash-3.2$ hadoop fs -put file02 input
-bash-3.2$ hadoop jar wordcount.jar org.apache.hadoop.examples.WordCount input output
14/02/23 23:28:09 INFO input.FileInputFormat: Total input paths to process : 2
14/02/23 23:28:09 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/02/23 23:28:09 WARN snappy.LoadSnappy: Snappy native library not loaded
14/02/23 23:28:10 INFO mapred.JobClient: Running job: job_201402232134_0015
14/02/23 23:28:11 INFO mapred.JobClient: map 0% reduce 0%
14/02/23 23:28:29 INFO mapred.JobClient: map 100% reduce 0%
14/02/23 23:28:37 INFO mapred.JobClient: map 100% reduce 33%
14/02/23 23:28:38 INFO mapred.JobClient: map 100% reduce 100%
14/02/23 23:28:40 INFO mapred.JobClient: Job complete: job_201402232134_0015
14/02/23 23:28:40 INFO mapred.JobClient: Counters: 29
14/02/23 23:28:40 INFO mapred.JobClient: Job Counters
14/02/23 23:28:40 INFO mapred.JobClient: Launched reduce tasks=1
14/02/23 23:28:40 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=33728
14/02/23 23:28:40 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0
14/02/23 23:28:40 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0
14/02/23 23:28:40 INFO mapred.JobClient: Launched map tasks=2
14/02/23 23:28:40 INFO mapred.JobClient: Data-local map tasks=2
14/02/23 23:28:40 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=9437
14/02/23 23:28:40 INFO mapred.JobClient: File Output Format Counters
14/02/23 23:28:40 INFO mapred.JobClient: Bytes Written=33
14/02/23 23:28:40 INFO mapred.JobClient: FileSystemCounters
14/02/23 23:28:40 INFO mapred.JobClient: FILE_BYTES_READ=55
14/02/23 23:28:40 INFO mapred.JobClient: HDFS_BYTES_READ=268
14/02/23 23:28:40 INFO mapred.JobClient: FILE_BYTES_WRITTEN=164949
14/02/23 23:28:40 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=33
14/02/23 23:28:40 INFO mapred.JobClient: File Input Format Counters
14/02/23 23:28:40 INFO mapred.JobClient: Bytes Read=38
14/02/23 23:28:40 INFO mapred.JobClient: Map-Reduce Framework
14/02/23 23:28:40 INFO mapred.JobClient: Map output materialized bytes=61
14/02/23 23:28:40 INFO mapred.JobClient: Map input records=2
14/02/23 23:28:40 INFO mapred.JobClient: Reduce shuffle bytes=61
14/02/23 23:28:40 INFO mapred.JobClient: Spilled Records=8
14/02/23 23:28:40 INFO mapred.JobClient: Map output bytes=62
14/02/23 23:28:40 INFO mapred.JobClient: CPU time spent (ms)=12970
14/02/23 23:28:40 INFO mapred.JobClient: Total committed heap usage (bytes)=248127488
14/02/23 23:28:40 INFO mapred.JobClient: Combine input records=6
14/02/23 23:28:40 INFO mapred.JobClient: SPLIT_RAW_BYTES=230
14/02/23 23:28:40 INFO mapred.JobClient: Reduce input records=4
14/02/23 23:28:40 INFO mapred.JobClient: Reduce input groups=4
14/02/23 23:28:40 INFO mapred.JobClient: Combine output records=4
14/02/23 23:28:40 INFO mapred.JobClient: Physical memory (bytes) snapshot=327409664
14/02/23 23:28:40 INFO mapred.JobClient: Reduce output records=4
14/02/23 23:28:40 INFO mapred.JobClient: Virtual memory (bytes) snapshot=1123270656
14/02/23 23:28:40 INFO mapred.JobClient: Map output records=6
-bash-3.2$ hadoop fs -cat output/part-r-00000
Bye 1
Goodbye 1
Hadoop 2
World 2
-------------
安装插件:把hadoop-eclipse-plugin-1.2.1.jar 放到eclipse\plugins下,重启eclipse。
eclispe调试worldcount修改如下:
conf.set("mapred.job.tracker", "192.168.1.100:9001"); String[] ars = new String[] { "input","output" }; String[] otherArgs = new GenericOptionsParser(conf, ars).getRemainingArgs();
eclipse运行报错:ClassNotFoundException: org.apache.hadoop.examples.WordCount$IntSumReducer
解决:eclipse4.2 换位3.7, hadoop-eclipse-plugin-1.2.1.jar 插件和eclipse4.2不兼容的问题。
-----
查看日志:
more /usr/hadoop/logs/hadoop-hadoop-namenode-Master.Hadoop.log
tail -200 /usr/hadoop/logs/hadoop-hadoop-namenode-Master.Hadoop.log
tail -200 /usr/hadoop/logs/hadoop-hadoop-datanode-Slave1.Hadoop.log
问题1:java.io.IOException: NameNode is not formatted.
解决:hadoop namenode -format
注意:Re-format filesystem in /usr/hadoop/tmp/dfs/name ? (Y or N) Y 注意输入大写Y,小写不行。
问题2:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /usr/hadoop/tmp/dfs/data: namenode namespaceID = 2053604871; datanode namespaceID = 1352668130
解决:namespaceID 不一致问题。修改了datanode的/usr/hadoop/tmp/dfs/data/current的VERSION文件的namespaceID=2053604871
问题3:java.io.FileNotFoundException: /usr/hadoop/tmp/dfs/name/current/VERSION (Permission denied)
解决:不小心用了root管理员账号启动了start-all.sh,后来取消了,但是还是在/home/hadoop/tmp/生成了一些所有者为root的文件。将文件全部删除 或者改为hadoop用户 # chown -R hadoop:hadoop /usr/hadoop/tmp
相关推荐
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...
此文件为hadoop-2.7.7.tar.gz,可在linux下直接进行安装,如在windows上安装,则需要hadooponwindows-master.zip,用windows-master里的文件替换解压好后hadoop的bin和etc即可。Hadoop 2.7.7是一款开源的分布式计算...
Apache Hadoop是一个开源框架,主要用于分布式存储和计算大数据集。Hadoop 3.1.0是这个框架的一个重要版本,提供了许多性能优化和新特性。在Windows环境下安装和使用Hadoop通常比在Linux上更为复杂,因为Hadoop最初...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。标题"hadop2.7.x_winutils_exe&&hadoop_dll"暗示我们关注的是Hadoop 2.7.x版本在Windows环境下的两个关键组件:`winutils.exe`和`...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...
在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...
在Hadoop生态系统中,Hadoop 2.7.7是一个重要的版本,它为大数据处理提供了稳定性和性能优化。Hadoop通常被用作Linux环境下的分布式计算框架,但有时开发者或学习者在Windows环境下也需要进行Hadoop相关的开发和测试...
在Windows环境下安装Hadoop 3.1.0是学习和使用大数据处理技术的重要步骤。Hadoop是一个开源框架,主要用于分布式存储和处理大规模数据集。在这个过程中,我们将详细讲解Hadoop 3.1.0在Windows上的安装过程以及相关...
标题 "hadoop2.6 hadoop.dll+winutils.exe" 提到的是Hadoop 2.6版本中的两个关键组件:`hadoop.dll` 和 `winutils.exe`,这两个组件对于在Windows环境中配置和运行Hadoop至关重要。Hadoop原本是为Linux环境设计的,...
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop2.6.0是这个框架的一个重要版本,它包含了多项优化和改进,以提高系统的稳定性和性能。在这个压缩包中,我们关注的是与Windows...
在Hadoop生态系统中,`winutils.exe`和`hadoop.dll`是Windows环境下运行Hadoop必备的组件,尤其对于开发和测试环境来说至关重要。这里我们深入探讨这两个组件以及与Eclipse插件的相关性。 首先,`winutils.exe`是...
Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...
Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点,通过源码分析,可以更好地掌握Hadoop的工作机制、关键组件的实现方式和内部通信流程。Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。这个压缩包文件包含的是"Hadoop.dll"和"winutils.exe"两个关键组件,它们对于在Windows环境下配置和运行Hadoop生态系统至关重要。 首先,...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是处理和存储大量数据的能力。这个名为"Hadoop3.1.3.rar"的压缩包文件包含了Hadoop 3.1.3版本的所有组件和相关文件,使得用户可以下载并进行...