初探hadoop,首先需要安装和配置。 配置这玩意,真的要看RP和心情的, 好的时候几分钟顺顺利利就搞定了, 不好的话几个小时都在郁闷的找why和searching goolge!
这次我的机器环境是: mac lion system 10.7.4, 使用的homebew版本是0.9.2, 建议大家使用homebrew之前先进行更新(运行 brew update), 之前我就是没有更新homebrew然后安装hadoop的时候是0.21.0版本的hadoop, 按照网上的步骤来配置怎么都卡在运行start-all.sh的时候毫无反应(其实就是无法启动namenode)。homebrew 0.9.2安装的hadoop是1.0.3
安装、配置步骤如下:
1. 下载安装hadoop 1.0.3
执行 brew install hadoop, 自动就能帮你装好(意思是下载下来、配置好环境变量,例如JAVA_HOME, 这里注意的是在mac上面,这个环境变量要这样配置:
export JAVA_HOME="$(/usr/libexec/java_home)"
by the way , java需要1.6版本的才行喔。
2. 配置hadoop
2.1) 第一步装好的hadoop是在哪里呢? 我们可以用brew list hadoop 来查看。位置应该是在:
/usr/local/Cellar/hadoop/1.0.3 。 我由于想把log和配置目录分开,所以我修改了 /usr/local/Cellar/hadoop/1.0.3/libexec/conf/hadoop-env.sh 这里的log位置(改下HADOOP_LOG_DIR这个就行)
2.2)配置core-site.xml、hdfs-site.xml、mapred-site.xml
* core-site.xml:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/tmp/hadoop/hadoop-${user.name}</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:8020</value>
</property>
</configuration>
* hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
* mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:8021</value>
</property>
<property>
</configuration>
其实这些都是基本配置, 网上一大把。配置的值的说明可以参考这3个地址:
写道
http://hadoop.apache.org/common/docs/r0.20.2/core-default.html
http://hadoop.apache.org/common/docs/r0.20.2/hdfs-default.html
http://hadoop.apache.org/common/docs/r0.20.0/mapred-default.html
2.3)格式化hadoop的文件系统hdfs。 执行命令 hadoop namenode -format
类似输出如下:
写道
12/08/12 20:59:29 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = jianpxs-MacBook-Pro.local/192.168.1.106
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 1.0.3
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.0 -r 1335192; compiled by 'hortonfo' on Tue May 8 20:31:25 UTC 2012
************************************************************/
Re-format filesystem in /Users/jianpx/hadoop/tmp/dfs/name ? (Y or N) Y
12/08/12 20:59:40 INFO util.GSet: VM type = 64-bit
12/08/12 20:59:40 INFO util.GSet: 2% max memory = 19.9175 MB
12/08/12 20:59:40 INFO util.GSet: capacity = 2^21 = 2097152 entries
12/08/12 20:59:40 INFO util.GSet: recommended=2097152, actual=2097152
2012-08-12 20:59:40.860 java[8202:1903] Unable to load realm info from SCDynamicStore
12/08/12 20:59:41 INFO namenode.FSNamesystem: fsOwner=jianpx
12/08/12 20:59:41 INFO namenode.FSNamesystem: supergroup=supergroup
12/08/12 20:59:41 INFO namenode.FSNamesystem: isPermissionEnabled=true
12/08/12 20:59:41 INFO namenode.FSNamesystem: dfs.block.invalidate.limit=100
12/08/12 20:59:41 INFO namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s)
12/08/12 20:59:41 INFO namenode.NameNode: Caching file names occuring more than 10 times
12/08/12 20:59:41 INFO common.Storage: Image file of size 112 saved in 0 seconds.
12/08/12 20:59:41 INFO common.Storage: Storage directory /Users/jianpx/hadoop/tmp/dfs/name has been successfully formatted.
12/08/12 20:59:41 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at jianpxs-MacBook-Pro.local/192.168.1.106
************************************************************/
2.4)启动hadoop。 执行start-all.sh就可以了。类似输出如下:
写道
starting namenode, logging to /Users/jianpx/hadoop/logs/hadoop-jianpx-namenode-jianpxs-MacBook-Pro.local.out
localhost: starting datanode, logging to /Users/jianpx/hadoop/logs/hadoop-jianpx-datanode-jianpxs-MacBook-Pro.local.out
localhost: starting secondarynamenode, logging to /Users/jianpx/hadoop/logs/hadoop-jianpx-secondarynamenode-jianpxs-MacBook-Pro.local.out
starting jobtracker, logging to /Users/jianpx/hadoop/logs/hadoop-jianpx-jobtracker-jianpxs-MacBook-Pro.local.out
localhost: starting tasktracker, logging to /Users/jianpx/hadoop/logs/hadoop-jianpx-tasktracker-jianpxs-MacBook-Pro.local.out
2.5) 再执行 jps命令就可以查看namenode是否启动了。正常输入:
写道
8759 Jps
8480 SecondaryNameNode
8549 JobTracker
8287 NameNode
8647 TaskTracker
2.6) 测试hadoop的文件系统命令, 执行: hadoop dfs -ls /
第一次的输出是:
写道
2012-08-12 21:03:44.412 java[8692:1903] Unable to load realm info from SCDynamicStore
ls: Cannot access .: No such file or directory.
据说这是HADOOP-7489 BUG,fix的方法是在hadoop-env.sh里面加入一句:
写道
export HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK -Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk"
OK, 到此为止, 在Mac Lion系统10.7.4上面使用homebrew安装hadoop 1.0.3 就成功了, 之后自己试下跑mapreduce吧! ^_^
Reference:
http://blogs.msdn.com/b/brandonwerner/archive/2011/11/13/how-to-set-up-hadoop-on-os-x-lion-10-7.aspx
分享到:
相关推荐
### Hadoop on Kubernetes:容器化的Hadoop方案及产品实践 #### 一、市场动态与容器化趋势 在当今快速发展的IT行业中,容器技术已经成为一种重要的趋势。随着容器化技术的不断成熟,越来越多的企业开始考虑将传统...
标题 "hadooponwindows-master.rar" 暗示这是一个关于在Windows系统上搭建Hadoop环境的项目或教程的压缩文件。Hadoop是一个开源框架,主要用于处理和存储大规模数据,最初设计时主要考虑的是运行在Linux集群上,但...
标题"Hadoop on Windows"指的是在微软Windows操作系统上安装和运行Hadoop分布式框架的过程。Hadoop最初是为Linux环境设计的,但随着其影响力的扩大,它也被移植到了Windows平台,使得在Windows环境中进行大数据处理...
请将hadoop2.7.1中的bin和etc删除,使用hadooponwindows-master中的bin和etc代替 资源说明: 有些时候,我们想在自己电脑windows系统上使用hadoop,这样省去了建虚拟机的麻烦——虚拟机会占用更多电脑系统资源。 ...
hadoop运行在windows上,基于hadoop2.7.1上,解压后替换原有的bin、etc目录,其它与linux 操作一致。
【Hadoop On Demand (HOD) 安装指南】 Hadoop On Demand (HOD) 是一个工具,允许用户在已有的Hadoop集群上快速启动和管理Hadoop作业,而无需直接管理和配置完整的Hadoop集群。它主要依赖于Torque资源管理系统,通过...
在Mac环境下编译Hadoop 3.1.4的源码以生成其本地库是一个涉及多步骤的过程,这对于理解Hadoop的内部工作原理以及自定义配置具有重要意义。Hadoop是Apache软件基金会的一个开源项目,主要处理分布式存储和计算任务。...
包括:hadoop-eclipse-plugin-2.6.0.jar,hadoop-2.6.0.tar.gz,hadoop-common-2.6.0-bin-master,支持Eclipse在windows上进行hadoop开发,实测可用。
在macOS上编译Hadoop 2.8.5是一个技术性的任务,因为官方预编译的版本可能不兼容macOS系统。以下是一份详细的步骤指南,解释如何解决这个问题: 首先,确保你的开发环境已经准备就绪。你需要安装Java Development ...
在Mac环境下搭建Hadoop 3.1.4源码,是一项对分布式计算系统有深入了解的任务。Hadoop是Apache基金会开源的一个大数据处理框架,它主要由HDFS(Hadoop Distributed File System)和MapReduce两大部分组成,同时还有...
- 使用Homebrew安装Hadoop:`brew install hadoop`。 - 安装完成后,需要对Hadoop进行一系列配置。 3. **设置Java环境变量**: - 首先确定Java安装路径:`localhost:~sudo$/usr/libexec/java_home`。 - 设置...
本压缩包文件“hadoop-3.1.3-mac-native_lib.zip”专门针对macOS系统,包含了在macOS环境下编译Hadoop 3.1.3源码后得到的本地库(native library)。这些本地库对于解决macOS用户在安装或运行Hadoop时可能出现的因...
此文件为hadoop-2.7.7.tar.gz,可在linux下直接进行安装,如在windows上安装,则需要hadooponwindows-master.zip,用windows-master里的文件替换解压好后hadoop的bin和etc即可。Hadoop 2.7.7是一款开源的分布式计算...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,主要用于分布式存储和计算。本文将详细讲解在Windows 64位系统上使用Hadoop 2.9.0时,hadoop.dll和winutils.exe这两个关键组件的作用、安装及配置过程。 首先,...
This book is written for anyone who needs to know how to analyze data using Hadoop.... You will know how to accomplish various tasks of data analysis in Hadoop by writing and running MapReduce programs.
Hadoop 2.7.3 Windows64位 编译bin(包含winutils.exe, hadoop.dll),自己用的,把压缩包里的winutils.exe, hadoop.dll 放在你的bin 目录 在重启eclipse 就好了
4. 配置Hadoop的环境变量,包括`HADOOP_HOME`、`PATH`,并编辑`hadoop-env.sh`文件设置`JAVA_HOME`。 5. 配置Hadoop的核心配置文件`core-site.xml`,指定HDFS的名称节点和临时目录。 6. 配置HDFS的配置文件`hdfs-...