搞了几天hadoop,网上虽然有好多资料,但还是遇到好多问题,在这里写写自己遇到的问题,希望能作为后车之鉴。
安装wygwin:
1,首先就是要下载cygwin(http://www.cygwin.com/setup.exe)然后运行,后面的步骤网上有好多资料,大家照着做就行,我当时也是跟着一路下来,但可能是我网速慢,过程中,提示setup.ini没有找到,我就没有留意,后来也装上了。但运行的时候怎么一直提示C:\cygwin\usr\bin下的一个文件没找到,我打开那个目录,发现根本就没有bin文件,我想可能没装完全,于是就卸了(控制面板没有该程序,我直接删了)重新装,可试了几次还这样,后来,我就换了个下载地址,结果就没出错。所以我感觉在下载的时候不一定非要选http://www.cygwin.cn。
然后配置环境变量,把cygwin下的bin和usr\bin 以及吧usr\sbin 放在path环境变量中,接下里就可以安装启动sshd 首先执行ssh-host-config要求输入是,输入NO,但有个选择大概是什么as service,好像就是要不要作为一个服务,要选择yes,这样接下来就可以在服务面板里启动CYGWIN sshd服务。配置ssh免密码登陆 可以如下:
cd ~/.ssh/
cp id_rsa.pub authorized_keys
然后执行exit退出,重新运行 cygwin,执行ssh localhost 网上也好多资料,可以查查。不出问题的话安装就成功了。
2,配置hadoop:
把网上下来的hadoop解压到C:\cygwin\home\Administrator下 配置环境变量HADOOP_HOME=C:/cygwin/home/Administrator/hadoop
然后把%HADOOP_HOME%/bin放到path变量中,%HADOOP_HOME%/lib 放到classpath中。
这里配置三个文件需要配置 在hadoop/config 下面core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
和hdfs-site.xml如下:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
<description>
If "true", enable permission checking in HDFS.
If "false", permission checking is turned off,
but all other behavior is unchanged.
Switching from one parameter value to the other does not change the mode,
owner or group of files or directories.
</description>
</property>
</configuration>
以及mapred-site.xml如下:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
另外需要修改hadoop-env.sh
export JAVA_HOME=/cygdrive/c/jdk 前面的#号要去了,是注释。路径最好不要带空格,可以把jdk拷贝到别的路径。如果有空格可以用用双引号括起来(我没试)。然后需要需要将${HADOOP_HOME}/bin/hadoop-config.sh文件中的第190行的一下的内容
JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m ${HADOOP_JAVA_PLATFORM_OPTS} org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"`
最后 就可以测试了
输入
bin/hadoop namenode -format
bin/hadoop start-all.sh
浏览器输入 http://loaclhost:50030
http://loaclhost:50030
如果能看见mapReduce和hdfs的页面,说明hadoop安装成功
3,运行wordcount程序
在%HADOOP_HOME%建立一个文件test 在里面放一些文本文件。如test.txt 里面随便输入 几个单词,不放如下:mu ha ha ni da ye da ye 然后输入:
bin/hadoop dfs -put test test
bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount test outfile
查看结果:bin/hadoop dfs -cat outfile/*
4,在eclipse中用hadoop
下载hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar
https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar
注意不要用hadoop-0.20.2下自带的eclise插件,那个是坑爹的。否则会导致run on Hadoop 无反应。这个插件的版本是配合eclipse3.5的。下载后将其重命名为hadoop-0.20.2-eclipse-plugin.jar,并放入到eclipse插件目录plugins中。
启动eclipse:. 到‘Windows’ -> ‘Preference’ -> 'Hadoop Map/Reduce',配置Hadoop Installation Directory
启动eclipse:打开windows->open perspective->other->map/reduce 可以看到map/reduce开发视图。设置Hadoop location.
打开windows->show view->other-> map/reduce Locations视图,在点击大象后【new Hadoop location】弹出的对话框(General tab)进行参数的添加:
Location name: 任意
map/reduce master: 与mapred-site.xml里面mapred.job.tracker设置一致。
DFS master:与core-site.xml里fs.default.name设置一致。
User name: 服务器上运行hadoop服务的用户名。
这些已经足够用。当然,如果你需要特殊设置,那么打开Advanced parameters设置面板,查看当前的选项以及修改其值.
创建Map/Reduce Project。运行最简单的WordCount程序。
点击Run on hadoop, 运行程序。你可以看到在output文件夹中出现文本段
运行时可能会出现内存溢出的异常:
原因是客户端程序运行时java虚拟机内存分配不够,修改run configuration(run as >run configurations),选择Arguments选项卡,在VM arguments栏中加入-Xmx1024m,保存后执行没有问题(即将执行时虚拟机内存调大)
分享到:
相关推荐
通过上述步骤,我们可以在Windows环境下成功安装并配置好Hadoop,为后续的大数据分析工作打下坚实的基础。需要注意的是,在实际操作过程中可能会遇到各种问题,需要耐心调试和解决。同时,对于大型生产环境来说,...
总的来说,"hadoop2.8 window支持bin文件"意味着在Windows环境下安装和配置Hadoop 2.8时,你需要关注"bin"目录的替换,确保正确设置环境变量,配置Hadoop的XML配置文件,并理解如何使用命令行工具与Hadoop集群交互。...
首先,需要安装 Eclipse 3.3.2 和 Hadoop 0.20.2-eclipse-plugin.jar 插件,插件可以在 Hadoop 0.20.2/contrib/eclipse-plugin 目录下找到。将插件复制到 Eclipse/plugins 目录下,重启 Eclipse。 二、打开 ...
此资源包含了hadoop2.4.1版本,并且有linux环境下的hadoop集群搭建说明以及eclipse下配置hadoop的插件,linux和window下都使用hadoop2.4.1只不过是lib下的native中资源库不一样(本资源都是64位)
标题中的“在eclipse中配置hadoop插件”是指在集成开发环境Eclipse中安装和配置Hadoop插件,以便于开发和调试Hadoop MapReduce项目。这个过程涉及到多个步骤和知识点,包括Eclipse的扩展性、Hadoop的开发工具支持...
7. **启动Hadoop服务**:在命令行中,使用`start-dfs.sh`和`start-yarn.sh`命令分别启动Hadoop的HDFS和YARN服务。如果遇到权限问题,可能需要以管理员权限运行命令提示符。 8. **检查Hadoop状态**:启动服务后,...
然而,在 Windows 系统中安装 Hadoop 并不是一件简单的事情,需要进行一些特殊的配置和设置。 在本教程中,我们将针对 Windows 系统,详细介绍如何从头安装 Hadoop,包括安装 Cygwin、配置环境变量、安装 Hadoop ...
1. **环境变量配置**:你需要设置系统环境变量,如HADOOP_HOME指向Hadoop的安装目录,并在PATH变量中添加Hadoop的bin目录,以便从命令行中直接调用Hadoop的可执行文件。 2. **Java兼容性**:Hadoop依赖Java运行环境...
window10系统中hadoop3.2.0所需插件和配置文件(bin文件夹和etc文件夹)。bin文件夹(是使用管理员权限解压winutils-master3.2.0.rar文件后,得到bin文件夹,将其复制到(是合并,而不是完全替换)得到的)替换掉...
本文将详细介绍如何在Windows环境下安装配置Hadoop 2.5.2,并在Eclipse中搭建开发环境。 #### 二、准备工作 在开始安装之前,确保已经完成以下准备工作: 1. **Java环境**:Hadoop基于Java编写,因此需要先安装...
在本文中,我们将深入探讨如何在Windows 10操作系统中使用Hadoop 2.7.3版本进行开发,特别关注“hadoop.dll”和“winutils.exe”这两个关键组件。Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在...
- 在Eclipse中配置Hadoop SDK,设置正确的Hadoop版本和Java版本。 #### 六、总结 通过以上步骤,您可以在Windows环境下快速地搭建起一个功能完善的Hadoop分布式处理环境,并结合Eclipse开发环境进行Hadoop应用...
这个资源包"Hadoop 2.7.2 (Window版本)"是专为在Windows操作系统上进行大数据开发设计的,它包含了Hadoop在Windows环境下的安装、配置和运行所需的所有组件。 Hadoop的核心由两个主要部分组成:HDFS(Hadoop ...
在大数据时代,掌握Hadoop的使用和管理是提升数据分析能力的重要一步。通过在Windows 10上编译和安装Hadoop,不仅可以熟悉Hadoop的内部结构,还可以为跨平台的开发和部署积累经验。在实际操作过程中,可能会遇到一些...
Window系统部署配置Hadoop,Spark需要的文件,Hadoop在window中在Apache中下载是不能直接使用的,资源中有兼容Windows的windows util工具包,直接放在Hadoop/bin下覆盖即可。再稍作修改etc\hadoop目录下的core-site....
在安装 Hadoop 插件时,需要复制 Hadoop 安装目录/contrib/eclipse-plugin/hadoop-0.20.203.0-eclipse-plugin.jar 到 Eclipse 安装目录/plugins/ 下,然后重启 Eclipse。 3. Hadoop Installation Directory 配置 ...
通过以上步骤,你已经在Windows环境中成功安装并配置了`winutils`,现在可以继续进行Hadoop的其他配置和测试,如启动DataNode、YARN等服务,或者运行MapReduce作业。在大数据的世界里,`winutils`是连接Windows与...
在Windows 10上安装和使用Hadoop通常需要解决一些平台兼容性问题,因为Hadoop最初是为Linux操作系统设计的。此bin文件集合可能包含了Hadoop的可执行文件、脚本和其他必要组件,如Hadoop分布式文件系统(HDFS)、...
在学习和使用Hadoop的过程中,了解Hadoop的架构、HDFS(Hadoop Distributed File System)、MapReduce编程模型以及YARN(Yet Another Resource Negotiator)资源调度系统是非常重要的。此外,掌握如何在Windows上...
然而,通过使用Cygwin——一个提供Linux命令行接口和工具的开源软件,我们可以让Hadoop在Windows上运行。以下是详细的步骤和相关知识点: **一、了解Hadoop** Hadoop是一个开源的分布式计算框架,最初由Apache基金...