自从入手了Mac之后,迫不及待的部署了Hadoop伪分布模式,以为按照文档一步一步来即可,谁知过程还是遇到了好多坑。。。
1.
编译Hadoop-2.6.0源码
a. Mac默认jdk位置在 /Library/Java/JavaVirtualMachines/jdk1.7.0_75.jdk/Contents/Home/bin/,但还是要设置环境变量,或者自己下个,用系统的感觉目录组织很奇怪。 。。
http://docs.oracle.com/javase/7/docs/webnotes/install/mac/mac-jdk.html
b. 除了安装ant ,maven ,protoc,java这些必备的之外,那些cmake,make等依赖包也不能少
c. ant需要tool.jar的位置,export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar没用 解决方法是 在java目录下to create the Home/Classes dir, then symlink ../lib/tools.jar to /Home/classes.jar
2.
Hadoop启动过程
a. 默认情况下,/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件,我们要复制该文件,并命名为mapred.xml,该文件用于指定MapReduce使用的框架。
b. jps后没有jobtracker是正常滴,hadoop2.X以后的框架没有jobtracker了,是用了yarn框架
c. jps没有datanode是由于多次format namenode节点导致 namdenode 的 namespaceID 与 datanode的namespaceID 不一致,从而导致namenode和 datanode的断连。(因为在多次format中 有 reformat namenode的提示,多次format中不用已知都选Y 去format namenode的 namespaceID ,这样很容易造成ID不一致的情况)将因format更新的 dfs.name.dir/current/VERSION中的clusterID 更新到 dfs.data.dir/current/VERSION中的clusterID中去(改的是dfs.data.dir中的ID)
d. namenode 默认在/tmp下建立临时文件,但关机后,/tmp下文档自动删除,再次启动Master造成文件不匹配,所以namenode启动失败。在core-site.xml中指定临时文件位置,然后重新格式化,终极解决!
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/grid/hadoop1.7.0_17/hadoop_${user.name}</value>
<property>
value中的路径只要不是/tmp 就行。
BTW,每天用MacJournal记录学习和生活的点点滴滴,还是蛮爽的。。。
分享到:
相关推荐
安装hadoop教程有很多网上,在安装过程中遇到坑记录下和处理命令
此外,还会介绍如何进行暴力卸载的操作,帮助读者解决在安装和卸载过程中遇到的各种“坑”。 ### Hadoop CDH5.7.0 离线安装流程 #### 1. MySQL 5.6.23 安装 首先,MySQL作为Hadoop的重要组件之一,在安装Hadoop...
【实验1-安装Hadoop-孙淼1】的实验报告主要涵盖了大数据处理技术课程中的一个核心环节——Hadoop的安装和部署。实验的目标是让学习者深入理解Hadoop的项目结构,熟悉安装流程,并掌握分布式集群的配置和使用。实验...
一开始使用的是原生的hadoop2.6.0编译的hadoop.dll,但是一直遇到这个问题Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String...
卢亿雷在CSDN主办的“Hadoop英雄会——暨Hadoop 10周年生日大趴”上,从AdMaster技术副总裁的角度,深入探讨了Hadoop应用及其在实际操作中遇到的挑战,并分享了ADH的特色以及优化策略。 首先,卢亿雷讲解了Hadoop...
主要介绍了Python连接Hadoop数据中遇到的各种坑,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
例如,如果您安装了Hadoop 2.7.5,那么应将`winutils.exe`放在`Hadoop安装目录\bin`下。 - **配置环境变量:**在系统的环境变量中设置`HADOOP_HOME`指向Hadoop的安装目录。这样,Spark就可以找到必要的工具。 #####...
在本文中,我们将深入探讨如何在 CentOS 7.9 环境下,通过 RPM 包部署 CDH6.2.0,确保安装过程顺利,避免常见...同时,由于 CDH 的复杂性,安装过程中可能遇到各种情况,及时查阅官方文档和社区资源是解决问题的关键。
然而,由于跨平台和依赖性的问题,安装和配置TensorFlow on Spark可能较为复杂,官方文档可能并不完全涵盖所有可能出现的问题,这可能是描述中提到“官方的很坑”的原因。 首先,安装`tensorflowonspark`需要确保...
在IT行业中,Mapper通常指代一种用于数据处理的技术,尤其是在大数据处理框架如Hadoop中。Mapper负责将原始数据转换成中间格式,以便后续处理。本文将通过对幼儿园大班阅读区活动现状的研究过程,类比为在IT领域中...
在Spark on Yarn的部分,卢亿雷分享了一些关于Spark作业在Yarn上运行时可能遇到的“坑”。例如,如果Hadoop集群版本低于2.6,可能会遇到Executor在内存未满的情况下被kill的情况。为了应对这种情况,他建议升级...
在技术栈的搭配方面,Kafka可以与Flume、Storm、Spark、Hadoop、HBase、Elasticsearch(ES)、Solr等进行搭配使用,形成一个大数据处理的完整生态。在生产者(Producer)和消费者(Consumer)端,Kafka支持多种编程...
在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈...
在总结EC融入HDFS的实践过程中,毛宝龙提到了一些成功上线的经验,以及在实践中应该避免的“坑”。通过持续的努力和优化,京东在Hadoop存储技术方面取得了显著的进步。未来,随着技术的不断迭代和优化,我们有理由...
酷狗使用Hadoop的HDFS作为主要的存储系统,同时结合Spark、Flink等实时计算框架,实现数据的快速加载和处理。此外,他们还构建了数据ETL(提取、转换、加载)流程,确保数据格式的一致性和完整性。 三、数据清洗 ...
从表⾯上看"别⼈"的⼯作"有趣、赚钱、有发展",等到⼊⾏之后,才发现⾃⼰好像从⼀个深坑跳到另⼀个更深的坑⾥。很多 看似光鲜亮丽的⾏业,背后都有常⼈不能了解的艰⾟。最主要的还是要找到合适的⽅法和遇到对的⼈。 ...