该文件记录学习hadoop过程中碰到的一系列问题
(1)、hadoop测试中碰到的log4j:NULLAppender问题
前面安装hadoop单机版,碰到一个问题,一直没解决,就是在用hadoop versione命令查询hadoop版本的时候,出现
log4j:ERROR Could not find value for key log4j.appender.NullAppender
log4j:ERROR Could not instantiate appender named "NullAppender".
这个问题可能出现在hadoop应用中任何一个需要用到系统日志的应用当中(log4j是apache的一个开源日志项目,而且冒失是顶级项目,被hadoop项目所应用,google之)。
想了好久,考虑了hadoop本身问题,考虑了JDK问题,考虑了配置问题,总是没解决,今天和组员讨论了,也从网上重新找了资料,终于解决了
解决办法:在你的hadoop文件夹中找到etc/hadoop/log4j.properties文件,在文件中添加
log4j.appender.NullAppender=org.apache.log4j.varia.NullAppender
解决。。。。。好容易。。。怨念。。。
(二)、配置基于Eclipse的Hadoop应用开发环境不能连接DFS的问题
建立Map/Reduce Location时,创建了一个HDFS Master:My_Master 的NameNode节点,报错:
Error :incomplete HDFS URI,no host : hdfs://...什么的
原本以为是自己后面修改的hdfs的NameNode和DataNode配置与系统默认的配置冲突,后来找了好久,原来问题是在Hadoop中,主机名不要包含下划线“_”,但可以有横线“-”。
修改Master名字为 My-Master ,该问题解决。。。
( 三). 重启系统后,HDFS连接不上
节点之间的通信有时候会用到IP地址,有时候会用到计算机名,所以需要给出节点IP地址跟计算机名的对应,linux系统中这种对应关系体现在/etc/hosts文件中,编辑hosts文件,按“IP 计算机名”的形式把各个节点写进hosts文件。
其中::1这一行是跟IPv6相关的,不需要去理会。其中127.0.0.1这一行是要注释掉的,不然之后运行hadoop的时候会出现“Bad
connection to
DFS”的错误,DFS是hadoop的文件系统。每次重启系统,hosts文件中都会自动自动加上一行127.0.0.1(原因不解),运行
hadoop之前都要把这一行kill掉才行。
对于机器datanode1,hosts文件也要做类似处理。
分享到:
相关推荐
- **编译脚本调试**:编译过程中可能会遇到各种错误,需要仔细检查编译脚本中的错误信息,并根据错误信息进行相应的调试。 - **权限问题**:确保有足够的权限执行编译脚本。在 Linux 系统中,可能需要使用 `sudo` ...
从提供的文件内容中,我们可以提取出以下关于Hadoop 2.5的知识点: 1. Hadoop版本更新:文档中提到了Hadoop 2.5这一特定版本的发布,这意味着用户可以利用此版本中加入的新特性进行数据处理和分析。 2. 新特性:...
Map 阶段将数据分片并进行局部处理,Reduce 阶段则汇总 Map 阶段的结果,生成最终输出。 Hadoop 提供了三种运行模式: - **独立模式**:单机模式,用于测试和开发。 - **伪分布模式**:在单机上模拟分布式环境,...
描述中提到的“Hadoop3.2”是Hadoop的一个版本,相较于早期版本,它可能包含性能优化、新功能、错误修复等改进。例如,Hadoop 3.2可能会提供更好的资源调度、增强的NameNode HA(High Availability)和 Federation ...
2. **Hadoop常见错误及解决办法汇总.docx**:这份文档很可能是针对Hadoop在实际操作中遇到的问题和解决方案的集合。通过阅读,用户可以了解常见的错误类型,如NameNode和DataNode的故障、MapReduce作业的错误等,...
- **错误处理机制**:具备自动故障检测和恢复机制,例如TaskTracker故障时,JobTracker会重新调度任务。 #### 三、Hadoop生态系统其他组件 - **Zookeeper**:用于分布式系统的协调服务。提供了一种简单的文件系统...
在实际操作中,遇到任何问题都可以参考相关论坛或社区的帖子,例如文中提到的 2.7.0 版本的问题汇总帖子,以便找到解决方案。记住,耐心和细心是解决这类问题的关键。在编译完成后,你可以进一步学习 Hadoop 的内部...
**任务执行与环境**:Map-Reduce框架提供了丰富的API,允许用户监控任务的执行状态,包括任务进度、错误日志、内存使用情况等,有助于及时发现和解决执行过程中的问题。 **作业提交与监控**:用户可通过Hadoop...
- **Reduce阶段**:对Map阶段产生的键值对进行汇总,得到最终结果。 #### 2. Shuffle过程 Shuffle是MapReduce中的一个重要环节,主要包括排序、分区、组合等步骤。具体来说: - **排序**:Map任务完成后,会对输出...
Hadoop常见问题及解决办法汇总 Hadoop是一个基于Apache的开源大数据处理框架,广泛应用于大数据处理、数据分析和机器学习等领域。然而,在使用Hadoop时,经常会遇到一些常见的问题,这些问题可能会导致Hadoop集群...
故障监控则是及时发现系统运行中的错误,并通过日志记录错误原因。 Hadoop技术文档中还提到了一些具体实现,比如HdfsFileUtil类,这是一个HDFS操作的通用类,也是HdfsIO类和HdfsManage类的父类。HdfsIO类主要实现了...
在搭建和使用Hadoop的过程中,可能会遇到各种问题,例如配置错误、网络连接失败等。对于这些问题,可以通过查阅官方文档、社区论坛或邮件列表寻求帮助。同时,了解Hadoop的日志文件也是解决问题的关键之一。 #### ...
Map阶段将数据分片并应用特定函数,Reduce阶段则汇总Map阶段的结果,生成最终输出。 在这个"HTTP_.dat"文件中,我们可以假设它包含了用户通过HTTP协议产生的各种网络活动记录,例如访问的URL、请求时间、响应状态码...
Hadoop集群中的每个节点都可以接收查询请求,然后根据索引数据进行局部匹配,最后将结果汇总。 7. **优化与扩展性**:为了提高性能,分布式搜索系统可能会采用缓存技术,如倒排索引缓存,以及负载均衡策略,确保...
如果出现错误提示 `FAILED:HiveInternalError:java.lang.RuntimeException(Error while making MR scratch directory - check filesystem config(null))`,则需要检查 Hadoop 的配置文件 `core-site.xml` 中的 IP ...
当我们在Hadoop上执行作业时,系统会生成一系列的日志文件,这些文件通常包含了作业的启动时间、完成时间、中间结果、错误信息等关键信息。 1. **Hadoop日志管理**:在Hadoop作业执行过程中,会有如JobTracker(在...
Java库不仅提供了Hadoop的基本功能,如文件系统操作、分布式计算模型MapReduce等,还包含了一些与网络通信、序列化、错误处理等相关的核心组件。在Hadoop3lib中,我们可以找到这些Java库的文件,它们是Hadoop运行时...