`
coderplay
  • 浏览: 578080 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

hadoop的几点经验

阅读更多

1. 机器较多时, 编辑各个节点的/etc/hosts文件会很麻烦, 一般会架一个dns服务器进行解析.

2. 实现WritableComparable接口定义自己的写入方式时, 要注意hashCode()方法. 默认是使用Object.hashCode()这样的话, 会用对象的引用做为hashcode. Mapper会将相同key中hashCode()相同的聚在一起发送给Reducer.

比如Text的hashCode实现:

public class Text implements WritableComparable {
...
  /** hash function */
  public int hashCode() {
    return WritableComparator.hashBytes(bytes, length);
  }
...
}

 

这就是WordCount实例为什么相同的字符串为什么会通过Mapper聚在一起的原因了. 

3. Mapper之后会根据key值排序, 使用实现WritableComparable接口的类的compareTo方法,或者注册一个Comparator.参考IntWritable的实现. Mapper不能根据value值排序, 这是mapreduce模型的规定. 所以要对value排序,只能把Mapper的结果inverse过来后,再根据key值排序. 即用InverseMapper与IdentityReducer.

 

 

分享到:
评论
2 楼 dapp66 2010-03-04  
不错,不错,学习了
1 楼 chenlb 2008-10-10  
期待楼主的更多经验

相关推荐

    hadoop几个实例

    以下是关于Hadoop的一些核心知识点,以及可能在这些实例中涉及的内容。 1. **Hadoop架构**:Hadoop主要由两个核心组件构成,HDFS(Hadoop Distributed File System)和MapReduce。HDFS负责数据的分布式存储,而...

    hadoop的dll文件 hadoop.zip

    解决这些问题通常需要检查以下几点: 1. 确保dll文件与Hadoop版本兼容。 2. 检查Java环境是否正确配置,包括JDK版本和JAVA_HOME环境变量。 3. 确认Hadoop的配置文件(如core-site.xml、hdfs-site.xml和mapred-site....

    hadoop的hadoop.dll和winutils.exe下载

    在下载这两个文件时,有几点需要注意: 1. 确保你从可信赖的源获取文件,因为这些文件可能会包含恶意软件,对你的系统造成风险。 2. 下载的版本应与你的Hadoop版本兼容,不兼容的版本可能导致各种问题,如运行错误、...

    hadoop2.7.4 hadoop.dll包括winutils.exe

    在使用这些组件进行开发和测试时,开发者需要注意以下几点: 1. **环境配置**:在Windows上运行Hadoop,需要正确配置`HADOOP_HOME`、`JAVA_HOME`等环境变量,确保系统能找到`hadoop.dll`和`winutils.exe`。 2. **...

    各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集

    在使用这些文件时,需要注意以下几点: 1. 确保下载的`hadoop.dll`和`winutils.exe`与你的Hadoop版本兼容。 2. 配置环境变量,包括`HADOOP_HOME`和`PATH`,以便系统能找到这些文件。 3. 对于`winutils.exe`,确保...

    大数据安全-kerberos技术-hadoop安装包,hadoop版本:hadoop-3.3.4.tar.gz

    在配置过程中,还需要注意以下几点: 1. 修改Hadoop配置文件(如core-site.xml、hdfs-site.xml、yarn-site.xml等),设置安全相关的参数,启用Kerberos认证。 2. 配置Hadoop的kerberos认证策略,例如,决定哪些操作...

    hadoop.dll、winutils.exe

    配置Hadoop在Windows上的步骤通常包括以下几点: 1. **解压安装包**:首先,你需要将下载的`hadoop2.6.3_windows_bin`压缩包解压到一个适当的目录,例如`C:\hadoop`。 2. **配置环境变量**:接下来,你需要编辑...

    hadoop2.8.3包含winutils.exe和hadoop.dll

    为了使Hadoop在Windows上成功运行,还需要注意以下几点: - 环境变量配置:你需要将Hadoop的安装路径添加到系统的PATH环境变量中,这样在任何目录下都可以直接运行Hadoop的命令。 - 安全性设置:winutils.exe通常...

    hadoop2.6,hadoop.dll、winutils.exe下载

    在使用这些文件进行安装和配置时,用户需要注意以下几点: 1. 确保操作系统是64位,因为提供的文件是为64位系统设计的。 2. 下载的文件应解压到合适的目录,通常是在Hadoop安装目录的bin子目录下。 3. 设置HADOOP_...

    spark-3.2.1 不集成hadoop安装包

    对于使用这个版本的Spark,开发者或管理员需要自行处理以下几点: 1. **Hadoop配置**:需要手动配置Spark以连接到现有的Hadoop集群,包括设置Hadoop的配置文件路径(如core-site.xml、hdfs-site.xml等),确保Spark...

    hadoop单点运行方式

    在Hadoop的单点运行方式中,我们主要关注以下几个知识点: 1. **Hadoop简介**: Hadoop是Apache基金会开源的一个分布式计算框架,它允许在廉价硬件上处理大规模数据。Hadoop的核心组件包括HDFS(Hadoop ...

    hadoop.dll 资源包

    通常,这样的说明会涵盖以下几点: 1. **文件位置**:说明文件应被放置在哪个目录下,可能是Hadoop安装目录下的bin、lib或者其他相关子目录。 2. **环境变量**:可能需要更新系统路径(Path)环境变量,确保操作...

    Eclipse Hadoop2.7插件

    在使用Eclipse Hadoop2.7插件时,需要注意以下几点: - 首先,确保你的Eclipse环境已经安装了Java Development Toolkit (JDK),因为Hadoop是用Java编写的。 - 其次,下载并安装Hadoop2.7环境,配置好环境变量,以便...

    Hadoop知识点梳理

    ### Hadoop知识点梳理 #### 一、Hadoop概述与启动停止命令 Hadoop是一个开源的分布式计算框架,专为大规模数据集的存储和处理而设计。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce计算框架...

    hadoop集群维护手册.pdf

    Hadoop 版本升级需要注意以下几点: 1. 备份 dfs.namenode.dir 下的文件和 hdfs 文件目录的元数据信息。 2. 停止所有节点,重新部署 Hadoop 并替换 conf 文件夹下的所有文件。 3. 使用 bin/start-dfs.sh -upgrade ...

    hadoop权威指南4和源码

    在深入探讨Hadoop的知识点时,我们可以从以下几个方面进行: 1. **Hadoop概述**:Hadoop是一个开源的分布式计算框架,由Apache软件基金会维护。它允许在廉价硬件上处理和存储大量数据,主要由两个核心组件构成:...

    hadoop-common-0.23.8.jar_hadoop_

    Hadoop Common的组成部分主要包括以下几个方面: 1. **网络通信**:Hadoop Common包含了如Socket和Netty等网络通信库,使得节点间能高效地传输数据。 2. **文件系统接口**:提供了一套统一的文件系统接口,使得...

    hadoop-3.2.0.tar.gz

    在Hadoop 3.2.0中,我们可以关注以下几个关键知识点: 1. **YARN(Yet Another Resource Negotiator)**:作为Hadoop的资源管理器,YARN在3.2.0版本中进一步提升了调度效率和资源利用率。它支持更灵活的调度策略,...

Global site tag (gtag.js) - Google Analytics